Équilibre

Qwen: Qwen3 VL 32B Instruct

Name: Qwen: Qwen3 VL 32B Instruct
Brand: qwen
Price: 104 USD
Rating: 2.5 (1 reviews)

Qwen3-VL-32B-Instruct est un modèle vision-langage multimodal de pointe et à grande échelle, méticuleusement conçu pour une compréhension et un raisonnement inégalés sur divers types de données, y compris le texte, les images et la vidéo. Avec 32 milliards de paramètres impressionnants, ce modèle intègre de manière transparente une perception visuelle profonde avec des capacités sophistiquées de compréhension de texte. Il excelle dans le raisonnement spatial fin, l'analyse complète de documents et de scènes, et la compréhension vidéo à long terme, ce qui le rend idéal pour les applications complexes du monde réel. Ce modèle bénéficie d'un support OCR robuste pour 32 langues et utilise des techniques avancées de fusion multimodale telles que les architectures Interleaved-MRoPE et DeepStack pour des performances améliorées. Optimisé pour l'interaction agentique et l'utilisation d'outils visuels, Qwen3-VL-32B offre des performances de pointe pour un large éventail de tâches multimodales complexes. Il offre une fenêtre contextuelle substantielle de 262K tokens et est disponible à un prix compétitif de 0,50 $/1,50 $ par million de tokens (entrée/sortie) dans le cadre du niveau d'accès PRO.

MultimodalVisionLangageOCRAnalyse vidéo

50%Qualité

131KFenêtre de contexte

50%Vitesse

Catégorie

Économique

✓Accès API

✓Contexte unifié

✓RAG + Knowledge Base

✓Support 24/7

Essayer ce modèle Comparer les modèles