Qwen3-VL-32B-Instruct est un modèle vision-langage multimodal de pointe et à grande échelle, méticuleusement conçu pour une compréhension et un raisonnement inégalés sur divers types de données, y compris le texte, les images et la vidéo. Avec 32 milliards de paramètres impressionnants, ce modèle intègre de manière transparente une perception visuelle profonde avec des capacités sophistiquées de compréhension de texte. Il excelle dans le raisonnement spatial fin, l'analyse complète de documents et de scènes, et la compréhension vidéo à long terme, ce qui le rend idéal pour les applications complexes du monde réel. Ce modèle bénéficie d'un support OCR robuste pour 32 langues et utilise des techniques avancées de fusion multimodale telles que les architectures Interleaved-MRoPE et DeepStack pour des performances améliorées. Optimisé pour l'interaction agentique et l'utilisation d'outils visuels, Qwen3-VL-32B offre des performances de pointe pour un large éventail de tâches multimodales complexes. Il offre une fenêtre contextuelle substantielle de 262K tokens et est disponible à un prix compétitif de 0,50 $/1,50 $ par million de tokens (entrée/sortie) dans le cadre du niveau d'accès PRO.
✅ Idéal pour
🚀 Capacités
Spécifications
| Fournisseur | qwen |
| Fenêtre de contexte | 131,072 tokens |
| Sortie max | 32,768 tokens |
| Forfait minimum | Équilibre |
Tarifs
| Prix d'entrée | $0.1040 / 1M tokens |
| Prix de sortie | $0.4160 / 1M tokens |
💡 Avec l'abonnement PRO, le coût est réduit de 20%
Prêt à essayer Qwen: Qwen3 VL 32B Instruct ?
Obtenez 1 000 tokens gratuits à l'inscription
Commencer gratuitement