Qwen3-VL-32B-Instruct es un modelo de visión-lenguaje multimodal a gran escala y de vanguardia, diseñado meticulosamente para una comprensión y un razonamiento inigualables en diversos tipos de datos, incluidos texto, imágenes y video. Con unos impresionantes 32 mil millones de parámetros, este modelo integra a la perfección una percepción visual profunda con capacidades sofisticadas de comprensión de texto. Sobresale en el razonamiento espacial de grano fino, el análisis exhaustivo de documentos y escenas, y la comprensión de videos a largo plazo, lo que lo hace ideal para aplicaciones complejas del mundo real. Este modelo cuenta con un sólido soporte de OCR para 32 idiomas y aprovecha técnicas avanzadas de fusión multimodal como las arquitecturas Interleaved-MRoPE y DeepStack para un rendimiento mejorado. Optimizado para la interacción agéntica y el uso de herramientas visuales, Qwen3-VL-32B ofrece un rendimiento de vanguardia para una amplia gama de tareas multimodales complejas. Ofrece una ventana de contexto sustancial de 262K tokens y está disponible a un precio competitivo de $0.50/1.50 por 1M de tokens (entrada/salida) dentro del Nivel de Acceso PRO.
✅ Ideal para
🚀 Capacidades
Especificaciones
| Proveedor | qwen |
| Ventana de contexto | 262,144 tokens |
| Plan mínimo | Premium |
Precios
| Precio de entrada | $0.5000 / 1M tokens |
| Precio de salida | $1.5000 / 1M tokens |
💡 Con la suscripción PRO, el costo se reduce un 20%
¿Listo para probar Qwen: Qwen3 VL 32B Instruct?
Obtén 1,000 tokens gratis al registrarte
Comenzar gratis