Q3
Premium

Qwen: Qwen3 VL 32B Instruct

por qwen

Qwen3-VL-32B-Instruct es un modelo de visión-lenguaje multimodal a gran escala y de vanguardia, diseñado meticulosamente para una comprensión y un razonamiento inigualables en diversos tipos de datos, incluidos texto, imágenes y video. Con unos impresionantes 32 mil millones de parámetros, este modelo integra a la perfección una percepción visual profunda con capacidades sofisticadas de comprensión de texto. Sobresale en el razonamiento espacial de grano fino, el análisis exhaustivo de documentos y escenas, y la comprensión de videos a largo plazo, lo que lo hace ideal para aplicaciones complejas del mundo real. Este modelo cuenta con un sólido soporte de OCR para 32 idiomas y aprovecha técnicas avanzadas de fusión multimodal como las arquitecturas Interleaved-MRoPE y DeepStack para un rendimiento mejorado. Optimizado para la interacción agéntica y el uso de herramientas visuales, Qwen3-VL-32B ofrece un rendimiento de vanguardia para una amplia gama de tareas multimodales complejas. Ofrece una ventana de contexto sustancial de 262K tokens y está disponible a un precio competitivo de $0.50/1.50 por 1M de tokens (entrada/salida) dentro del Nivel de Acceso PRO.

MultimodalVisiónLenguajeOCRAnálisis de video
50%Calidad
262KVentana de contexto
50%Velocidad
Categoría
Estándar
Acceso API
Contexto unificado
RAG + Knowledge Base
Soporte 24/7
Probar este modeloComparar modelos

Ideal para

Razonamiento espacial
Análisis de documentos
Comprensión de video
Interacción agéntica

🚀 Capacidades

Salida en streaming
Capacidades de visión
Ventana de contexto larga

Especificaciones

Proveedorqwen
Ventana de contexto262,144 tokens
Plan mínimoPremium

Precios

Precio de entrada$0.5000 / 1M tokens
Precio de salida$1.5000 / 1M tokens

💡 Con la suscripción PRO, el costo se reduce un 20%

¿Listo para probar Qwen: Qwen3 VL 32B Instruct?

Obtén 1,000 tokens gratis al registrarte

Comenzar gratis