Q3
Equilibrio

Qwen: Qwen3 VL 235B A22B Instruct

por qwen

Qwen3-VL-235B-A22B Instruct es un modelo multimodal de código abierto que unifica una fuerte generación de texto con la comprensión visual a través de imágenes y video. El modelo Instruct se enfoca en el uso general de visión-lenguaje, incluyendo Visual Question Answering (VQA), análisis de documentos, extracción de gráficos/tablas y reconocimiento óptico de caracteres (OCR) multilingüe. La serie enfatiza una percepción robusta (reconocimiento de diversas categorías del mundo real y sintéticas), comprensión espacial (fundamentación 2D/3D) y comprensión visual a largo plazo, con resultados competitivos en benchmarks multimodales públicos tanto para la percepción como para el razonamiento. Más allá del análisis, Qwen3-VL soporta la interacción agéntica y el uso de herramientas: puede seguir instrucciones complejas en diálogos multi-imagen y multi-turno; alinear texto con líneas de tiempo de video para consultas temporales precisas; y operar elementos de la interfaz gráfica de usuario para tareas de automatización. Los modelos también permiten flujos de trabajo de codificación visual —convirtiendo bocetos o maquetas en código y ayudando con la depuración de la interfaz de usuario— mientras mantienen un fuerte rendimiento solo de texto comparable a los modelos de lenguaje Qwen3 insignia. Esto hace que Qwen3-VL sea adecuado para escenarios de producción que abarcan IA documental, OCR multilingüe, asistencia de software/UI, tareas espaciales/corporales e investigación sobre agentes de visión-lenguaje. Las especificaciones clave incluyen una ventana de contexto de 262K tokens y una salida máxima de 4K tokens. Soporta capacidades de visión, funciones, código y streaming. El precio es competitivo a $0.20/1.20 por 1 millón de tokens (entrada/salida), disponible en el nivel de acceso PRO.

IA VisualMultimodalGeneración de CódigoOCRIA Agéntica
78%Calidad
262KVentana de contexto
70%Velocidad
Categoría
Económico
Acceso API
Contexto unificado
RAG + Knowledge Base
Soporte 24/7
Probar este modeloComparar modelos

Ideal para

Chat
Generación de Código
Matemáticas

🚀 Capacidades

Contexto largo
Visión
Salida estructurada
Modo JSON
Funciones
Código
Streaming

Limitaciones

No genera imágenes
Sin acceso a Internet

Especificaciones

Proveedorqwen
Ventana de contexto262,144 tokens
Salida máx4,096 tokens
Plan mínimoEquilibrio

Precios

Precio de entrada$0.2000 / 1M tokens
Precio de salida$0.8800 / 1M tokens

💡 Con la suscripción PRO, el costo se reduce un 20%

¿Listo para probar Qwen: Qwen3 VL 235B A22B Instruct?

Obtén 1,000 tokens gratis al registrarte

Comenzar gratis