Q3
Económico

Qwen: Qwen3 VL 8B Instruct

por qwen

Qwen3-VL-8B-Instruct es un modelo de visión-lenguaje multimodal de vanguardia de la serie Qwen3-VL, diseñado para una comprensión y razonamiento excepcionales en diversos tipos de datos, incluidos texto, imágenes y video. Incorpora características avanzadas como Interleaved-MRoPE para el razonamiento temporal a largo plazo, DeepStack para una alineación visual-textual de grano fino y alineación de texto-marca de tiempo para una localización precisa de eventos, lo que garantiza un rendimiento robusto en escenarios complejos. Este modelo cuenta con una ventana de contexto nativa de 256K tokens, extensible hasta 1M tokens, y procesa hábilmente entradas de medios estáticos y dinámicos. Destaca en tareas como el análisis de documentos, la respuesta a preguntas visuales, el razonamiento espacial y el control de GUI. Logra una comprensión del texto comparable a la de los LLM líderes, amplía la cobertura de OCR a 32 idiomas y mejora la robustez en diversas condiciones visuales. Con capacidades que incluyen visión, funciones, código y streaming, y con un precio de $0.08/0.50 por 1M de tokens (entrada/salida), es una herramienta versátil y potente disponible GRATIS en Multi AI.

MultimodalVisión-LenguajeOCRRazonamientoGratis
67%Calidad
131KVentana de contexto
74%Velocidad
Categoría
Económico
Acceso API
Contexto unificado
RAG + Knowledge Base
Soporte 24/7
Probar este modeloComparar modelos

Ideal para

Chat
Generación de código
Matemáticas

🚀 Capacidades

Visión
Funciones
Código
Streaming

Limitaciones

No genera imágenes
Sin acceso a internet

Especificaciones

Proveedorqwen
Ventana de contexto131,072 tokens
Salida máx4,096 tokens
Plan mínimoEconómico

Precios

Precio de entrada$0.0800 / 1M tokens
Precio de salida$0.5000 / 1M tokens

💡 Con la suscripción PRO, el costo se reduce un 20%

¿Listo para probar Qwen: Qwen3 VL 8B Instruct?

Obtén 1,000 tokens gratis al registrarte

Comenzar gratis