Qwen3-VL-30B-A3B-Instruct es un modelo de IA multimodal de vanguardia diseñado para unificar una generación de texto robusta con una comprensión visual sofisticada tanto en imágenes como en videos. Esta variante Instruct está específicamente optimizada para seguir instrucciones en una amplia gama de tareas multimodales generales, demostrando un rendimiento excepcional en la percepción de categorías del mundo real y sintéticas, un anclaje espacial 2D/3D preciso y una comprensión visual completa a largo plazo. Constantemente logra resultados competitivos en los principales puntos de referencia multimodales. Más allá de sus capacidades principales, Qwen3-VL-30B-A3B-Instruct es muy adecuado para aplicaciones de agentes. Maneja hábilmente instrucciones multi-imagen y multi-turno, facilita las alineaciones de la línea de tiempo de video, admite la automatización de la GUI e incluso puede generar codificación visual desde bocetos hasta una interfaz de usuario depurada. Su rendimiento de texto rivaliza con los modelos insignia de Qwen3, lo que lo hace ideal para IA de documentos, OCR, asistencia de UI, tareas espaciales e investigación avanzada de agentes. Con una ventana de contexto de 131K tokens y una salida máxima de 4K tokens, ofrece una amplia potencia de procesamiento. El precio es de $0.15/$0.60 por 1M de tokens (entrada/salida) y está disponible en el nivel de acceso STARTER.
✅ Ideal para
🚀 Capacidades
❌ Limitaciones
Especificaciones
| Proveedor | qwen |
| Ventana de contexto | 131,072 tokens |
| Salida máx | 32,768 tokens |
| Plan mínimo | Equilibrio |
Precios
| Precio de entrada | $0.1300 / 1M tokens |
| Precio de salida | $0.5200 / 1M tokens |
💡 Con la suscripción PRO, el costo se reduce un 20%
¿Listo para probar Qwen: Qwen3 VL 30B A3B Instruct?
Obtén 1,000 tokens gratis al registrarte
Comenzar gratis