Qwen2.5-VL 7B Instruct, del equipo Qwen, es un modelo de lenguaje grande multimodal altamente avanzado diseñado para una comprensión visual superior. Logra un rendimiento de vanguardia en varios puntos de referencia visuales, incluidos MathVista, DocVQA, RealWorldQA y MTVQA, demostrando una comprensión excepcional de las imágenes, independientemente de la resolución o la relación de aspecto. Más allá de las imágenes estáticas, Qwen2.5-VL 7B Instruct puede comprender videos de más de 20 minutos, lo que permite respuestas a preguntas basadas en video de alta calidad, diálogos y creación de contenido. Sus capacidades avanzadas de razonamiento y toma de decisiones le permiten funcionar como un agente, operando dispositivos móviles o robots basados en entornos visuales e instrucciones de texto. El modelo también ofrece un sólido soporte multilingüe, comprendiendo textos en imágenes en numerosos idiomas, incluidos idiomas europeos, japonés, coreano, árabe y vietnamita. Cuenta con una ventana de contexto de 32K tokens y una salida máxima de 4K tokens, con un precio de $0.20/0.20 por 1M de tokens (entrada/salida). Acceda a este potente modelo de visión de forma gratuita en Multi AI. El uso de este modelo está sujeto al ACUERDO DE LICENCIA de Tongyi Qianwen.
✅ Ideal para
🚀 Capacidades
❌ Limitaciones
Especificaciones
| Proveedor | qwen |
| Ventana de contexto | 32,768 tokens |
| Salida máx | 4,096 tokens |
| Plan mínimo | Económico |
Precios
| Precio de entrada | $0.2000 / 1M tokens |
| Precio de salida | $0.2000 / 1M tokens |
💡 Con la suscripción PRO, el costo se reduce un 20%
¿Listo para probar Qwen: Qwen2.5-VL 7B Instruct?
Obtén 1,000 tokens gratis al registrarte
Comenzar gratis