Molmo2-8B es un modelo de visión-lenguaje abierto avanzado desarrollado por el Allen Institute for AI (Ai2) como parte clave de la familia Molmo2. Este modelo está diseñado específicamente para admitir la comprensión integral de imágenes, videos y múltiples imágenes, junto con sólidas capacidades de fundamentación. Construido sobre la potente arquitectura Qwen3-8B y utilizando SigLIP 2 como su columna vertebral de visión, Molmo2-8B establece un nuevo estándar para los modelos de peso abierto y datos abiertos. Supera significativamente a los competidores en tareas que involucran videos cortos, conteo y subtitulado, mientras mantiene un rendimiento competitivo en tareas de video más largas. Con una generosa ventana de contexto de 36K tokens y una salida máxima de 36K tokens, ofrece una amplia capacidad de procesamiento. El precio es competitivo a $0.20 por 1M de tokens de entrada y $0.20 por 1M de tokens de salida. Este modelo está disponible en un nivel de acceso GRATUITO, lo que hace que las capacidades avanzadas de visión de IA sean accesibles para todos.
✅ Ideal para
🚀 Capacidades
Especificaciones
| Proveedor | allenai |
| Ventana de contexto | 36,864 tokens |
| Salida máx | 36,864 tokens |
| Plan mínimo | Económico |
Precios
| Precio de entrada | $0.2000 / 1M tokens |
| Precio de salida | $0.2000 / 1M tokens |
💡 Con la suscripción PRO, el costo se reduce un 20%