ByteDance: UI-TARS 7B (UI-TARS-1.5) es un agente multimodal visión-lenguaje de vanguardia diseñado específicamente para entornos basados en la interfaz gráfica de usuario (GUI). Esto incluye una amplia gama de aplicaciones como interfaces de escritorio, navegadores web, sistemas operativos móviles e incluso juegos. Construido por ByteDance, se basa en el marco UI-TARS, mejorado con razonamiento basado en aprendizaje por refuerzo, lo que permite una planificación y ejecución de acciones robustas a través de diversas interfaces virtuales. Este modelo logra resultados de última generación en una serie de puntos de referencia interactivos y de conexión a tierra, incluidos OSworld, WebVoyager, AndroidWorld y ScreenSpot. También demuestra una finalización perfecta de tareas en diversos juegos de Poki y supera a los modelos anteriores en tareas de agente de Minecraft. UI-TARS-1.5 admite la descomposición del pensamiento durante la inferencia y muestra una fuerte escalabilidad entre variantes. La versión 1.5 supera notablemente el rendimiento de los puntos de control anteriores de 72B y 7B, ofreciendo capacidades superiores. Admite visión y transmisión, con una ventana de contexto de 128K tokens y una salida máxima de 4K tokens. El precio es competitivo: $0.10/$0.20 por 1M de tokens (entrada/salida), y está disponible para acceso gratuito.
✅ Ideal para
🚀 Capacidades
❌ Limitaciones
Especificaciones
| Proveedor | bytedance |
| Ventana de contexto | 128,000 tokens |
| Salida máx | 4,096 tokens |
| Plan mínimo | Económico |
Precios
| Precio de entrada | $0.1000 / 1M tokens |
| Precio de salida | $0.2000 / 1M tokens |
💡 Con la suscripción PRO, el costo se reduce un 20%