ByteDance: UI-TARS 7B (UI-TARS-1.5) est un agent multimodal vision-langage de pointe spécialement conçu pour les environnements basés sur l'interface utilisateur graphique (GUI). Cela inclut un large éventail d'applications telles que les interfaces de bureau, les navigateurs web, les systèmes d'exploitation mobiles et même les jeux. Conçu par ByteDance, il s'appuie sur le cadre UI-TARS, amélioré par un raisonnement basé sur l'apprentissage par renforcement, permettant une planification et une exécution d'actions robustes à travers diverses interfaces virtuelles. Ce modèle atteint des résultats de pointe sur une série de benchmarks interactifs et de mise à la terre, y compris OSworld, WebVoyager, AndroidWorld et ScreenSpot. Il démontre également une exécution parfaite des tâches sur divers jeux Poki et surpasse les modèles précédents dans les tâches d'agent Minecraft. UI-TARS-1.5 prend en charge la décomposition de la pensée pendant l'inférence et montre une forte mise à l'échelle entre les variantes. La version 1.5 dépasse notamment les performances des points de contrôle précédents de 72B et 7B, offrant des capacités supérieures. Il prend en charge la vision et le streaming, avec une fenêtre contextuelle de 128K tokens et une sortie maximale de 4K tokens. La tarification est compétitive à 0,10 $/0,20 $ par million de tokens (entrée/sortie), et il est disponible en accès gratuit.
✅ Idéal pour
🚀 Capacités
❌ Limitations
Spécifications
| Fournisseur | bytedance |
| Fenêtre de contexte | 128,000 tokens |
| Sortie max | 4,096 tokens |
| Forfait minimum | Économique |
Tarifs
| Prix d'entrée | $0.1000 / 1M tokens |
| Prix de sortie | $0.2000 / 1M tokens |
💡 Avec l'abonnement PRO, le coût est réduit de 20%
Prêt à essayer ByteDance: UI-TARS 7B ?
Obtenez 1 000 tokens gratuits à l'inscription
Commencer gratuitement