ByteDance: UI-TARS 7B (UI-TARS-1.5) ist ein hochmoderner multimodaler Vision-Sprach-Agent, der speziell für GUI-basierte Umgebungen entwickelt wurde. Dies umfasst eine breite Palette von Anwendungen wie Desktop-Schnittstellen, Webbrowser, mobile Betriebssysteme und sogar Spiele. Von ByteDance entwickelt, baut es auf dem UI-TARS-Framework auf und wird durch Reinforcement Learning-basierte Argumentation erweitert, um eine robuste Aktionsplanung und -ausführung über verschiedene virtuelle Schnittstellen hinweg zu ermöglichen. Dieses Modell erzielt auf einer Reihe interaktiver und Grounding-Benchmarks, darunter OSworld, WebVoyager, AndroidWorld und ScreenSpot, hochmoderne Ergebnisse. Es demonstriert auch eine perfekte Aufgabenerfüllung in verschiedenen Poki-Spielen und übertrifft frühere Modelle bei Minecraft-Agentenaufgaben. UI-TARS-1.5 unterstützt die Gedankenzerlegung während der Inferenz und zeigt eine starke Skalierung über Varianten hinweg. Die Version 1.5 übertrifft die Leistung früherer 72B- und 7B-Checkpoints deutlich und bietet überlegene Funktionen. Es unterstützt Vision und Streaming, mit einem Kontextfenster von 128K Tokens und einer maximalen Ausgabe von 4K Tokens. Die Preise sind wettbewerbsfähig: $0.10/$0.20 pro 1M Tokens (Eingabe/Ausgabe), und es ist kostenlos zugänglich.
✅ Am besten für
🚀 Fähigkeiten
❌ Einschränkungen
Spezifikationen
| Anbieter | bytedance |
| Kontextfenster | 128,000 Token |
| Max. Ausgabe | 4,096 Token |
| Mindestplan | Economy |
Preise
| Eingabepreis | $0.1000 / 1M Token |
| Ausgabepreis | $0.2000 / 1M Token |
💡 Mit PRO-Abo werden die Kosten um 20% reduziert
Bereit, ByteDance: UI-TARS 7B auszuprobieren?
Erhalten Sie 1.000 Token kostenlos bei der Anmeldung
Kostenlos starten