ByteDance: UI-TARS 7B (UI-TARS-1.5) 是一款尖端的多模态视觉-语言代理,专为基于图形用户界面 (GUI) 的环境而设计。这包括广泛的应用,如桌面界面、网页浏览器、移动操作系统甚至游戏。由字节跳动构建,它以 UI-TARS 框架为基础,通过基于强化学习的推理进行增强,从而能够在各种虚拟界面中进行强大的行动规划和执行。 该模型在 OSworld、WebVoyager、AndroidWorld 和 ScreenSpot 等一系列交互式和基础基准测试中取得了最先进的结果。它还在各种 Poki 游戏中展示了完美的任务完成度,并在 Minecraft 代理任务中超越了之前的模型。UI-TARS-1.5 在推理过程中支持思维分解,并在不同变体之间显示出强大的扩展性。1.5 版本显著超越了早期 72B 和 7B 检查点的性能,提供了卓越的功能。它支持视觉和流媒体,上下文窗口为 128K token,最大输出为 4K token。定价具有竞争力,输入/输出每 1M token 分别为 $0.10/$0.20,并且可以免费访问。
57%质量
128K上下文窗口
75%速度
✅ 最适合
分析
文档
🚀 能力
视觉
流媒体
❌ 限制
不支持图像生成
规格
| 提供商 | bytedance |
| 上下文窗口 | 128,000 代币 |
| 最大输出 | 4,096 代币 |
| 最低套餐 | 经济 |
价格
| 输入价格 | $0.1000 / 1M 代币 |
| 输出价格 | $0.2000 / 1M 代币 |
💡 PRO订阅可享20%折扣