B7
经济

ByteDance: UI-TARS 7B

来自 bytedance

ByteDance: UI-TARS 7B (UI-TARS-1.5) 是一款尖端的多模态视觉-语言代理,专为基于图形用户界面 (GUI) 的环境而设计。这包括广泛的应用,如桌面界面、网页浏览器、移动操作系统甚至游戏。由字节跳动构建,它以 UI-TARS 框架为基础,通过基于强化学习的推理进行增强,从而能够在各种虚拟界面中进行强大的行动规划和执行。 该模型在 OSworld、WebVoyager、AndroidWorld 和 ScreenSpot 等一系列交互式和基础基准测试中取得了最先进的结果。它还在各种 Poki 游戏中展示了完美的任务完成度,并在 Minecraft 代理任务中超越了之前的模型。UI-TARS-1.5 在推理过程中支持思维分解,并在不同变体之间显示出强大的扩展性。1.5 版本显著超越了早期 72B 和 7B 检查点的性能,提供了卓越的功能。它支持视觉和流媒体,上下文窗口为 128K token,最大输出为 4K token。定价具有竞争力,输入/输出每 1M token 分别为 $0.10/$0.20,并且可以免费访问。

视觉模型GUI代理多模态自动化ByteDance
57%质量
128K上下文窗口
75%速度
分类
经济
API访问
统一上下文
RAG + Knowledge Base
24/7支持
试用此模型比较模型

最适合

分析
文档

🚀 能力

视觉
流媒体

限制

不支持图像生成

规格

提供商bytedance
上下文窗口128,000 代币
最大输出4,096 代币
最低套餐经济

价格

输入价格$0.1000 / 1M 代币
输出价格$0.2000 / 1M 代币

💡 PRO订阅可享20%折扣

准备好试用 ByteDance: UI-TARS 7B 了吗?

注册即可获得1,000个免费代币

免费开始