Qwen2.5-VL 7B Instruct是Qwen团队开发的一款强大的多模态大型语言模型。它在各种分辨率和比例的图像视觉理解方面表现出色,在MathVista、DocVQA和RealWorldQA等基准测试中取得了最先进的性能。该模型还具备令人印象深刻的理解20分钟以上视频的能力,支持高质量的基于视频的问答、对话和内容创作。 除了其先进的感知能力,Qwen2.5-VL还可以作为智能代理,能够操作手机和机器人等设备。利用复杂的推理和决策能力,它可以根据视觉环境和文本指令执行自动化操作。此外,它还提供强大的多语言支持,能够理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语和越南语,服务于全球用户。 在Multi AI上免费访问此模型。它支持流式传输和视觉功能,上下文窗口为32K tokens。使用受Tongyi Qianwen许可协议的约束。
50%质量
33K上下文窗口
50%速度
✅ 最适合
图像理解
视频问答
设备自动化
多语言OCR
🚀 能力
流式传输
视觉
规格
| 提供商 | qwen |
| 上下文窗口 | 32,768 代币 |
| 最低套餐 | 经济 |
价格
| 输入价格 | 免费 / 1M 代币 |
| 输出价格 | 免费 / 1M 代币 |
💡 PRO订阅可享20%折扣