Qwen 团队的 Qwen2.5-VL 7B Instruct 是一款高度先进的多模态大型语言模型,专为卓越的视觉理解而设计。它在 MathVista、DocVQA、RealWorldQA 和 MTVQA 等各种视觉基准测试中取得了最先进的性能,无论图像分辨率或宽高比如何,都展现出卓越的理解能力。 除了静态图像,Qwen2.5-VL 7B Instruct 还能理解超过 20 分钟的视频,从而实现高质量的基于视频的问答、对话和内容创作。其先进的推理和决策能力使其能够充当代理,根据视觉环境和文本指令操作移动设备或机器人。该模型还提供强大的多语言支持,能够理解图像中多种语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语和越南语。它具有 32K token 的上下文窗口和 4K token 的最大输出,定价为每 1M token(输入/输出)0.20 美元。在 Multi AI 上免费访问这款强大的视觉模型。 此模型的使用受 Tongyi Qianwen 许可协议的约束。
67%质量
33K上下文窗口
75%速度
✅ 最适合
聊天
代码
数学
🚀 能力
视觉
流式传输
❌ 限制
无图像生成
无互联网访问
规格
| 提供商 | qwen |
| 上下文窗口 | 32,768 代币 |
| 最大输出 | 4,096 代币 |
| 最低套餐 | 经济 |
价格
| 输入价格 | $0.2000 / 1M 代币 |
| 输出价格 | $0.2000 / 1M 代币 |
💡 PRO订阅可享20%折扣