Molmo2-8B是Allen人工智能研究所 (Ai2) 开发的一款先进的开放视觉-语言模型,是Molmo2系列的关键组成部分。该模型专门设计用于支持全面的图像、视频和多图像理解,以及强大的接地能力。Molmo2-8B基于强大的Qwen3-8B架构,并采用SigLIP 2作为其视觉骨干,为开放权重、开放数据模型树立了新标准。 它在涉及短视频、计数和字幕生成的任务中显著优于竞争对手,同时在长视频任务中保持竞争力。凭借36K tokens的宽敞上下文窗口和36K tokens的最大输出,它提供了广泛的处理能力。定价具有竞争力,输入每1M tokens $0.20,输出每1M tokens $0.20。该模型可在免费访问层级使用,使所有人都能获得先进的AI视觉能力。
46%质量
37K上下文窗口
80%速度
✅ 最适合
短视频分析
图像字幕生成
多图像理解
对象计数
🚀 能力
流式传输
视频输入
视觉
规格
| 提供商 | allenai |
| 上下文窗口 | 36,864 代币 |
| 最大输出 | 36,864 代币 |
| 最低套餐 | 经济 |
价格
| 输入价格 | $0.2000 / 1M 代币 |
| 输出价格 | $0.2000 / 1M 代币 |
💡 PRO订阅可享20%折扣