NVIDIA Nemotron Nano 2 VL 是一款功能强大、开放的120亿参数多模态推理模型,专为高级视频理解和全面的文档智能而设计。该模型引入了创新的混合Transformer-Mamba架构,巧妙地结合了Transformer的精度和Mamba的内存高效序列建模。这带来了显著更高的吞吐量和极低的延迟,使其成为要求苛刻应用的理想选择。 Nemotron Nano 2 VL 能够处理文本和多图像文档,并生成自然语言输出。它经过严格训练,使用了NVIDIA精心策划的高质量合成数据集,这些数据集经过精心优化,可用于光学字符识别 (OCR)、复杂的图表推理和广泛的多模态理解。该模型在 OCRBench v2 上取得了领先结果,并在 MMMU、MathVista、AI2D、OCRBench、OCR-Reasoning、ChartQA、DocVQA 和 Video-MME 等基准测试中取得了约 74 的平均分,超越了以前的开放 VL 基线。通过高效视频采样 (EVS),它能有效处理长视频,同时最大限度地降低推理成本。 该模型免费提供,拥有慷慨的 128K token 上下文窗口和 4K token 的最大输出。其开放权重、训练数据和微调配方均根据宽松的 NVIDIA 开放许可发布,确保了广泛的可访问性。部署支持 NeMo、NIM 和主要的推理运行时。立即在 Multi AI 上发现其分析和文档处理能力。
75%质量
128K上下文窗口
70%速度
✅ 最适合
分析
文档
🚀 能力
长上下文
视觉
函数
流式传输
视频理解
❌ 限制
无图像生成
规格
| 提供商 | nvidia |
| 上下文窗口 | 128,000 代币 |
| 最大输出 | 128,000 代币 |
| 最低套餐 | 经济 |
价格
| 输入价格 | 免费 / 1M 代币 |
| 输出价格 | 免费 / 1M 代币 |
💡 PRO订阅可享20%折扣