N1
平衡

NVIDIA: Nemotron Nano 12B 2 VL

来自 nvidia

NVIDIA Nemotron Nano 12B 2 VL 是一款尖端的开放式多模态推理模型,拥有 120 亿参数,专为高级视频理解和文档智能任务而设计。该模型引入了创新的混合 Transformer-Mamba 架构,巧妙地结合了传统 Transformer 的高精度和 Mamba 内存高效的序列建模能力。这带来了显著更高的吞吐量和极低的延迟,使其成为要求苛刻的应用程序的理想选择。 该模型支持文本和多图像文档输入,并生成自然语言输出。它经过 NVIDIA 精心策划的高质量合成数据集的严格训练,这些数据集经过精心优化,可用于光学字符识别 (OCR)、复杂的图表推理和全面的多模态理解。Nemotron Nano 2 VL 在 OCRBench v2 上取得了领先结果,并在 MMMU、MathVista、AI2D、OCRBench、OCR-Reasoning、ChartQA、DocVQA 和 Video-MME 等关键基准测试中取得了约 74 的平均分,始终超越先前的开放 VL 基线。通过高效视频采样 (EVS),它能够熟练处理长视频,同时大幅降低推理成本。 主要规格包括 131K tokens 的宽裕上下文窗口和 4K tokens 的最大输出。定价具有竞争力,输入每 1M tokens 0.20 美元,输出每 1M tokens 0.60 美元。它支持视觉和流媒体功能,使其成为分析和文档处理的绝佳选择。开放权重、训练数据和微调配方均根据宽松的 NVIDIA 开放许可发布,并支持在 NeMo、NIM 和主要推理运行时上部署。立即在 Multi AI 上访问此 STARTER 级别模型。

多模态视觉文档AI视频分析开源
72%质量
131K上下文窗口
70%速度
分类
经济
API访问
统一上下文
RAG + Knowledge Base
24/7支持
试用此模型比较模型

最适合

分析
文档

🚀 能力

视觉
流媒体

限制

不支持图像生成

规格

提供商nvidia
上下文窗口131,072 代币
最大输出4,096 代币
最低套餐平衡

价格

输入价格$0.2000 / 1M 代币
输出价格$0.6000 / 1M 代币

💡 PRO订阅可享20%折扣

准备好试用 NVIDIA: Nemotron Nano 12B 2 VL 了吗?

注册即可获得1,000个免费代币

免费开始