N1
经济

NVIDIA: Nemotron Nano 12B 2 VL (free)

来自 nvidia

NVIDIA Nemotron Nano 2 VL 是一款功能强大、开放的120亿参数多模态推理模型,专为高级视频理解和全面的文档智能而设计。该模型引入了创新的混合Transformer-Mamba架构,巧妙地结合了Transformer的精度和Mamba的内存高效序列建模。这带来了显著更高的吞吐量和极低的延迟,使其成为要求苛刻应用的理想选择。 Nemotron Nano 2 VL 能够处理文本和多图像文档,并生成自然语言输出。它经过严格训练,使用了NVIDIA精心策划的高质量合成数据集,这些数据集经过精心优化,可用于光学字符识别 (OCR)、复杂的图表推理和广泛的多模态理解。该模型在 OCRBench v2 上取得了领先结果,并在 MMMU、MathVista、AI2D、OCRBench、OCR-Reasoning、ChartQA、DocVQA 和 Video-MME 等基准测试中取得了约 74 的平均分,超越了以前的开放 VL 基线。通过高效视频采样 (EVS),它能有效处理长视频,同时最大限度地降低推理成本。 该模型免费提供,拥有慷慨的 128K token 上下文窗口和 4K token 的最大输出。其开放权重、训练数据和微调配方均根据宽松的 NVIDIA 开放许可发布,确保了广泛的可访问性。部署支持 NeMo、NIM 和主要的推理运行时。立即在 Multi AI 上发现其分析和文档处理能力。

多模态视觉免费文档AI
75%质量
128K上下文窗口
70%速度
分类
免费
API访问
统一上下文
RAG + Knowledge Base
24/7支持
试用此模型比较模型

最适合

分析
文档

🚀 能力

长上下文
视觉
函数
流式传输
视频理解

限制

无图像生成

规格

提供商nvidia
上下文窗口128,000 代币
最大输出128,000 代币
最低套餐经济

价格

输入价格免费 / 1M 代币
输出价格免费 / 1M 代币

💡 PRO订阅可享20%折扣

准备好试用 NVIDIA: Nemotron Nano 12B 2 VL (free) 了吗?

注册即可获得1,000个免费代币

免费开始