经济

NVIDIA: Nemotron Nano 12B 2 VL (free)

Name: NVIDIA: Nemotron Nano 12B 2 VL (free)
Brand: nvidia
Rating: 3.8 (1 reviews)

NVIDIA Nemotron Nano 2 VL 是一款功能强大、开放的120亿参数多模态推理模型，专为高级视频理解和全面的文档智能而设计。该模型引入了创新的混合Transformer-Mamba架构，巧妙地结合了Transformer的精度和Mamba的内存高效序列建模。这带来了显著更高的吞吐量和极低的延迟，使其成为要求苛刻应用的理想选择。 Nemotron Nano 2 VL 能够处理文本和多图像文档，并生成自然语言输出。它经过严格训练，使用了NVIDIA精心策划的高质量合成数据集，这些数据集经过精心优化，可用于光学字符识别 (OCR)、复杂的图表推理和广泛的多模态理解。该模型在 OCRBench v2 上取得了领先结果，并在 MMMU、MathVista、AI2D、OCRBench、OCR-Reasoning、ChartQA、DocVQA 和 Video-MME 等基准测试中取得了约 74 的平均分，超越了以前的开放 VL 基线。通过高效视频采样 (EVS)，它能有效处理长视频，同时最大限度地降低推理成本。该模型免费提供，拥有慷慨的 128K token 上下文窗口和 4K token 的最大输出。其开放权重、训练数据和微调配方均根据宽松的 NVIDIA 开放许可发布，确保了广泛的可访问性。部署支持 NeMo、NIM 和主要的推理运行时。立即在 Multi AI 上发现其分析和文档处理能力。

多模态视觉免费文档AI

75%质量

128K上下文窗口

70%速度

分类

免费

✓API访问

✓统一上下文

✓RAG + Knowledge Base

✓24/7支持

试用此模型比较模型