N1
Equilibrio

NVIDIA: Nemotron Nano 12B 2 VL

por nvidia

NVIDIA Nemotron Nano 12B 2 VL es un modelo de razonamiento multimodal abierto de vanguardia con 12 mil millones de parámetros, diseñado específicamente para tareas avanzadas de comprensión de video e inteligencia documental. Este modelo introduce una innovadora arquitectura híbrida Transformer-Mamba, que combina magistralmente la alta precisión de los Transformers tradicionales con las capacidades de modelado de secuencias eficientes en memoria de Mamba. Esto resulta en un rendimiento significativamente mayor y una latencia notablemente menor, lo que lo hace ideal para aplicaciones exigentes. El modelo procesa entradas de texto y documentos con múltiples imágenes, produciendo salidas en lenguaje natural. Ha sido rigurosamente entrenado en conjuntos de datos sintéticos de alta calidad, curados por NVIDIA, meticulosamente optimizados para el reconocimiento óptico de caracteres (OCR), el razonamiento complejo de gráficos y la comprensión multimodal integral. Nemotron Nano 2 VL logra resultados líderes en OCRBench v2 y obtiene un promedio impresionante de ≈ 74 en benchmarks clave como MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA y Video-MME, superando constantemente las bases de referencia VL abiertas anteriores. Con el muestreo de video eficiente (EVS), maneja hábilmente videos de formato largo mientras reduce sustancialmente el costo de inferencia. Las especificaciones clave incluyen una generosa ventana de contexto de 131K tokens y una salida máxima de 4K tokens. El precio es competitivo: $0.20 por 1M de tokens de entrada y $0.60 por 1M de tokens de salida. Admite capacidades de visión y streaming, lo que lo convierte en una excelente opción para análisis y procesamiento de documentos. Los pesos abiertos, los datos de entrenamiento y las recetas de ajuste fino están disponibles bajo una licencia abierta permisiva de NVIDIA, con soporte de implementación a través de NeMo, NIM y los principales tiempos de ejecución de inferencia. Accede a este modelo de nivel STARTER en Multi AI hoy mismo.

multimodalvisiónIA documentalanálisis de videocódigo abierto
72%Calidad
131KVentana de contexto
70%Velocidad
Categoría
Económico
Acceso API
Contexto unificado
RAG + Knowledge Base
Soporte 24/7
Probar este modeloComparar modelos

Ideal para

Análisis
Documentos

🚀 Capacidades

Visión
Streaming

Limitaciones

No genera imágenes

Especificaciones

Proveedornvidia
Ventana de contexto131,072 tokens
Salida máx4,096 tokens
Plan mínimoEquilibrio

Precios

Precio de entrada$0.2000 / 1M tokens
Precio de salida$0.6000 / 1M tokens

💡 Con la suscripción PRO, el costo se reduce un 20%

¿Listo para probar NVIDIA: Nemotron Nano 12B 2 VL?

Obtén 1,000 tokens gratis al registrarte

Comenzar gratis