N1
Équilibre

NVIDIA: Nemotron Nano 12B 2 VL

par nvidia

NVIDIA Nemotron Nano 12B 2 VL est un modèle de raisonnement multimodal ouvert de pointe, doté de 12 milliards de paramètres, spécialement conçu pour les tâches avancées de compréhension vidéo et d'intelligence documentaire. Ce modèle introduit une architecture hybride innovante Transformer-Mamba, qui combine magistralement la haute précision des Transformers traditionnels avec les capacités de modélisation de séquences économes en mémoire de Mamba. Il en résulte un débit nettement plus élevé et une latence remarquablement plus faible, ce qui le rend idéal pour les applications exigeantes. Le modèle traite à la fois des documents texte et multi-images, produisant des sorties en langage naturel. Il a été rigoureusement entraîné sur des ensembles de données synthétiques de haute qualité, organisés par NVIDIA, méticuleusement optimisés pour la reconnaissance optique de caractères (OCR), le raisonnement complexe sur les graphiques et une compréhension multimodale complète. Nemotron Nano 2 VL obtient des résultats de premier plan sur OCRBench v2 et un score moyen impressionnant d'environ 74 sur des benchmarks clés tels que MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA et Video-MME, surpassant constamment les précédentes bases de référence VL ouvertes. Grâce à l'échantillonnage vidéo efficace (EVS), il gère habilement les vidéos de longue durée tout en réduisant considérablement les coûts d'inférence. Les spécifications clés incluent une fenêtre contextuelle généreuse de 131K tokens et une sortie maximale de 4K tokens. La tarification est compétitive à 0,20 $ par million de tokens d'entrée et 0,60 $ par million de tokens de sortie. Il prend en charge les capacités de vision et de streaming, ce qui en fait un excellent choix pour l'analyse et le traitement de documents. Les poids ouverts, les données d'entraînement et les recettes de fine-tuning sont disponibles sous une licence ouverte permissive de NVIDIA, avec un déploiement pris en charge sur NeMo, NIM et les principaux runtimes d'inférence. Accédez à ce modèle de niveau STARTER sur Multi AI dès aujourd'hui.

multimodalvisionIA documentaireanalyse vidéoopen source
72%Qualité
131KFenêtre de contexte
70%Vitesse
Catégorie
Économique
Accès API
Contexte unifié
RAG + Knowledge Base
Support 24/7
Essayer ce modèleComparer les modèles

Idéal pour

Analyse
Documents

🚀 Capacités

Vision
Streaming

Limitations

Pas de génération d'images

Spécifications

Fournisseurnvidia
Fenêtre de contexte131,072 tokens
Sortie max4,096 tokens
Forfait minimumÉquilibre

Tarifs

Prix d'entrée$0.2000 / 1M tokens
Prix de sortie$0.6000 / 1M tokens

💡 Avec l'abonnement PRO, le coût est réduit de 20%

Prêt à essayer NVIDIA: Nemotron Nano 12B 2 VL ?

Obtenez 1 000 tokens gratuits à l'inscription

Commencer gratuitement