N1
Économique

NVIDIA: Nemotron Nano 12B 2 VL (free)

par nvidia

NVIDIA Nemotron Nano 2 VL est un modèle de raisonnement multimodal ouvert et puissant de 12 milliards de paramètres, spécialement conçu pour la compréhension vidéo avancée et l'intelligence documentaire complète. Ce modèle introduit une architecture hybride innovante Transformer-Mamba, qui combine habilement la précision des transformeurs avec la modélisation de séquence économe en mémoire de Mamba. Cela se traduit par un débit nettement plus élevé et une latence remarquablement plus faible, ce qui le rend idéal pour les applications exigeantes. Capable de traiter à la fois du texte et des documents multi-images, Nemotron Nano 2 VL génère des sorties en langage naturel. Il a été rigoureusement entraîné sur des ensembles de données synthétiques de haute qualité, organisés par NVIDIA, méticuleusement optimisés pour la reconnaissance optique de caractères (OCR), le raisonnement graphique complexe et la compréhension multimodale étendue. Le modèle obtient des résultats de pointe sur OCRBench v2 et un score moyen impressionnant d'environ 74 sur des benchmarks tels que MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA et Video-MME, surpassant les précédentes bases de référence VL ouvertes. Avec l'échantillonnage vidéo efficace (EVS), il gère efficacement les vidéos de longue durée tout en minimisant les coûts d'inférence. Ce modèle est disponible gratuitement, offrant une généreuse fenêtre contextuelle de 128K tokens et une sortie maximale de 4K tokens. Ses poids ouverts, ses données d'entraînement et ses recettes de fine-tuning sont publiés sous une licence ouverte NVIDIA permissive, garantissant une large accessibilité. Le déploiement est pris en charge via NeMo, NIM et les principaux runtimes d'inférence. Découvrez ses capacités d'analyse et de traitement de documents dès aujourd'hui sur Multi AI.

MultimodalVisionGratuitIA Documentaire
75%Qualité
128KFenêtre de contexte
70%Vitesse
Catégorie
Gratuit
Accès API
Contexte unifié
RAG + Knowledge Base
Support 24/7
Essayer ce modèleComparer les modèles

Idéal pour

Analyse
Documents

🚀 Capacités

Vision
Fonctions
Streaming

Limitations

Pas de génération d'images

Spécifications

Fournisseurnvidia
Fenêtre de contexte128,000 tokens
Sortie max4,096 tokens
Forfait minimumÉconomique

Tarifs

Prix d'entréeGratuit / 1M tokens
Prix de sortieGratuit / 1M tokens

💡 Avec l'abonnement PRO, le coût est réduit de 20%

Prêt à essayer NVIDIA: Nemotron Nano 12B 2 VL (free) ?

Obtenez 1 000 tokens gratuits à l'inscription

Commencer gratuitement