Équilibre

NVIDIA: Nemotron Nano 12B 2 VL

Name: NVIDIA: Nemotron Nano 12B 2 VL
Brand: nvidia
Price: 200 USD
Rating: 3.6 (1 reviews)

NVIDIA Nemotron Nano 12B 2 VL est un modèle de raisonnement multimodal ouvert de pointe, doté de 12 milliards de paramètres, spécialement conçu pour les tâches avancées de compréhension vidéo et d'intelligence documentaire. Ce modèle introduit une architecture hybride innovante Transformer-Mamba, qui combine magistralement la haute précision des Transformers traditionnels avec les capacités de modélisation de séquences économes en mémoire de Mamba. Il en résulte un débit nettement plus élevé et une latence remarquablement plus faible, ce qui le rend idéal pour les applications exigeantes. Le modèle traite à la fois des documents texte et multi-images, produisant des sorties en langage naturel. Il a été rigoureusement entraîné sur des ensembles de données synthétiques de haute qualité, organisés par NVIDIA, méticuleusement optimisés pour la reconnaissance optique de caractères (OCR), le raisonnement complexe sur les graphiques et une compréhension multimodale complète. Nemotron Nano 2 VL obtient des résultats de premier plan sur OCRBench v2 et un score moyen impressionnant d'environ 74 sur des benchmarks clés tels que MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA et Video-MME, surpassant constamment les précédentes bases de référence VL ouvertes. Grâce à l'échantillonnage vidéo efficace (EVS), il gère habilement les vidéos de longue durée tout en réduisant considérablement les coûts d'inférence. Les spécifications clés incluent une fenêtre contextuelle généreuse de 131K tokens et une sortie maximale de 4K tokens. La tarification est compétitive à 0,20 $ par million de tokens d'entrée et 0,60 $ par million de tokens de sortie. Il prend en charge les capacités de vision et de streaming, ce qui en fait un excellent choix pour l'analyse et le traitement de documents. Les poids ouverts, les données d'entraînement et les recettes de fine-tuning sont disponibles sous une licence ouverte permissive de NVIDIA, avec un déploiement pris en charge sur NeMo, NIM et les principaux runtimes d'inférence. Accédez à ce modèle de niveau STARTER sur Multi AI dès aujourd'hui.

multimodalvisionIA documentaireanalyse vidéoopen source

72%Qualité

131KFenêtre de contexte

70%Vitesse

Catégorie

Économique

✓Accès API

✓Contexte unifié

✓RAG + Knowledge Base

✓Support 24/7

Essayer ce modèle Comparer les modèles