N1
Balance

NVIDIA: Nemotron Nano 12B 2 VL

von nvidia

NVIDIA Nemotron Nano 12B 2 VL ist ein hochmodernes offenes multimodales Reasoning-Modell mit 12 Milliarden Parametern, das speziell für fortgeschrittene Videoanalyse- und Dokumentenintelligenzaufgaben entwickelt wurde. Dieses Modell führt eine innovative hybride Transformer-Mamba-Architektur ein, die die hohe Genauigkeit traditioneller Transformer mit den speichereffizienten Sequenzmodellierungsfähigkeiten von Mamba meisterhaft kombiniert. Dies führt zu einem deutlich höheren Durchsatz und einer bemerkenswert geringeren Latenz, was es ideal für anspruchsvolle Anwendungen macht. Das Modell verarbeitet sowohl Text- als auch Multi-Bild-Dokumente und generiert Ausgaben in natürlicher Sprache. Es wurde rigoros auf hochwertigen, von NVIDIA kuratierten synthetischen Datensätzen trainiert, die sorgfältig für die optische Zeichenerkennung (OCR), komplexes Diagramm-Reasoning und umfassendes multimodales Verständnis optimiert wurden. Nemotron Nano 2 VL erzielt führende Ergebnisse auf OCRBench v2 und erreicht einen beeindruckenden Durchschnitt von ≈ 74 über wichtige Benchmarks wie MMMU, MathVista, AI2D, OCRBench, OCR-Reasoning, ChartQA, DocVQA und Video-MME, wobei es frühere offene VL-Baselines durchweg übertrifft. Mit Efficient Video Sampling (EVS) verarbeitet es geschickt Langform-Videos und reduziert gleichzeitig die Inferenzkosten erheblich. Zu den wichtigsten Spezifikationen gehören ein großzügiges Kontextfenster von 131K Tokens und eine maximale Ausgabe von 4K Tokens. Die Preise sind wettbewerbsfähig: 0,20 $ pro 1 Mio. Eingabe-Tokens und 0,60 $ pro 1 Mio. Ausgabe-Tokens. Es unterstützt Vision- und Streaming-Funktionen, was es zu einer ausgezeichneten Wahl für Analyse- und Dokumentenverarbeitung macht. Offene Gewichte, Trainingsdaten und Fine-Tuning-Rezepte sind unter einer permissiven NVIDIA Open License verfügbar, mit Bereitstellungsunterstützung über NeMo, NIM und wichtige Inferenz-Laufzeiten. Greifen Sie noch heute auf dieses STARTER-Tier-Modell auf Multi AI zu.

multimodalVisionDokumenten-KIVideoanalyseOpen Source
72%Qualität
131KKontextfenster
70%Geschwindigkeit
Kategorie
Economy
API-Zugang
Einheitlicher Kontext
RAG + Knowledge Base
24/7 Support
Dieses Modell testenModelle vergleichen

Am besten für

Analyse
Dokumente

🚀 Fähigkeiten

Vision
Streaming

Einschränkungen

Keine Bilderzeugung

Spezifikationen

Anbieternvidia
Kontextfenster131,072 Token
Max. Ausgabe4,096 Token
MindestplanBalance

Preise

Eingabepreis$0.2000 / 1M Token
Ausgabepreis$0.6000 / 1M Token

💡 Mit PRO-Abo werden die Kosten um 20% reduziert

Bereit, NVIDIA: Nemotron Nano 12B 2 VL auszuprobieren?

Erhalten Sie 1.000 Token kostenlos bei der Anmeldung

Kostenlos starten