Balance

NVIDIA: Llama 3.3 Nemotron Super 49B V1.5

Name: NVIDIA: Llama 3.3 Nemotron Super 49B V1.5
Brand: nvidia
Price: 100 USD
Rating: 3.6 (1 reviews)

NVIDIA: Llama 3.3 Nemotron Super 49B V1.5 ist ein leistungsstarkes, englischzentriertes Reasoning- und Chat-Modell mit 49 Milliarden Parametern. Es basiert auf Metas Llama-3.3-70B-Instruct und verfügt über ein umfangreiches 128K-Kontextfenster. Dieses Modell wurde sorgfältig für agentische Workflows, einschließlich Retrieval Augmented Generation (RAG) und robustes Tool-Calling, durch Supervised Fine-Tuning (SFT) in verschiedenen Bereichen wie Mathematik, Code, Wissenschaft und Multi-Turn-Chats nachtrainiert. Eine weitere Verfeinerung erfolgt durch mehrere Reinforcement Learning (RL)-Stufen, darunter Reward-aware Preference Optimization (RPO) zur Ausrichtung, RL with Verifiable Rewards (RLVR) für schrittweises Reasoning und iteratives DPO zur Verfeinerung des Tool-Use-Verhaltens. Das Modell weist beeindruckende interne Bewertungsergebnisse auf, wie z.B. MATH500 pass@1 = 97.4 und LiveCodeBench = 73.58, was starke Reasoning- und Coding-Fähigkeiten belegt. Es ist für praktische Inferenz-Effizienz konzipiert, bietet hohe Tokens/s und reduzierten VRAM-Verbrauch und unterstützt die Bereitstellung auf einer einzelnen GPU (H100/H200) über Transformers/vLLM. Mit einem Kontextfenster von 131K Tokens und einer maximalen Ausgabe von 4K Tokens ist es ideal für den Aufbau von Agenten, Assistenten und Long-Context-Retrieval-Systemen, bei denen ein ausgewogenes Verhältnis von Genauigkeit zu Kosten und zuverlässige Tool-Nutzung entscheidend sind. Die Preise betragen $0.10/0.40 pro 1 Million Tokens (Eingabe/Ausgabe) im STARTER-Zugangsbereich.

TextAgentische KIReasoningTool-Nutzung

72%Qualität

131KKontextfenster

70%Geschwindigkeit

Kategorie

Economy

✓API-Zugang

✓Einheitlicher Kontext

✓RAG + Knowledge Base

✓24/7 Support

Dieses Modell testen Modelle vergleichen