NVIDIA: Llama 3.3 Nemotron Super 49B V1.5 ist ein leistungsstarkes, englischzentriertes Reasoning- und Chat-Modell mit 49 Milliarden Parametern. Es basiert auf Metas Llama-3.3-70B-Instruct und verfügt über ein umfangreiches 128K-Kontextfenster. Dieses Modell wurde sorgfältig für agentische Workflows, einschließlich Retrieval Augmented Generation (RAG) und robustes Tool-Calling, durch Supervised Fine-Tuning (SFT) in verschiedenen Bereichen wie Mathematik, Code, Wissenschaft und Multi-Turn-Chats nachtrainiert. Eine weitere Verfeinerung erfolgt durch mehrere Reinforcement Learning (RL)-Stufen, darunter Reward-aware Preference Optimization (RPO) zur Ausrichtung, RL with Verifiable Rewards (RLVR) für schrittweises Reasoning und iteratives DPO zur Verfeinerung des Tool-Use-Verhaltens. Das Modell weist beeindruckende interne Bewertungsergebnisse auf, wie z.B. MATH500 pass@1 = 97.4 und LiveCodeBench = 73.58, was starke Reasoning- und Coding-Fähigkeiten belegt. Es ist für praktische Inferenz-Effizienz konzipiert, bietet hohe Tokens/s und reduzierten VRAM-Verbrauch und unterstützt die Bereitstellung auf einer einzelnen GPU (H100/H200) über Transformers/vLLM. Mit einem Kontextfenster von 131K Tokens und einer maximalen Ausgabe von 4K Tokens ist es ideal für den Aufbau von Agenten, Assistenten und Long-Context-Retrieval-Systemen, bei denen ein ausgewogenes Verhältnis von Genauigkeit zu Kosten und zuverlässige Tool-Nutzung entscheidend sind. Die Preise betragen $0.10/0.40 pro 1 Million Tokens (Eingabe/Ausgabe) im STARTER-Zugangsbereich.
✅ Am besten für
🚀 Fähigkeiten
❌ Einschränkungen
Spezifikationen
| Anbieter | nvidia |
| Kontextfenster | 131,072 Token |
| Max. Ausgabe | 4,096 Token |
| Mindestplan | Balance |
Preise
| Eingabepreis | $0.1000 / 1M Token |
| Ausgabepreis | $0.4000 / 1M Token |
💡 Mit PRO-Abo werden die Kosten um 20% reduziert
Bereit, NVIDIA: Llama 3.3 Nemotron Super 49B V1.5 auszuprobieren?
Erhalten Sie 1.000 Token kostenlos bei der Anmeldung
Kostenlos starten