NVIDIA: Llama 3.3 Nemotron Super 49B V1.5 是一个强大的 490 亿参数、以英语为中心的推理和聊天模型。它基于 Meta 的 Llama-3.3-70B-Instruct,并具有 128K 的广阔上下文窗口。该模型通过监督微调 (SFT) 在数学、代码、科学和多轮聊天等不同领域进行了精心后训练,以优化智能代理工作流,包括检索增强生成 (RAG) 和强大的工具调用。通过多个强化学习 (RL) 阶段进一步完善,包括奖励感知偏好优化 (RPO) 用于对齐,可验证奖励的 RL (RLVR) 用于逐步推理,以及迭代 DPO 以改进工具使用行为。 该模型在内部评估中取得了令人印象深刻的结果,例如 MATH500 pass@1 = 97.4 和 LiveCodeBench = 73.58,展示了强大的推理和编码能力。它专为实际推理效率而设计,提供高每秒令牌数和减少的 VRAM 占用,支持通过 Transformers/vLLM 在单个 GPU(H100/H200)上部署。凭借 131K 令牌的上下文窗口和 4K 令牌的最大输出,它非常适合构建智能代理、助手和长上下文检索系统,在这些场景中,平衡的准确性与成本以及可靠的工具使用至关重要。定价为每 100 万令牌(输入/输出)0.10 美元/0.40 美元,属于 STARTER 访问层。
72%质量
131K上下文窗口
70%速度
✅ 最适合
聊天
代码生成
创意写作
智能代理工作流
🚀 能力
函数
流式传输
❌ 限制
不支持图像生成
无互联网访问
规格
| 提供商 | nvidia |
| 上下文窗口 | 131,072 代币 |
| 最大输出 | 4,096 代币 |
| 最低套餐 | 平衡 |
价格
| 输入价格 | $0.1000 / 1M 代币 |
| 输出价格 | $0.4000 / 1M 代币 |
💡 PRO订阅可享20%折扣