DeepSeek-V3.2-Exp 是 DeepSeek 发布的一款实验性大型语言模型,是 V3.1 和未来架构之间的中间步骤。它引入了 DeepSeek Sparse Attention (DSA),这是一种细粒度稀疏注意力机制,旨在提高长上下文场景中的训练和推理效率,同时保持输出质量。用户可以使用 `reasoning` `enabled` 布尔值控制推理行为。此模型非常适合探索高效的 Transformer 设计和高级 AI 研究。 该模型在与 V3.1-Terminus 一致的条件下进行训练,以实现直接比较。基准测试显示,在推理、编码和代理工具使用任务中,其性能与 V3.1 大致持平,具体取决于领域,存在细微的权衡和收益。此版本的重点是验证扩展上下文长度的架构优化,而不是提高原始任务准确性,使其主要成为一个用于探索高效 Transformer 设计的研究型模型。 主要规格包括 163K token 的上下文窗口和 4K token 的最大输出。它支持函数、代码生成和流式传输,在代码、推理和数学任务中表现出色。定价具有竞争力,输入/输出每 1M token 分别为 $0.21/$0.32。访问权限为 STARTER 级别。
81%质量
164K上下文窗口
70%速度
✅ 最适合
代码生成
高级推理
数学任务
🚀 能力
函数
代码
流式传输
❌ 限制
无图像生成
无互联网访问
输出受审查
规格
| 提供商 | deepseek |
| 上下文窗口 | 163,840 代币 |
| 最大输出 | 4,096 代币 |
| 最低套餐 | 平衡 |
价格
| 输入价格 | $0.2100 / 1M 代币 |
| 输出价格 | $0.3200 / 1M 代币 |
💡 PRO订阅可享20%折扣