D3
平衡

DeepSeek: DeepSeek V3.2 Exp

来自 deepseek

DeepSeek-V3.2-Exp 是 DeepSeek 发布的一款实验性大型语言模型,是 V3.1 和未来架构之间的中间步骤。它引入了 DeepSeek Sparse Attention (DSA),这是一种细粒度稀疏注意力机制,旨在提高长上下文场景中的训练和推理效率,同时保持输出质量。用户可以使用 `reasoning` `enabled` 布尔值控制推理行为。此模型非常适合探索高效的 Transformer 设计和高级 AI 研究。 该模型在与 V3.1-Terminus 一致的条件下进行训练,以实现直接比较。基准测试显示,在推理、编码和代理工具使用任务中,其性能与 V3.1 大致持平,具体取决于领域,存在细微的权衡和收益。此版本的重点是验证扩展上下文长度的架构优化,而不是提高原始任务准确性,使其主要成为一个用于探索高效 Transformer 设计的研究型模型。 主要规格包括 163K token 的上下文窗口和 4K token 的最大输出。它支持函数、代码生成和流式传输,在代码、推理和数学任务中表现出色。定价具有竞争力,输入/输出每 1M token 分别为 $0.21/$0.32。访问权限为 STARTER 级别。

实验性LLM稀疏注意力长上下文研究模型代码AI
81%质量
164K上下文窗口
70%速度
分类
经济
API访问
统一上下文
RAG + Knowledge Base
24/7支持
试用此模型比较模型

最适合

代码生成
高级推理
数学任务

🚀 能力

函数
代码
流式传输

限制

无图像生成
无互联网访问
输出受审查

规格

提供商deepseek
上下文窗口163,840 代币
最大输出4,096 代币
最低套餐平衡

价格

输入价格$0.2100 / 1M 代币
输出价格$0.3200 / 1M 代币

💡 PRO订阅可享20%折扣

准备好试用 DeepSeek: DeepSeek V3.2 Exp 了吗?

注册即可获得1,000个免费代币

免费开始