Ebpay技术 | DeepSeek V3.2的DSA技术解析

Ebpay

新闻详情

Ebpay技术 | DeepSeek V3.2的DSA技术解析

2026年01月07日

年初 DeepSeek R1 凭借“RL 后训练”技术，让开源模型在复杂任务上一度逼近 Claude、Gemini 等闭源商业模型。

但随着闭源模型持续迭代，两者差距再次拉大 —— 核心症结在于开源模型的 Attention 层（上下文关联模块）在处理长序列时效率低下，拖累了关键的 RL 训练（Reinforcement Learning，强化学习），导致复杂任务表现乏力。

原始 Attention：长文本处理的“效率陷阱”

Attention 层的核心作用，是让模型理解当前词语（token）与历史所有词语的关联，就像阅读时需要前后对照才能读懂上下文。这个过程会用到“kv-cache”（记忆本）存储历史信息，避免重复计算。但原始机制的“全量关联”设计，在长文本场景下会陷入“平方级算力消耗”的陷阱。

✅ 原始 Attention 的计算逻辑

让我们先看一个简单的情况，假设输入是 3 维的X₁、X₂ 和 X₃，在支持 kv-cache 的情况下，每个 Attention 层计算本层的输出向量过程如下：

带入以上规则，第一时间计算 X₁、X₂ 对应的 K，V 存入 kv-cache，然后计算针对 X₃ 的输出 O 的时候，只读取这里的K，V，不再重复计算K₁、K₂、V₁、V₂ ：

此时得出 kv-cache 如下所示：

接下来计算 X₃ 的QKV：

现在可以读取 K_cache，V_cache 用于计算 X₃ 输入后的 attention score 了，不用再重复计算 X₁、X₂的 QKV，为了简化表达我们先更新 cache，然后再进行计算。

更新后：

Softmax 权重的计算过程简化处理，因为最后一个分数 276.52 远大于前两个。经过 Softmax 后，几乎所有的权重都集中在了第三个分量上。为简化说明：attn_weights≈[0,0,1](仅为演示)。

计算最终输出：

以上，一层 Attention 的输出向量便计算完成。需注意，该⽰例⽤于说明 decode 阶段 cache 的意义，prefill 仍需处理全量 token 相关性。

✅ 致命问题：平方级复杂度拖垮效率

模型在后训练的 RL 阶段会进行推理。推理过程可分为 prefill（预填充）和 decode（解码） 2个阶段。prefill 阶段每一层都会完成两件事，构建本层的 kv cache，计算每一个 token 对应的 O 给下一层构建自己的 kv cache。

假设输入的序列长度是 L，则每层 Attention 的复杂度为O(L²d)（d 为模型维度）：

当 L=1000 时，关联计算规模约百万量级；当 L=128K 时，关联计算规模约 160–170 亿量级。在长文本场景下，算力消耗呈平方级飙升，导致 RL 训练效率骤降，这是影响开源模型规模化后训练效率的重要因素之⼀。

秘密武器：DSA“稀疏 Attention 机制”

强化模型能力，降低计算复杂度成为关键。

现在主流的思想有两种：线性 Attention 与稀疏 Attention。而 DeepSeek V3.2 采取的 DSA（DeepSeek Sparse Attention，深度求索稀疏注意力）就是第 2 种。

在理解 DSA 前，我们先来看看 SWA（Sliding Window Attention，滑动窗口注意力）。SWA 是一种窗口型的注意力机制，GPT-OSS 、小米的 MiMo 均采用了这种机制。其在计算当前 token 的 Attention 层输出向量时，只向前参考一定数量的 K，V（比如128）；其次，SWA 在一些任务上也表现出不错的性能，模型顺利获得 full attention 配合一定比例的 SWA，可以有效降低计算复杂度，保证一定的性能。

DSA 机制可看作 SWA 的泛化形式。它摒弃了“当前 token 仅与邻近一定范围内的 token 存在关联”这一先验假设，而是顺利获得训练一个 Top-k 索引器，用于筛选出指定数量的相关 token，以此构建当前 token 生成所需的上下文信息：

图 | DeepSeek Sparse Attention architecture

这一点用人类的思考过程类比就很好理解：当我们阅读一本书时，不会只局限于当下章节的内容，反倒常常联想到前文里相隔甚远的某个章节，用其中的内容来印证当下读到的观点。

不同于 SWA，DeepSeek V3.2 新增了 Indexer 计算环节，只要合理控制 Indexer 的计算复杂度，就能兼顾推理开销的优化与模型性能的保障，实现效率与效果双赢。

我们来分析一下引入这个 Indexer 后的复杂度：

图 | Indexer 的输出计算

Attention 的计算复杂度变成了O(Lkd)，其中k是被选中参与计算的 token 的数量（V3.2里 k 为 2048 ），那么引入的这个Indexer 的复杂度是多少？

因为 Indexer 是粗选，可以使用 FP8，而 Attention 一般是 FP16，在英伟达GPU 上 FP8 的理论计算吞吐是 FP16 的 2 倍。同时 ReLU 的计算也比 softmax 开销小很多。

综上，长上下文时跟原始的 softmax Attention 比起来，DSA 大大的节约计算时间，序列越长，节约越多。

实测效果：算力大减，性能不减

DeepSeek 官方在 H800 集群（租赁费用 2 美元 / 小时）的测试结果显示：

图 | 模型推理消耗

预填充阶段：V3.1 的成本随 token 长度增长呈陡峭上升（128K token 时成本达 0.7 美元 / 百万 token），而 V3.2 的成本增长极为平缓（128K token 时仅约 0.2 美元 / 百万 token）；

解码阶段：V3.1 的成本随 token 长度飙升至 2.2 美元 / 百万 token，而 V3.2 的成本几乎稳定在 0.3 美元 / 百万 token 左右。

图 | 模型基准测试

同时基准测试显示，模型在理解、推理等核心任务上的表现与 V3.1-Terminus 持平。

总结

DeepSeek V3.2 的核心竞争力，正是 DSA 稀疏注意力这一 “秘密武器”—— 它跳出了传统 Attention 的“全量对比”思维，把主注意⼒从平⽅级降到近似线性（O(Lk)），端到端成本曲线更平缓。既保留了远距离关键信息，又解决了开源模型的“高成本枷锁”。这让后续的 RL 训练能以更低成本高效推进，模型在写代码、多轮对话等复杂任务上的能力有望快速提升，持续缩小与闭源商业模型的差距。

参考资料：

[1] http://mp.weixin.qq.com/s/2RqOyat1dw1IfLl6csYUMw

[2] http://arxiv.org/pdf/2512.02556

Ebpay算力云上线 MiniMax M2.1

Ebpay算力云上线字节跳动 Seedance 1.5 Pro

反馈类型*	产品咨询需求建议
内容描述*
联系方式*
姓名：
联系邮箱：
电话号码：
验证码:

Ebpay

OneThingAI →

星域云 →

Ebpay云 →

智能硬件 →

AI应用解决方案→

音视频解决方案→

云游戏解决方案→

客户中心→

帮助中心→

API文档 →

公司新闻 →

技术趋势→

媒体报道 →

公司简介 →

荣誉奖项→

联系我们 →

Ebpay技术 | DeepSeek V3.2的DSA技术解析

产品咨询与意见反馈

联系我们