Ebpay

Ebpay
新闻详情

Ebpay技术 | DeepSeek V3.2的DSA技术解析

2026年01月07日

年初 DeepSeek R1 凭借“RL 后训练”技术,让开源模型在复杂任务上一度逼近 Claude、Gemini 等闭源商业模型。


但随着闭源模型持续迭代,两者差距再次拉大 —— 核心症结在于开源模型的 Attention 层(上下文关联模块)在处理长序列时效率低下,拖累了关键的 RL 训练(Reinforcement Learning,强化学习),导致复杂任务表现乏力。


原始 Attention:长文本处理的“效率陷阱”


Attention 层的核心作用,是让模型理解当前词语(token)与历史所有词语的关联,就像阅读时需要前后对照才能读懂上下文。这个过程会用到“kv-cache”(记忆本)存储历史信息,避免重复计算。但原始机制的“全量关联”设计,在长文本场景下会陷入“平方级算力消耗”的陷阱。


✅ 原始 Attention 的计算逻辑


让我们先看一个简单的情况,假设输入是 3 维的X₁、X₂ 和 X₃,在支持 kv-cache 的情况下,每个 Attention 层计算本层的输出向量过程如下:



带入以上规则,第一时间计算 X₁、X₂ 对应的 K,V 存入 kv-cache,然后计算针对 X₃ 的输出 O 的时候,只读取这里的K,V,不再重复计算K₁、K₂、V₁、V₂ :



此时得出 kv-cache 如下所示:



接下来计算 X₃ 的QKV:



现在可以读取 K_cache,V_cache 用于计算 X₃ 输入后的 attention score 了,不用再重复计算 X₁、X₂的 QKV,为了简化表达我们先更新 cache,然后再进行计算。

更新后:



Softmax 权重的计算过程简化处理,因为最后一个分数 276.52 远大于前两个。经过 Softmax 后,几乎所有的权重都集中在了第三个分量上。为简化说明:attn_weights≈[0,0,1](仅为演示)。


计算最终输出:



以上,一层 Attention 的输出向量便计算完成。需注意,该⽰例⽤于说明 decode 阶段 cache 的意义,prefill 仍需处理全量 token 相关性。


✅ 致命问题:平方级复杂度拖垮效率


模型在后训练的 RL 阶段会进行推理。推理过程可分为 prefill(预填充) 和 decode(解码) 2个阶段。prefill 阶段每一层都会完成两件事,构建本层的 kv cache,计算每一个 token 对应的 O 给下一层构建自己的 kv cache。


假设输入的序列长度是 L,则每层 Attention 的复杂度为O(L²d)(d 为模型维度):


当 L=1000 时,关联计算规模约百万量级;当 L=128K 时,关联计算规模约 160–170 亿量级。在长文本场景下,算力消耗呈平方级飙升,导致 RL 训练效率骤降,这是影响开源模型规模化后训练效率的重要因素之⼀


秘密武器:DSA“稀疏 Attention 机制”


强化模型能力,降低计算复杂度成为关键。


现在主流的思想有两种:线性 Attention 与 稀疏 Attention。而 DeepSeek V3.2 采取的 DSA(DeepSeek Sparse Attention,深度求索稀疏注意力)就是第 2 种


在理解 DSA 前,我们先来看看 SWA(Sliding Window Attention,滑动窗口注意力)。SWA 是一种窗口型的注意力机制,GPT-OSS 、小米的 MiMo 均采用了这种机制。其在计算当前 token 的 Attention 层输出向量时,只向前参考一定数量的 K,V(比如128);其次,SWA 在一些任务上也表现出不错的性能,模型顺利获得 full attention 配合一定比例的 SWA,可以有效降低计算复杂度,保证一定的性能。


DSA 机制可看作 SWA 的泛化形式。它摒弃了“当前 token 仅与邻近一定范围内的 token 存在关联”这一先验假设,而是顺利获得训练一个 Top-k 索引器,用于筛选出指定数量的相关 token,以此构建当前 token 生成所需的上下文信息:



图 | DeepSeek Sparse Attention architecture


这一点用人类的思考过程类比就很好理解:当我们阅读一本书时,不会只局限于当下章节的内容,反倒常常联想到前文里相隔甚远的某个章节,用其中的内容来印证当下读到的观点。


不同于 SWA,DeepSeek V3.2 新增了 Indexer 计算环节,只要合理控制 Indexer 的计算复杂度,就能兼顾推理开销的优化与模型性能的保障,实现效率与效果双赢。


我们来分析一下引入这个 Indexer 后的复杂度:



图 | Indexer 的输出计算


Attention 的计算复杂度变成了O(Lkd),其中k是被选中参与计算的 token 的数量(V3.2里 k 为 2048 ),那么引入的这个Indexer 的复杂度是多少?



因为 Indexer 是粗选,可以使用 FP8,而 Attention 一般是 FP16,在英伟达GPU 上 FP8 的理论计算吞吐是 FP16 的 2 倍。同时 ReLU 的计算也比 softmax 开销小很多。

综上,长上下文时跟原始的 softmax Attention 比起来,DSA 大大的节约计算时间,序列越长,节约越多


实测效果:算力大减,性能不减


DeepSeek 官方在 H800 集群(租赁费用 2 美元 / 小时)的测试结果显示:



图 | 模型推理消耗


预填充阶段:V3.1 的成本随 token 长度增长呈陡峭上升(128K token 时成本达 0.7 美元 / 百万 token),而 V3.2 的成本增长极为平缓(128K token 时仅约 0.2 美元 / 百万 token)


解码阶段:V3.1 的成本随 token 长度飙升至 2.2 美元 / 百万 token,而 V3.2 的成本几乎稳定在 0.3 美元 / 百万 token 左右。



图 | 模型基准测试


同时基准测试显示,模型在理解、推理等核心任务上的表现与 V3.1-Terminus 持平。


总结


DeepSeek V3.2 的核心竞争力,正是 DSA 稀疏注意力这一 “秘密武器”—— 它跳出了传统 Attention 的“全量对比”思维,把主注意⼒从平⽅级降到近似线性(O(Lk)),端到端成本曲线更平缓。既保留了远距离关键信息,又解决了开源模型的“高成本枷锁”。这让后续的 RL 训练能以更低成本高效推进,模型在写代码、多轮对话等复杂任务上的能力有望快速提升,持续缩小与闭源商业模型的差距。


参考资料:


[1] http://mp.weixin.qq.com/s/2RqOyat1dw1IfLl6csYUMw


[2] http://arxiv.org/pdf/2512.02556


建议反馈

业务咨询