人工智能行业专题:DEEPSEEK的稀疏注意力机制给AI产业释放更大的发展潜能

2025-10-16 21:30:05 和讯  中原证券唐月/
  投资要点:
  人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,从而给长文本处理带来了可能性。
  由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过Scaling Law 提升大模型长文本处理能力和模型性能,AI 产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek 作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。
  NSA:2025 年2 月,DeepSeek 梁文锋参与撰写的论文《NativeSparse Attention: Hardware-Aligned and Natively TrainableSparse Attention》发布,提出了原生稀疏注意力(NSA),通过算法和硬件的协同优化,把长文本处理速度提升了11 倍,并实现了与传统的全注意力模型相当或更优的性能。
  DSA:2025 年9 月DeepSeek 发布了V3.2-Exp,它基于V3.1-Terminus 构建,引入了新的注意力机制DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。由于不需要重新训练模型,而是进行原有模型的升级,可以更低成本地进行稀疏注意力的探索与实验。
  稀疏注意力的引入将注意力计算复杂度从O(L?)(L 为序列长度)降至亚平方级(如O(Llog L)、(O(L*k)),从而突破内存与算力瓶颈。此前,稀疏注意力工作主要集中在推理阶段,而业界预训练阶段多采用稠密注意力机制,而DeepSeek 的NSA 和DSA 在训练阶段引入了稀疏注意力,给大模型带来的计算效率的提升和模型上下文的拓展,将给后训练释放更大的发展潜能,成为推动模型能力不断突破的重要支撑。
  风险提示:国际形势的不确定性。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王治强 HF013)

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读