计算机行业：AI+专题系列点评(二十九)：DEEPSEEK发布最新论文：大模型长文本推理革命

2025-02-20 08:00:08 和讯华创证券吴鸣远

　　事项：
　　2025 年2 月18 日，DeepSeek 联手两大机构发布最新论文，研究由DeepSeek创始人梁文锋亲自领导，旨在优化Transformer 注意力机制。论文提出了革命性注意力机制NSA，NSA 是一种面向硬件且支持原生训练的稀疏注意力机制，专为超快长上下文训练与推理设计。它包含动态分层稀疏策略、粗粒度的token压缩和细粒度的token 选择等核心组成部分，在通用、长文本、思维链推理基准测试中，刷新SOTA，碾压全注意力。NSA 是对Transformer 注意力机制的重大优化。
　　评论：
　　NSA 实现技术突破，计算效率显著提高：技术上，NSA 通过硬件级优化：将算术强度精确控制在GPU 临界值（16.8TFLOPS/1.5TBps≅11.2）之上；动态分层稀疏：采用32token 压缩块+64token 选择块的组合策略；三重注意力通路：
　　压缩全局（6.25%计算量）、精选局部（25%计算量）、滑动窗口（8%计算量），使NSA 架构在64K 长文本场景下，实现解码速度提升11.6 倍、前向传播9 倍加速、反向传播6 倍加速
　　NSA 完成技术创新，成功部署高效稀疏注意力机制：NSA 在技术上引入了两个核心创新点：硬件对齐系统和训练感知设计，使NSA 能够同时支持高效推理与完整训练流程。从而成功部署原生可训练的稀疏注意力架构，并集成了分层token 建模。同时，NSA 还设计了专用计算内核，以最大化实际计算效率。
　　通用基准评估中，NSA 总体表现优越，在推理能力上展现显著优势：研究人员在一套全面的基准测试中评估了预训练的NSA 和全注意力基线，覆盖了知识、推理和编码能力。尽管NSA 具有稀疏性，但它在总体性能上表现优越，在9 个指标中有7 个超过了包括全注意力在内的所有基线，且在推理相关的基准测试中显示出显著的提升（DROP: +0.042，GSM8K: +0.034）。
　　长文本评估方面，NSA 达到完美准确性：NSA 使用层次化的稀疏注意力设计，该设计结合了压缩token 以实现高效的全局上下文扫描，以及用于精确局部信息检索的选择token。粗粒度的压缩在低计算成本下识别相关的上下文块，而对选择token 的token 级注意力则确保了关键细粒度信息的保留，使NSA 能够同时保持全局感知能力和局部精确性。
　　思维链推理评估方面，NSA 体现在高级推理任务中的有效性：在8k 上下文设置下，NSA-R 比Full Attention-R 获得了更高的准确率（高出0.075），这种优势在16k 上下文中依然保持（高出0.054）。在不同上下文长度下的持续优异表现，证实了当稀疏注意力原生集成到训练流程中时，它在高级推理任务中的可行性。
　　投资建议：AI 大模型本质应落脚垂类应用，国内大模型在全球竞争中崭露头角，看好AI+应用产品力与商业化落地进程。建议关注以下标的：1)办公：金山办公、合合信息、福昕软件、迈富时；2)金融：同花顺、恒生电子、新致软件；3)大模型：科大讯飞、三六零、第四范式；4)工业：中控技术、索辰科技、鼎捷数智；5)端侧/穿戴/玩具：萤石网络、云天励飞、中科创达、汉王科技；6)医疗：润达医疗、卫宁健康、晶泰控股；7)法律：金桥信息、华宇软件、通达海；8)邮箱：彩讯股份；9)创意：万兴科技、美图公司、虹软科技；10)教育：
　　佳发教育、欧玛软件、新开普；11)电商：焦点科技；12)ERP：金蝶国际、用友网络；13)OA：泛微网络、致远互联；14)安全：深信服、永信至诚；15)部署：优刻得、星环科技、网宿科技、汉得信息；16）算力：海光信息、寒武纪、景嘉微等。
　　风险提示：商业化后表现不及预期，用户付费意愿低，行业技术迭代速度较快。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：郭健东）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约