计算机行业:AI+专题系列点评(二十九):DEEPSEEK发布最新论文:大模型长文本推理革命

2025-02-20 08:00:08 和讯  华创证券吴鸣远
  事项:
  2025 年2 月18 日,DeepSeek 联手两大机构发布最新论文,研究由DeepSeek创始人梁文锋亲自领导,旨在优化Transformer 注意力机制。论文提出了革命性注意力机制NSA,NSA 是一种面向硬件且支持原生训练的稀疏注意力机制,专为超快长上下文训练与推理设计。它包含动态分层稀疏策略、粗粒度的token压缩和细粒度的token 选择等核心组成部分,在通用、长文本、思维链推理基准测试中,刷新SOTA,碾压全注意力。NSA 是对Transformer 注意力机制的重大优化。
  评论:
  NSA 实现技术突破,计算效率显著提高:技术上,NSA 通过硬件级优化:将算术强度精确控制在GPU 临界值(16.8TFLOPS/1.5TBps≅11.2)之上;动态分层稀疏:采用32token 压缩块+64token 选择块的组合策略;三重注意力通路:
  压缩全局(6.25%计算量)、精选局部(25%计算量)、滑动窗口(8%计算量),使NSA 架构在64K 长文本场景下,实现解码速度提升11.6 倍、前向传播9 倍加速、反向传播6 倍加速
  NSA 完成技术创新,成功部署高效稀疏注意力机制:NSA 在技术上引入了两个核心创新点:硬件对齐系统和训练感知设计,使NSA 能够同时支持高效推理与完整训练流程。从而成功部署原生可训练的稀疏注意力架构,并集成了分层token 建模。同时,NSA 还设计了专用计算内核,以最大化实际计算效率。
  通用基准评估中,NSA 总体表现优越,在推理能力上展现显著优势:研究人员在一套全面的基准测试中评估了预训练的NSA 和全注意力基线,覆盖了知识、推理和编码能力。尽管NSA 具有稀疏性,但它在总体性能上表现优越,在9 个指标中有7 个超过了包括全注意力在内的所有基线,且在推理相关的基准测试中显示出显著的提升(DROP: +0.042,GSM8K: +0.034)。
  长文本评估方面,NSA 达到完美准确性:NSA 使用层次化的稀疏注意力设计,该设计结合了压缩token 以实现高效的全局上下文扫描,以及用于精确局部信息检索的选择token。粗粒度的压缩在低计算成本下识别相关的上下文块,而对选择token 的token 级注意力则确保了关键细粒度信息的保留,使NSA 能够同时保持全局感知能力和局部精确性。
  思维链推理评估方面,NSA 体现在高级推理任务中的有效性:在8k 上下文设置下,NSA-R 比Full Attention-R 获得了更高的准确率(高出0.075),这种优势在16k 上下文中依然保持(高出0.054)。在不同上下文长度下的持续优异表现,证实了当稀疏注意力原生集成到训练流程中时,它在高级推理任务中的可行性。
  投资建议:AI 大模型本质应落脚垂类应用,国内大模型在全球竞争中崭露头角,看好AI+应用产品力与商业化落地进程。建议关注以下标的:1)办公:金山办公、合合信息、福昕软件、迈富时;2)金融:同花顺、恒生电子、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技、鼎捷数智;5)端侧/穿戴/玩具:萤石网络、云天励飞、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份;9)创意:万兴科技、美图公司、虹软科技;10)教育:
  佳发教育、欧玛软件、新开普;11)电商:焦点科技;12)ERP:金蝶国际、用友网络;13)OA:泛微网络、致远互联;14)安全:深信服、永信至诚;15)部署:优刻得、星环科技、网宿科技、汉得信息;16)算力:海光信息、寒武纪、景嘉微等。
  风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:郭健东 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读