三个模型:纯强化学习复现o1 能力,引发新一轮革命。DeepSeek 由幻方量化创立,创始人为梁文峰, 2024 年12 月,DeepSeek-V3 发布,性能对齐海外领军闭源模型。2025 年1 月,以V3 为基座,衍生出强化推理版R1-Zero+泛化推理版R1,性能对标OpenAI-o1 正式版。
两大贡献:复现o1 强化学习效果+实现有限算力的算法创新。1)捅破强化学习用于大模型推理的窗户纸。DeepSeek R1 是继openAI o1 之后,推理的第二个里程碑。2)根据DeepSeek 公开的数据,按照1 张H800 每小时2 美元的租赁成本算,V3 预训练成本只有557.6 万美金,用1 万张H800 只需要11 天就能训练完,仅使用不到1/10的成本就达到了国际上领先模型的表现,这对当前我国突破算力卡脖子限制具备重要意义。
九大创新:模型创新+系统优化+商业模式开源。
4 个模型本身创新点:1)V3 基座能力强劲,具备较高的基座模型能力、DeepSeek 系统效率、RL 调教能力;2)R1-zero 模型直接应用RL 到基础模型,而不依赖作为初步步骤的监督微调(SFT);3)R1 泛化推理模型,通过深度推理SFT 数据(本身带推理能力)+通用SFT 数据实现推理能力的跨任务泛化;4)通过模型与强化学习环境交互,在没有奖励思维链长度的情况下,自发涌现了反思和长思考能力,带动推理能力提升。
4 个系统优化创新点:1)复杂均衡优化:引入动态调整的Expert Bias,只影响专家路由,不产生任何梯度影响;2)通信优化:提出DualPipe 算法,精细控制分配给计算和通信的GPU SM 数量,保证计算和通信完全重叠,显著减少了L2缓存的使用和对其他SM 的干扰,从而提升了系统性能;3)内存优化:启用上下文硬盘缓存技术,把预计未来会重复使用的内容,缓存在分布式的硬盘阵列中,以应对上下文KV Cache 缓存的问题;4)计算优化:采用组相对策略优化(GRPO)替代传统的近端策略优化(PPO),优势在于无需单独的价值模型、采用基于组的相对优势估计、显著降低内存和计算开销、增强了模型的数学推理能力。
1 个商业模式创新点:坚持开源,DeepSeek 开源了原生FP8 权重,公开深度思考过程、免费允许用户无限制商用、鼓励蒸馏。
行业影响:算力需求仍未见顶,重心向推理侧迁移。1)模型侧:scalinglaw 没有失效,还在持续迭代,大概率往推理方向卷。2)算力侧:基座模型仍需云上算力来迭代,云端推理部署需求存在,应用爆发需要规模算力支持访问;3)端侧:应用场景的天然分散性会导致推理需求指数增长,Agent 与各类终端、用户入口的加速结合。
投资方向和标的建议:
第一类:用户入口与agent 的融合。
1) Agent+C 端各类终端入口。①手机:R1 本地部署要求大幅降低,内嵌在各种系统、软件中的场景将大幅增加,HarmonyOS NEXT 小艺助手接入DeepSeek,建议关注:润和软件、法本信息、软通动力、东方中科、诚迈科技、中科创达、拓维信息等。②智能汽车:低成本高性能AI Agent 与座舱结合,显著提升人车智能交互体验的同时,能打造差异化竞争优势,建议关注:黑芝麻智能、地平线机器人、德赛西威、经纬恒润、中科创达、光庭信息。③机器人:消费类机器人与AI Agent 集合,提升智能家居用户体验,加速教育用户实现场景扩容。建议关注:萤石网络等。
2) B 端软件:B 端公司掌握了大量用户入口,并具备品牌优势和壁垒,通过模型接入实现降本增效,同时凭借Deepseek 的更低推理成本,未来有望实现增收又增利。建议关注:合合信息、金山办公、同花顺、万兴科技、中望软件等。
第二类:国产算力。算法和软硬件协调发展、形成系统性弯道超车,①华为昇腾产业链:建议关注软通动力、烽火通信、神州数码以及相关配套硬件厂商;②中科院算力产业链:建议关注海光信息、中科曙光、曙光数创、寒武纪等。
风险提示:技术迭代不及预期的风险;市场竞争加剧的风险;人才流失风险的风险;研究报告中使用的公开资料可能存在信息滞后或更新不及时的风险
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:郭健东 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论