计算机行业点评:DEEPSEEK开启模型平权时代 AI应用前景可期

2025-02-08 10:20:05 和讯  甬兴证券李行杰/夏明达
  事件概述
  据IT 之家,近日深度求索正式发布DeekSeek-V3 及DeepSeek-R1 模型并同步开源,前者为6710 亿参数的专家混合模型,性能比肩GPT-4o 和Claude-3.5-Sonnet 等世界顶尖闭源模型;后者在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1 正式版,其API 定价为每百万输入tokens 1 元(缓存命中)/4 元(缓存未命中),每百万输出tokens 16 元。
  核心观点
  DeepSeek-V3:FP8 精度以及框架优化,助推训练成本“向下”据《DeepSeek-V3 Technical Report》(DeepSeek-AI,2024),针对V3 模型,深度求索引入FP8 混合精度训练框架(首次验证其在极大规模模型上的有效性),通过FP8 计算和存储的支持,有效实现了加速训练和减少GPU 内存使用;框架方面,深度求索设计了DualPipe 算法,模型扩展后依然可保持固定的通信成本。V3 训练经济效益优异,预训练阶段的每万亿标记仅需180K H800 GPU 小时;若假设H800 GPU 租赁价格为每GPU 小时2 美元,总训练成本仅为557.6 万美元。
  DeepSeek-R1:后训练(无SFT)及蒸馏,验证推理能力提升通路据《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning》(DeepSeek-AI,2025),R1 是基于R1-Zero 迭代而来,后者基于V3-Base 作为基础模型,并采用 GRPO 作为RL 框架,未经过监督微调(supervised fine-tuning,SFT)作为预处理步骤,仍展现了卓越的推理能力。R1 在R1-Zero 的基础上,融入冷启动数据微调及RL 训练后得到,表现达到OpenAI-o1-1217 水平。DeepSeek-R1-Zero 允许模型探索思维链(CoT)以解决复杂问题,亦是首次验证了大模型推理能力提升可以仅通过RL 而无需SFT,具有较强启示意义。在蒸馏方面,深度求索亦验证了“大”模型向“小”模型蒸馏所得到的较小密集模型表现优异。
  模型平权时代到来,AI 下游应用有望进入快速增长期DeepSeek 为代表的厂商持续降低API 调用单价,同时国产模型性能持续提升,AI 模型进入普惠发展期,技术平权时代已然到来,下游应用侧公司有望以更低成本享受更强基座性能,增益其经营表现,AI 应用侧有望进入高速增长期。
  投资建议
  DeepSeek 引领新一轮LLM 性能及成本提质增效,有望带动AI 应用进入发力阶段,关注各垂直行业AI 进展,标的方面建议关注科大讯飞、金山办公、泛微网络、福昕软件、致远互联、润达医疗、焦点科技、润泽科技等。
  风险提示
  产业发展不及预期、政策推进力度不及预期、国产替代不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王治强 HF013)

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读