计算机行业点评：从长文本到低成本重申全面看多AI应用

2024-05-13 10:10:06 和讯天风证券缪欣君

幻方AI 发布了Deepseek V2 模型，在模型性能一流的同时达到极低的价格，性价比凸显
5 月6 日幻方发布了第二代MOE 模型DeepSeek-V2。目前在大模型主流榜单中，DeepSeek-V2 均表现出色，中文综合能力（AlignBench）开源模型中最强，与GPT-4-Turbo，文心4.0 等闭源模型在评测中处于同一梯队，英文综合能力（MT-Bench）与最强的开源模型LLaMA3-70B 同处第一梯队，超过最强MoE 开源模型Mixtral 8x22B，知识、数学、推理、编程等榜单结果也位居前列。同时，DeepSeek-V2 API 的定价处于极低的价格：32K 上下文每百万tokens 输入1 元、输出2 元，价格仅为GPT-4-Turbo 的近百分之一，仅为同属于MoE 架构的abab-6.5s 模型的1/5，就中文能力来看，DeepSeek-V2 在全球模型中处于第一档的位置，但其成本却是最低。
双重架构创新驱动极低训练与推理成本大幅降低Deepseek-V2 模型在模型架构上进行了全方位的创新，使用MLA（Multi-head Latent Attention）和DeepSeekMoE 优化了Transformer 架构中的Attention 与FFN。为缓解键值缓存带来的推理效率下降问题，公司提出了MLA 使用低秩键值联合压缩的方式，显著降低KV 缓存；在FFN 上，公司使用了DeepSeekMoE，采用了细颗粒度的专家分割与共享专家隔离，提高了专家的潜力，相较于Gshard 等传统MoE 架构，新提出的架构优势较大。在训练过程中，公司使用了约8.1T tokens 的训练语料库，随后使用收集的150 万对话对大模型进行监督微调，同时采用GRPO，使模型进一步与人类偏好保持对齐。最终，模型在取得了良好效果的同时，训练成本与推理成本大幅降低，相较于DeepSeek 67B 模型，V2 模型节省了42.5%的训练成本与93.3%的KV 缓存，最大生成吞吐量提升至5.76 倍。
大模型低成本进程加快，应用有望达到更好盈利水平，全面看多AI 应用降本是实现大模型规模化商业应用的关键，DeepSeek-V2 模型通过架构创新，实现了大模型成本尤其是推理成本的显著下降。A16Z 的合伙人MartinCasado 在演讲中指出，历史上芯片和互联网都曾发生两次边际成本大幅下降，而发生的平台转移和行业革命的案例，随着大模型的成本下降甚至边际成本降到了零后，AI 革命即将开始，而每一轮科技革命，从PC 互联网到移动互联网都是应用赚最多的钱，因此我们认为以DeepSeek-V2 为代表的大模型成本迅速下降，有望全面带动AI 应用的发展。
建议关注：
（1）办公软件：金山办公、福昕软件；（2）多模态：万兴科技、美图公司（与海外团队联合覆盖）、虹软科技、光云科技；（3）金融、法律：同花顺、恒生电子、通达海、新致软件；（4）B 端应用：金蝶国际、泛微网络、用友网络、致远互联、鼎捷软件、汉得信息；（5）算力：华为链+国产AI 芯片四小龙
风险提示：应用推广节奏不及预期、国产算力进展不及预期、大模型发展历程不及预期
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约