华泰证券:国产模型厂商进入API“价格战” 利好AI应用开发

2024-06-11 07:39:37 智通财经 
新闻摘要
智通财经APP获悉,华泰证券发布研报称,5月6日,DeepSeek发布最新MoE模型DeepSeek-V2,刷新了模型API定价 输入¥1元/Mtokens、输出¥2元/Mtokens。紧接着,智谱、阿里、百度、腾讯、讯飞等厂商均宣布旗下模型API降价,部分降价幅度高达100%。从技术层面降低模型推理成本,核心在于优化KVcache目前,大模型的长文本支持能力已成为趋势

智通财经APP获悉,华泰证券(601688)发布研报称,5月6日,DeepSeek发布最新MoE模型DeepSeek-V2(32K上下文),刷新了模型API定价:输入¥1元/M tokens、输出¥2元/M tokens。紧接着,智谱、阿里(09988)、百度(09888)、腾讯(00700)、讯飞(002230.SZ)等厂商均宣布旗下模型API降价,部分降价幅度高达100%。华泰证券深入拆解了各家API产品矩阵,发现降价的主要是轻量级模型,对于高并发B端用户或影响不大。华泰证券认为,API降价将吸引更多的ISV开发AI相关应用,有望提高Super App出现概率,建议关注算力和应用相关公司。

华泰证券主要观点如下:

降价以入门级轻量API为主,可以从技术优化和生态抢占来解释

降价厂商中,智谱、百度和讯飞主要降价产品为轻量版;阿里和腾讯则将旗下全部模型进行降价,降价幅度不等。字节为首次定价,价格较低。可以看出,降价幅度和范围较大的主要是互联网企业,其资源更加丰富。分析降价原因,一方面,DeepSeek V2证明了,确实可以通过注意力机制优化,大大减少所需缓存的量,降低成本和提高效率。另一方面,即使没有技术上的降价逻辑,通过降价手段吸引开发者,目前看仍是抢占生态的重要手段。

从技术层面降低模型推理成本,核心在于优化KV cache

目前,大模型的长文本支持能力已成为趋势。在推理长文本时,需要首先将文本预填充到GPU的HBM中,然后再解码出token。其中预填充速度主要受GPU计算能力影响,解码速度受HBM带宽影响。当文本很长时,KV cache将占用HBM相当大的空间,导致用户并发性下降,且解码耗时更长。用户并发性下降,还将带来新的问题,即需要从HBM上“卸载”暂时不用的KV cache,再“加载”下一个用户的KV cache,带来新的耗时。因此,降低KV cache是优化关键。

典型优化方法:压缩KV cache,或采用全局KV cache

该行研究了近期DeepSeek V2和微软的YOCO典型的KV cache压缩方法,代表两种流派。DeepSeek V2引入多头隐注意力(MLA)机制,不再缓存全部的KV,而是用隐向量来压缩KV,与Transformer原始的多头注意力相比,KV cache可以减少90%以上。微软的YOCO则将Decoder架构一切为二,下半部分负责用高效的注意力机制产生全局KV cache,上半部分则直接使用全局KV cache,不再需要额外计算,也大大降低了缓存量。

模型降价有望利好算力和应用,建议关注相关产业链公司

该行认为,模型降价将吸引更多的开发者开发AI应用,或进一步提振算力需求,提升Super App出现概率,建议关注:1)AI服务器相关公司;2)AI应用相关公司。

(责任编辑:王治强 HF013)
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读