生成式AI 模型性能不断提升,或处于更大规模放量前夕,推理需求有望高速增长。OpenAI 于2022 年11 月推出生成式AI 应用ChatGPT,在不到两个月的时间内,月活跃用户数突破1 亿人。以ChatGPT 为代表的生成式AI应用快速迭代、落地,模型推理的算力需求逐渐显现。随着生成式AI 模型参数和Token 数量不断增加,模型单次推理所需的算力持续攀升。同时,ChatGPT、Gemini、Kimi 等聊天机器人的用户数逐步上升,MicrosoftCopilot、Adobe Firefly、WPS AI 等办公助手持续落地,用户侧的流量不断上升,推理算力未来有望超过训练算力,最终训练芯片与推理芯片数量之比或达到2:8。
量化技术(Quantization)是决定生成式AI 推理成本的关键因素,量化技术的迭代升级有望降低推理门槛,为CPU+ASIC、CPU+FPGA 等技术路线的发展,以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的FP16 量化快速发展到目前应用最成熟的INT8 量化,再到正在进一步研究中的INT4 量化,呈现出数据精度逐步降低,内存或显存占用不断减少的趋势。这一趋势有助于CPU+ASIC、CPU+FPGA 等技术路线通过软硬件的优化提高推理能力,也有助于国产算力通过增加低精度计算单元等方式,以较成熟的制程工艺实现可用的推理算力。
消费级GPU 产品和海外CSP 企业的自研芯片同样被用于推理场景。英伟达和AMD 的消费级GPU 产品,同样具备接近千亿参数量级的生成式AI 模型的推理能力,从侧面说明推理芯片的门槛相对较低。谷歌、微软、亚马逊、Meta 等海外CSP 企业在大规模采购英伟达数据中心GPU 的同时,也在积极自研用于模型训练和推理的芯片,有望成为满足推理算力需求的另一种途径。
我们认为:生成式AI 的发展是一个不断迭代升级的过程,随着国内生成式AI 模型的质量持续提升,有望出现更多优质应用,从而带动推理算力需求快速上升。在推理场景下,算力的性价比显得更为重要。在供给端有所限制的情况下,国产推理芯片有望受益于国内生成式AI 应用的落地,迎来重大发展机遇。
建议关注:
1)AI 推理芯片:寒武纪、海光信息。
2)算力服务器:浪潮信息、中科曙光、神州数码、工业富联。
风险提示:人工智能技术落地和商业化不及预期;产业政策转变;宏观经济不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论