Token 调用量与算力需求非线性增长
推理和Token 调用量之间不是线性关系:从Agentic AI 底层来看,推理过程的倍数项包含Agent 数和迭代次数,多Agent 协作和多工具调用带来Token 消耗量倍数增长。Token 的增长与算力硬件需求之间也不是线性关系:据黄仁勋在3 月份的GTC 大会中所述,“Token量增长10 倍,所需的算力量的增长可能增长100 倍”。这是因为推理过程变得更加复杂,在同样的算力条件下,计算的时间也将增长,如果要求模型具备交互性与实时性,则需要将计算速度提升10 倍。
我们认为,Agentic AI 将带来Token 调用量10 倍以上增长,从而带来算力需求100 倍以上提升。目前市场对于算力需求有较大的预期差,未来算力需求空间广阔。
三条Scaling 曲线为算力需求打开空间
目前市场熟知的Scaling law 是预训练Scaling law,即数据和参数量的增长可以提升模型性能。对预训练Scaling law 见顶的担忧导致市场对算力的需求的低估。但我们认为,考虑到后训练Scaling 和推理Scaling,AI 对算力的需求仍有大量空间。推理Scaling 的必要性在于提高模型性能,特别是模型在困难问题方面的表现,是通往Agentic AI 的重要路径。回顾Grok 4 的发展历程,对应了三条Scaling 曲线。2025 年2 月,Grok 3 发布,相比于Grok 2,将预训练阶段的算力扩大10 倍,实现性能的突破,对应预训练阶段的Scaling law。2025 年7 月,Grok 4 发布,将后训练与推理过程的算力扩大10 倍,在推理/测试阶段花费更多时间思考,调用更多算力,例如通过多Agent 共同思考,商议问题结果,进一步在HLE 测评集上实现突破,对应后训练与推理过程的Scaling law。
Token 调用量随推理扩展呈倍数增长
GTC 2025 大会中,黄仁勋多次提到了“Agentic AI”,理解Agentic AI 才能理解大会中Token 量大幅增长的结论。我们认为Deep Research 是“Agentic 化”的AI Search,是研究Agentic AI 合适的抓手。我们从DeepResearch 的底层系统设计入手,分析得出Token 量增长源于多Agent 和多工具调用,并基于系统运行流程对Token 增量进行量化。根据我们的测算,Deep Research 的Token 消耗可能接近单次聊天的50 倍。对于比DeepResearch 更复杂的一般Agentic AI,Token 增长量会更高。
AI 算力需求随Token 增长呈倍数增长
推理过程中存在延迟与吞吐量两个重要指标,两个指标相互制约,分别决定了用户对于模型/AI 应用的使用体验(若延迟过高,则会失去用户)与模型/AI 应用厂商的总任务处理量,对应AI 服务的量价关系,从而决定了AI 服务的商业化。考虑模型/AI 应用厂商Token 经济学的“帕累托最优”问题,则需要追求用户使用量与AI 服务质量之间的平衡,而想要扩大最优边界,则需要增加算力硬件。随着推理过程变得更加复杂,在同样的算力条件下计算的时间也将增长。用户太久的等待将失去耐心,如果要求模型具备交互性与实时性,则需要用额外的算力来减少因为单任务Token 量扩大带来的时延,即用算力换时间,所以算力需求的增长与Token 的增长呈倍数关系。
风险提示:宏观经济波动,模型迭代不及预期,AI 商业化进展不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王治强 HF013)
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com
最新评论