中信证券：2024或为AI Agent智能体落地之年

2024-05-31 14:37:25 智通财经

新闻摘要

智通财经APP获悉，中信证券发布研报称，自2024年以来，Google、OpenAI等头部厂商模型技术路线更侧重于应用落地，原生多模态、长文本处理成为其算法模型更新的重点，AIAgent作为当前语言模型应用落地的最佳形式，料将迎来技术转折。展望后续AIAgents应用的发展路径，成本优化将是焦点，目前的技术方案提供了多种针对成本问题的优化方案，但仍需要时间来进行实践，判断距离AIAgents应用落地还有约6-12个月时间。风险因素 AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险；私有数据相关的政策监管风险；全球宏观经济复苏不及预期风险；宏观经济波动导致欧美企业IT支出不及预期风险；AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险；行业竞争持续加剧风险等

智通财经APP获悉，中信证券发布研报称，自2024年以来，Google、OpenAI等头部厂商模型技术路线更侧重于应用落地，原生多模态、长文本处理成为其算法模型更新的重点，AI Agent(智能体)作为当前语言模型应用落地的最佳形式，料将迎来技术转折。展望后续AI Agents应用的发展路径，成本优化将是焦点，目前的技术方案提供了多种针对成本问题的优化方案，但仍需要时间来进行实践，判断距离AI Agents应用落地还有约6-12个月时间。

投资维度，建议关注：AI Agents的核心记忆部分(数据仓库、向量数据库等)、AI算力(芯片、存储、网络)、上层应用环节(互联网、软件)等相关环节领先厂商。

中信证券主要观点如下：

报告缘起：

在2023年的AI热潮过去后，市场投入了大量人力与资本押注基于语言模态的Transformer大模型，如GPT、Gemini、Claude等，其在语言问答的相关能力上已经较为成熟，但迟迟没有看到进一步的爆款应用落地。当前AI应用仍主要围绕以扩散模型(Diffusion Model)为底层的图片创作和图片修改模型，以Transformer为底层的大语言模型整体应用落地进度较为缓慢。预计2024年以来的技术路线变化将显著改变这一情况。考虑到当前头部模型厂商对多模态以及长文本能力的重视，AI Agent(智能体)将会是当前语言模型应用落地的最佳形式。

AI应用现状：落地进度较慢，同质化严重

当前较为成熟的AI商业化模式集中在文生图，基于扩散模型的应用进展迅速，而大语言模型的落地速度较慢。扩散模型因其低成本和高效生成图像的能力而受到青睐，Midjourney和Adobe等公司在这一领域取得了显著成果。相比之下，尽管Transformer模型备受关注，但其商业化进展缓慢，成功应用主要集中在GPT Store和微软Office Copilot等少数项目。

大模型应用落地面临两大主要挑战。首先，单一的文字模态限制了实际应用场景，多模态模型由于成本和延迟问题尚未广泛应用，难以满足复杂需求。根据《2024: Gartner's IT Automation Trends Revisited》报告，Gartner预计，截至2024年，图片内容处理将占实际使用场景的32%，而文字模态无法满足这一需求。其次，任务流程链较短导致模型同质化，缺乏对复杂任务的支持，影响应用效果和用户体验。这些问题表明，提升记忆能力和支持多模态输入是实现大模型广泛应用的关键。

AI Agent技术支撑：原生多模态、长文本记忆等

2024年初，多模态与长文本处理成为AI大厂更新的核心重点，Gemini 1.5 Pro、Claude 3、GPT-4o以及Kimi等模型在多模态能力与长文本处理上取得突破，意味着AI Agent技术出现标志性转折点。原生多模态技术有效解决了Agent模态转换中的延迟问题，OpenAI推出的GPT-4o通过端到端训练处理多模态输入，充分体现了原生多模态在AI Agents应用中的潜力。支持长任务链流程是避免模型同质化的核心要点，其中长上下文(long context)被认为是解决问题的根本途径。2024年初各大模型在文本输入能力上实现大幅提升，通过优化编码器-解码器架构和注意力机制，模型在长任务链记忆上的表现显著提升，从基础能力上对AI Agent的支持成为可能。

AI Agent当前约束：成本优化

成本是增加上下文长度带来的核心问题，AI Agent的落地需要进一步优化成本。上下文长度增加会显著提升attention的计算成本，如果将KV Cache持久化，则需要大量存储空间。如果Agent要与用户建立长期关系，例如每天一小时的语音聊天，大约会生成15K tokens，一个月就会达到450K tokens，超出大多数长上下文模型的限制。即使支持450K tokens的上下文，做简单估算GPT-4-Turbo的1K输出token成本为$0.03大多数场景下用户无法负担如此高的费用。仅在一些to B应用场景和高附加值的to C场景(如AI心理咨询、AI在线教育)中使用GPT-4-Turbo才能保持盈亏平衡。相比之下，从性价比更高的GPT-3.5开始构建Agent可能是更具经济效益的选择。

据中信证券测算，对于性能要求不高的简单陪聊类Agent，8B模型的1K输出token成本甚至可以降到$0.0001，是GPT-4-Turbo价格的1/300。因此，类似于MOE的模型路由可能是AI Agent的一个可行方向，可以将简单问题分配给简单模型，复杂问题分配给复杂模型，从而降低成本。

风险因素：

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险；私有数据相关的政策监管风险；全球宏观经济复苏不及预期风险；宏观经济波动导致欧美企业IT支出不及预期风险；AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险；行业竞争持续加剧风险等。

（责任编辑：董萍萍）

看全文

写评论已有条评论跟帖用户自律公约