中信证券:2024或为AI Agent智能体落地之年

2024-05-31 14:37:25 智通财经 
新闻摘要
智通财经APP获悉,中信证券发布研报称,自2024年以来,Google、OpenAI等头部厂商模型技术路线更侧重于应用落地,原生多模态、长文本处理成为其算法模型更新的重点,AIAgent作为当前语言模型应用落地的最佳形式,料将迎来技术转折。展望后续AIAgents应用的发展路径,成本优化将是焦点,目前的技术方案提供了多种针对成本问题的优化方案,但仍需要时间来进行实践,判断距离AIAgents应用落地还有约6-12个月时间。风险因素 AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等

智通财经APP获悉,中信证券发布研报称,自2024年以来,Google、OpenAI等头部厂商模型技术路线更侧重于应用落地,原生多模态、长文本处理成为其算法模型更新的重点,AI Agent(智能体)作为当前语言模型应用落地的最佳形式,料将迎来技术转折。展望后续AI Agents应用的发展路径,成本优化将是焦点,目前的技术方案提供了多种针对成本问题的优化方案,但仍需要时间来进行实践,判断距离AI Agents应用落地还有约6-12个月时间。

投资维度,建议关注:AI Agents的核心记忆部分(数据仓库、向量数据库等)、AI算力(芯片、存储、网络)、上层应用环节(互联网、软件)等相关环节领先厂商。

中信证券主要观点如下:

报告缘起:

在2023年的AI热潮过去后,市场投入了大量人力与资本押注基于语言模态的Transformer大模型,如GPT、Gemini、Claude等,其在语言问答的相关能力上已经较为成熟,但迟迟没有看到进一步的爆款应用落地。当前AI应用仍主要围绕以扩散模型(Diffusion Model)为底层的图片创作和图片修改模型,以Transformer为底层的大语言模型整体应用落地进度较为缓慢。预计2024年以来的技术路线变化将显著改变这一情况。考虑到当前头部模型厂商对多模态以及长文本能力的重视,AI Agent(智能体)将会是当前语言模型应用落地的最佳形式。

AI应用现状:落地进度较慢,同质化严重

当前较为成熟的AI商业化模式集中在文生图,基于扩散模型的应用进展迅速,而大语言模型的落地速度较慢。扩散模型因其低成本和高效生成图像的能力而受到青睐,Midjourney和Adobe等公司在这一领域取得了显著成果。相比之下,尽管Transformer模型备受关注,但其商业化进展缓慢,成功应用主要集中在GPT Store和微软Office Copilot等少数项目。

大模型应用落地面临两大主要挑战。首先,单一的文字模态限制了实际应用场景,多模态模型由于成本和延迟问题尚未广泛应用,难以满足复杂需求。根据《2024: Gartner's IT Automation Trends Revisited》报告,Gartner预计,截至2024年,图片内容处理将占实际使用场景的32%,而文字模态无法满足这一需求。其次,任务流程链较短导致模型同质化,缺乏对复杂任务的支持,影响应用效果和用户体验。这些问题表明,提升记忆能力和支持多模态输入是实现大模型广泛应用的关键。

AI Agent技术支撑:原生多模态、长文本记忆等

2024年初,多模态与长文本处理成为AI大厂更新的核心重点,Gemini 1.5 Pro、Claude 3、GPT-4o以及Kimi等模型在多模态能力与长文本处理上取得突破,意味着AI Agent技术出现标志性转折点。原生多模态技术有效解决了Agent模态转换中的延迟问题,OpenAI推出的GPT-4o通过端到端训练处理多模态输入,充分体现了原生多模态在AI Agents应用中的潜力。支持长任务链流程是避免模型同质化的核心要点,其中长上下文(long context)被认为是解决问题的根本途径。2024年初各大模型在文本输入能力上实现大幅提升,通过优化编码器-解码器架构和注意力机制,模型在长任务链记忆上的表现显著提升,从基础能力上对AI Agent的支持成为可能。

AI Agent当前约束:成本优化

成本是增加上下文长度带来的核心问题,AI Agent的落地需要进一步优化成本。上下文长度增加会显著提升attention的计算成本,如果将KV Cache持久化,则需要大量存储空间。如果Agent要与用户建立长期关系,例如每天一小时的语音聊天,大约会生成15K tokens,一个月就会达到450K tokens,超出大多数长上下文模型的限制。即使支持450K tokens的上下文,做简单估算GPT-4-Turbo的1K输出token成本为$0.03大多数场景下用户无法负担如此高的费用。仅在一些to B应用场景和高附加值的to C场景(如AI心理咨询、AI在线教育)中使用GPT-4-Turbo才能保持盈亏平衡。相比之下,从性价比更高的GPT-3.5开始构建Agent可能是更具经济效益的选择。

据中信证券测算,对于性能要求不高的简单陪聊类Agent,8B模型的1K输出token成本甚至可以降到$0.0001,是GPT-4-Turbo价格的1/300。因此,类似于MOE的模型路由可能是AI Agent的一个可行方向,可以将简单问题分配给简单模型,复杂问题分配给复杂模型,从而降低成本。

风险因素:

AI核心技术发展不及预期风险;科技领域政策监管持续收紧风险;私有数据相关的政策监管风险;全球宏观经济复苏不及预期风险;宏观经济波动导致欧美企业IT支出不及预期风险;AI潜在伦理、道德、用户隐私风险;企业数据泄露、信息安全风险;行业竞争持续加剧风险等。

(责任编辑:董萍萍 )
看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读