人工智能系列报告(六):交互型多模态大模型有望带来应用的爆发起点

2024-09-04 08:35:04 和讯  西部证券郑宏达
交互型多模态大模型是指跨越单一模态的限制,支持文本、音频、图像、视频等模态任意组合的输入输出,能做出实时的、“类人”的理解和反馈,可以跟人无缝交流的大模型,目前最具代表性的是OpenAI 的GPT-4o。特点如下:
1)原生多模态:跨文本、视频和音频等模态端到端训练的大模型,所有输入和输出都由同一神经网络处理。2)快速响应:能做到极低延迟,响应速度比肩人类,且可以做到对话随时打断。现在GPT-4o 能在短至232 毫秒、平均320 毫秒的时间内响应音频输入,而过去GPT-3.5 平均延时为2.8 秒、GPT-4 为5.4 秒。
3)情感表达:回复有“人味”,情绪饱满,会带来极强的交互沉浸感。4)记忆:能回忆并联系此前“看”到的信息做出回答,而不是仅仅依靠当前输入。
交互型多模态大模型成本将降至几何?大模型降本趋势显著。8 月,OpenAI 发布更强且更具性价比的GPT-4o 新版本,相比5 月版本价格下降超40%至$4/100万 tokens。按照这个趋势,我们预计以GPT-4o 为代表的交互型多模态大模型的成本将继续快速下降,每百万tokens 的推理成本或将在两年内降至美分量级。
交互型多模态大模型进展如何? OpenAI 与谷歌双巨头抢滩,分别发布GPT-4o和AI 智能体项目Project Astra,Meta 也于2024 年5 月发布具有原生多模态特性的Chameleon-34B。国内的大模型多处于语音交互阶段,商汤领衔发布流式多模态交互大模型“日日新5o”,智谱面向C 端开放“视频通话”功能。
为什么交互型多模态大模型有望带来应用的爆发?1)人类生活在一个由多种模态信息构成的世界,会同时收到多个互补的、融合的、不同模态的感官输入,多模态更符合人类感知周边、探索世界的方式。2)应用是连接人类意图与信息及技术实现的媒介,其本质是交互。我们认为从PC 互联网时代,到移动互联网时代,再到现在的AI 时代,应用发展的核心就是人机交互的不断进化与深化。所以在大模型迭代过程中,性能提高固然重要,但交互的升级也同样具有重大价值,交互型多模态大模型的出现有望推动人机交互变革——向更为简单的自然语言交互形式发展。
交互型多模态大模型会带来怎样的应用?我们将交互型多模态大模型的应用分为:1)数字智能,大模型提供软件形式的服务,主要应用场景包括教育、编程、医疗健康、游戏、情感陪伴等。2)具身智能,需要硬件支持来实现三维空间内的运动行为,如人形机器人、智能家居、智能座舱等。
交互型多模态大模型商业模式展望:1)聊天助手APP。2)作为基础模型接入各类应用。3)与终端OS 深度融合成为AI 时代的“超级入口”。
相关标的梳理:1)交互型多模态大模型:商汤-W、云从科技-UW;2)数字智能应用:金山办公、科大讯飞、虹软科技、美图公司;3)具身智能应用:海康威视、大华股份;4)算力:寒武纪、软通动力、海光信息、浪潮信息、中科曙光、神州数码。
风险提示:AI 技术突破不及预期、终端智能需求不及预期、宏观经济增长不及预期、国际环境变化。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读