计算机行业点评：具有视觉能力的多模态大模型将对视觉SOC和存储带来新需求

2024-12-15 10:10:08 和讯西部证券郑宏达

　　ChatGPT 升级视觉能力，迎来里程碑式的更新。OpenAI 发布季的第六天，5 月份预告的语音和视觉功能（Advanced Voice with Vision）终于发布。用户可以在对话过程中展示实时视频或共享屏幕。在OpenAI 的场景演示中，ChatGPT 能够“看”到并理解周围环境，与在场人员互动，甚至能精准地记忆名字和细节。同时，ChatGPT 现在亦能够查看用户的电脑屏幕，并提供即时建议和反馈。视觉能力的升级，让ChatGPT 突破了文本和语音的限制，迈入真正的多模态交互时代。这种能力在教育、工作和社交等领域都将具有广泛的应用潜力。
　　交互型多模态大模型有望带来AI 应用的爆发。多模态更符合人类感知周边、探索世界的方式；而应用的本质是交互，应用发展的核心就是人机交互的不断进化与深化。大模型的终极形态，是让人机交互进化到最原始、最简单的形态，在未来和电脑、手机等直接说话交流或许就是最主要的交互方式。交互模式的简化，会极大降低AI 的使用门槛，交互型多模态大模型带来的这种更加直观、傻瓜的交互，有望带来大模型应用更大面积的普及。
　　我们判断，国内模型厂商将在交互式多模态大模型领域着重发力。以字节为例，字节在生成式AI 领域采取“饱和式”攻击策略，目前已成为国内拥有最全生成式AI 模型、最多AI 应用的技术公司之一。模型端，字节豆包大模型家族已包括了通用大语言、语音合成和识别、图片及视频等不同模态的生成式AI 模型，但仍缺少具有视觉能力的可交互多模态大模型。同时，以智能体耳机、智能玩偶、台灯为切入点，通过与生态伙伴的合作，字节在AI硬件端业已开始了布局。但同样受限于交互多模态模型的缺失，AI 硬件产品仍只能实现语音层级的交互。
　　为什么我们持续看好视觉SoC 领域?我们一直认为视觉能力是大模型能力的核心，因为视觉输入占据人类交互信息的绝大多数。我们可以预期，未来字节亦有望推出带有视觉能力的交互式多模态大模型，因而在包括AI 玩具或AI 眼镜等的下一代AI 硬件终端中，视觉SoC 将有望成为标配。另外地，这也将新增对Nand 存储芯片的需求。
　　推荐：1）视觉SoC：恒玄科技。相关公司：1）视觉SoC：星宸科技、安凯微。2）存储：东芯股份、普冉股份。
　　风险提示：下游需求不及预期；新技术落地和商业化不及预期；宏观经济景气度不及预期。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王治强 HF013）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约