计算机行业点评:具有视觉能力的多模态大模型将对视觉SOC和存储带来新需求

2024-12-15 10:10:08 和讯  西部证券郑宏达
  ChatGPT 升级视觉能力,迎来里程碑式的更新。OpenAI 发布季的第六天,5 月份预告的语音和视觉功能(Advanced Voice with Vision)终于发布。用户可以在对话过程中展示实时视频或共享屏幕。在OpenAI 的场景演示中,ChatGPT 能够“看”到并理解周围环境,与在场人员互动,甚至能精准地记忆名字和细节。同时,ChatGPT 现在亦能够查看用户的电脑屏幕,并提供即时建议和反馈。视觉能力的升级,让ChatGPT 突破了文本和语音的限制,迈入真正的多模态交互时代。这种能力在教育、工作和社交等领域都将具有广泛的应用潜力。
  交互型多模态大模型有望带来AI 应用的爆发。多模态更符合人类感知周边、探索世界的方式;而应用的本质是交互,应用发展的核心就是人机交互的不断进化与深化。大模型的终极形态,是让人机交互进化到最原始、最简单的形态,在未来和电脑、手机等直接说话交流或许就是最主要的交互方式。交互模式的简化,会极大降低AI 的使用门槛,交互型多模态大模型带来的这种更加直观、傻瓜的交互,有望带来大模型应用更大面积的普及。
  我们判断,国内模型厂商将在交互式多模态大模型领域着重发力。以字节为例,字节在生成式AI 领域采取“饱和式”攻击策略,目前已成为国内拥有最全生成式AI 模型、最多AI 应用的技术公司之一。模型端,字节豆包大模型家族已包括了通用大语言、语音合成和识别、图片及视频等不同模态的生成式AI 模型,但仍缺少具有视觉能力的可交互多模态大模型。同时,以智能体耳机、智能玩偶、台灯为切入点,通过与生态伙伴的合作,字节在AI硬件端业已开始了布局。但同样受限于交互多模态模型的缺失,AI 硬件产品仍只能实现语音层级的交互。
  为什么我们持续看好视觉SoC 领域?我们一直认为视觉能力是大模型能力的核心,因为视觉输入占据人类交互信息的绝大多数。我们可以预期,未来字节亦有望推出带有视觉能力的交互式多模态大模型,因而在包括AI 玩具或AI 眼镜等的下一代AI 硬件终端中,视觉SoC 将有望成为标配。另外地,这也将新增对Nand 存储芯片的需求。
  推荐:1)视觉SoC:恒玄科技。相关公司:1)视觉SoC:星宸科技、安凯微。2)存储:东芯股份、普冉股份。
  风险提示:下游需求不及预期;新技术落地和商业化不及预期;宏观经济景气度不及预期。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王治强 HF013)

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读