软件与服务:OPENAI开放CHATGPT多模态能力 引领AI算力与应用新浪潮

2023-10-08 17:00:07 和讯  长江证券宗建树
事件描述
  9 月25 日,OpenAI 推出了ChatGPT 图像功能。图像能力基于GPT-4 Vision 模型,可以理解并解释图像内容,同时具备上下文回溯能力。同时,ChatGPT 推出语音交互能力。用户可以通过语音输入信息,ChatGPT 输出时也通过文本转化语音与用户进行实时交互,交互效率大幅提升。预计ChatGPT 的语音和图像能力将在未来两周内面向Plus 和企业用户推出。此外,OpenAI 公布了GPT-4 Vision 模型的系统卡论文,详细从多模态角度介绍了模型的安全评估细节。
  事件评论
  GPT-4 的多模态能力或有较高的成熟度。GPT-4 的多模态能力基于GPT-4V 模型,两者的训练均于2022 年完成,完成后GPT-4V 基于额外数据使用RLHF 完成了一系列微调,从有害信息、伦理问题、隐私问题、网络安全、防越狱能力五个角度完善模型,大幅度降低了模型安全风险。此外,OpenAI 与Be My Eye 公司合作进行应用的小规模试用,深度挖掘了多模态的应用场景。在长期打磨后OpenAI 才开放了GPT-4 的多模态能力。这代表应用落地的门槛目前不是技术限制,而是在于模型打磨和场景挖掘,长期打磨的GPT-4 多模态能力具备较高的鲁棒性,安全性已达到商用标准,产品或有较高的成熟度。由此推测GPT-4 多模态模型的应用落地或许可以更乐观。
  多模态模型的应用场景更为丰富。大语言模型仅能用于写作、沟通等基于文本的场景,而多模态模型可覆盖全部视觉场景,因此实用性有大幅度提升。类比计算机发展早期从文本操作系统向图形操作系统的跃升,图像模态与物理世界更加贴切,信息密度更高,应用门槛更低,更符合人机交流习惯。随着GPT-4 多模态能力放开,模型有望在医疗、教育、办公等场景快速渗透,其高实用性的特质或催生大批爆款应用。
  多模态模型或带动新一轮军备竞赛。从算力角度来看,多模态模型的训练数据主要由图像组成,而图像数据的规模相比文本数据量大幅度提高,因此对算力的需求也更高。当前算力仍是阻碍AI 模型训练端与推理端的主要瓶颈之一,多模态模型落地有望催生AI 公司开启新一轮算力端的军备竞赛。
  投资观点:应用角度建议关注多模态在教育、工业等核心场景的应用落地节奏;算力角度建议关注英伟达链配套厂商与华为昇腾链厂商。
  风险提示
  1、多模态模型技术推进不及预期;
  2、多模态模型商业化落地的过程存在风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

热门阅读

    和讯特稿

      推荐阅读