人工智能行业点评报告:OPENAI发布GPT-4O模型 多模态实时交互能力实现颠覆式提升

2024-05-14 15:35:08 和讯  浙商证券刘雯蜀/陶韫琦
  投资要点
  北京时间5 月14 日凌晨,OpenAI 在春季发布会上重磅推出首个原生多模态模型GPT-4o,模型可以实时对音频、视觉以及文本进行推理,同时在响应速度和生成质量方面取得显著进步,模型易用性的大幅提升也标志着AI 大模型应用向更自然的人机交互持续迈进。
  GPT-4o 为首个端到端原生多模态模型,可实现更加自然的跨模态人机交互GPT-4o 模型可在音频、视觉和文本中进行实时推理,可输入或输出文本、音频和图像的任何组合。模型可以最短在232ms 内响应音频输入(平均为320ms),响应速度与人类对话接近,相比GPT-3.5(平均延迟2.8s)和GPT-4(平均延迟5.4s)实现大幅迭代。在模型基准能力方面,GPT-4o 在文本、推理以及代码理解方面达到GPT-4 Turbo 级别的能力,而在多语种、音频以及视频理解能力方面相比于业界其它模型表现优异。
  GPT-4o 可实现流畅沟通并实现求解方程、分析图表、理解情绪等功能在OpenAI 春季发布会的现场演示环节,工作人员操作ChatGPT 并用语音模式Voice Mode 演示,GPT-4o 可以察觉到说话者的情绪并给出实时反馈,同时模型能够识别实时视频内容指导用户解方程,以及完成口译、代码分析、图表理解等任务。
  GPT-4o 模型降价提速,易用性大幅提升有望推动AI 在各应用场景的加速渗透相比于GPT-4 Turbo,此次发布的GPT-4o 实现了2 倍以上的推理速度,同时API价格降低50%,并且消息限制提升5 倍,同时GPT-4o 对于多种语言采用更高效的token 表达(以中文为例,表达同一语句需要的token 数减少到原来的约70%),结合模型在多模态实时交互方面的颠覆式提升,我们认为模型易用性的大幅提升有望推动AI 在各类应用场景中的加速渗透。
  性能+易用性双重迭代,AI 大模型有望加速渗透各场景成为用户智能助理我们认为以GPT-4o 为代表,国内外大模型有望在未来一段时间实现模型性能以及用户交互体验方面的双重迭代,随着模型输出质量、响应时间等维度的不断优化,AI 应用有望真正实现用户体验和效率提升的赋能,AI 有望在各细分行业中持续加速商业化落地,并成为用户的智能助理。
  建议关注标的
  科大讯飞、金山办公、万兴科技、星环科技、中科创达、拓尔思、焦点科技、润达医疗、虹软科技;
  风险提示
  1、AI 技术迭代不及预期的风险;2、AI 商业化产品发布不及预期;3、政策不确定性带来的风险;4、下游市场不确定性带来的风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读