电子行业动态点评:GPT-4O:时延大幅缩短 有望加速AI硬件落地

2024-05-15 08:05:04 和讯  华泰证券黄乐平/张皓怡/黄礼悦
  GPT-4o:时延大幅缩短,有望加速AI 硬件落地北京时间5 月14 日凌晨,OpenAI 发布其首个端到端多模态模型GPT-4o。
  我们认为本次发布的主要亮点是大幅缩短的大模型响应时延。根据公司披露,GPT-4o 语音模式平均时延320 毫秒,与人类在对话中的响应时间相似,而GPT-3.5 及GPT-4 的时延分别为2.8 秒和5.4 秒,这为大模型在手机,耳机等移动设备上的应用落地铺平了道路。该模型实际的部署形式(纯云端vs 云端-手机端混合)有待公司进一步披露。根据彭博报道,苹果和 OpenAI接近达成iOS 聊天机器人协议。关注大模型在终端产品落地对手机/PC 销量(联想等),端侧算力需求(晶晨股份)的带动。
  技术亮点:端到端多模态模型,时延大幅降低
  GPT-4o 支持文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。GPT-4o 时延大幅降低,语音模式下最短232 毫秒,平均时延320 毫秒,与人类在对话中的响应时间相似,而GPT-3.5 及GPT-4的时延分别为2.8 秒和5.4 秒。我们认为GPT-4o 时延降低得益于:1)全栈优化,OpenAI 表示过去2 年中花费大量精力提升每一层堆栈的效率;2)端到端模型,多模态的输入和输出都由同一神经网络处理。而在GPT-4 中,语音模式由三个独立模型组成,分别负责将音频转录为文本、接收文本并输出文本、将该文本转换回音频,导致GPT-4 丢失了大量信息——无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
  模型效果:多语言、音频和视觉功能上优于GPT-4 turboGPT-4o 在文本、推理和编码智能方面实现了GPT-4 Turbo 级别的性能,在多语言、音频和视觉功能上性能更优:1)自动语音识别(ASR)性能:GPT-4o相比Whisper-v3 显著提升,尤其对于小语种的语音识别方面提升明显;2)语音翻译性能:GPT-4o 大幅优于Whisper-v3,略优于谷歌Gemini;3)M3Exam 基准测试(既是多语言评估也是视觉评估):在所有语言的基准测试中,GPT-4o 都强于GPT-4;4)视觉理解评估:GPT-4o 在全部7 个视觉感知基准上实现SOTA(state-of-the-art),优于GPT-4 turbo 等。
  应用:低时延+多模态创造沉浸式体验
  GPT-4o 在人机交互上有以下特点:1)通过用户语音和表情识别用户情感;2)可以随时打断模型的语音输出,模型调整后重新输出,而没有交流过程中的停顿;3)以不同的情感风格生成语音。我们认为以上特点得益于GPT-4o的端到端多模态架构。此外,GPT-4o 还能够生成3D 模型、在多轮对话中具备高度一致性的虚拟角色形象,在设计、漫画创作等领域具备落地可能性。
  行业观点:看好AI 大模型落地手机、智能穿戴、智能家居、PC 等硬件我们认为GPT-4o 大幅提升人机交互体验,具备在手机、智能穿戴设备、智能家居产品、PC 等硬件产品上落地的广阔空间。近期,我们注意到AI 大模型硬件落地节奏加快:1)根据彭博报道,苹果和 OpenAI 接近达成iOS 聊天机器人协议。建议投资人关注6 月11 日举行的苹果WWDC 2024;2)根据The Information 报道,Meta 正在探索开发带有摄像头的AI 耳机,希望用于识别物体和翻译外语。2024 年4 月Meta 发布Llama 3 时,宣布雷朋智能眼镜将搭载Llama 3,将具备文本翻译、视频直播、物体识别等功能。
  风险提示:AI 及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读