计算机行业：OPENAI上新GPT-4O 人机交互革新带来可用性提升

2024-05-14 18:15:06 和讯东方证券浦俊懿/陈超

　　5 月13 日，OpenAI 发布了最新旗舰模型GPT-4o。GPT-4o 增强了语音交互功能，最快232 毫秒响应音频输入，平均响应时间为320 毫秒，与人类相似，视频理解能力也大大增强。GPT-4o 的速度相比于GPT-4 Turbo 快两倍、成本降低50%，速率限制高5 倍。GPT-4o 已面向包括免费用户在内的所有用户开放使用，为每个用户都提供了GPT-4 级别的智能，并将推出桌面版ChatGPT，可以被轻松集成到用户的工作流程中。GPT-4o 可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。
　　GPT-4o 通过端到端模型实现语音交互效率与效果大幅提升。过去的GPT 模型通过3 个独立模型依次执行来实现语音交互，即语音转文字、文字生成和文字转语音，因此平均延迟较长，也会因此丢失语音中的大量信息，比如音调、背景音、歌声以及情感等。而此次GPT-4o 通过端到端模型进行训练，输入输出均由同一神经网络处理，因此速度快，且能够理解语音中所包含的背景和情绪等信息，有助于更有效地实现人机互动。
　　跨模态交互能力增强，大模型实用度与使用频率有望大幅提升。此前GPT 在文本交互方面的能力较强，但交互效率较低、交互模式受限。语音一直都是人类交互的重要手段，在很多场景下语音交互也比文字输入更加自然，而视频中也包含着更多文字难以准确描述的信息。我们认为，人机交互一直都是推动计算产业发展的重要推动力，回顾历史，从命令行输入到图形界面输入，推动了个人PC 的普及，而从按键交互到触摸屏交互，也是智能手机的重磅革新。此次GPT-4o 增加语音功能、提升视频理解能力并实现跨模态推理、推理延迟大幅度降低，让大模型的实用度与使用频率得到大大提升与拓展。
　　跨模态能力增加，有助于大模型在C 端和B 端应用加速落地。我们认为，跨模态能力的突破，对大模型的应用落地所产生的推动效果，将远大于单模态模型性能的提升。我们可以预期，各类硬件，如手机、PC、耳机、音箱等硬件将快速拥抱跨模态模型，提供更智能化的交互与服务，个人智能助理将逐步落地。而新型便携式智能硬件、人形机器人等设备，其实用性也将得到大大提升。而在企业端，大模型在销售、客服以及日常办公中的应用也有望得到进一步提升。
　　低延迟响应速度进一步加大对推理算力的需求。GPT-4o 在OpenAI 的优化下达到了惊人的低时延，拉高了用户对于推理延迟的标准门槛。目前国产模型方面还没有模型的交互能达到如此低的标准，我们认为，随着用户对于延迟的要求不断提升，对于推理侧算力的需求将进一步提升。
　　我们认为，OpenAI 推出GPT-4o 有望加速AI 相关应用落地，同时对于算力的需求也会随之大幅提升。
　　AI 应用：建议关注中科创达(300496，买入)、虹软科技(688088，未评级)、金山办公(688111，增持)、泛微网络(603039，买入)、新致软件(688590，未评级)、彩讯股份(300634，买入)、科大讯飞(002230，买入)、万兴科技(300624，未评级)等公司
　　AI 算力：建议关注云赛智联(600602，未评级)、中科曙光(603019，买入)、海光信息(688041，买入)、寒武纪-U(688256，未评级)、润泽科技(300442，未评级)、华铁应急(603300，买入)等公司
　　其他工具：星环科技-U(688031，未评级)
　　风险提示
　　技术落地不及预期；政策监管风险
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约