OpenAI 发布GPT-4o,功能全面升级,有望推动行业发展5 月14 日OpenAI 线上举办“春季更新”发布会,推出新旗舰模型GPT-4o,宣布免费向用户提供更多ChatGPT 功能。GPT-4o 支持文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。我们认为GPT-4o 是迈向更自然人机交互的一步,将赋能各类应用功能提升,扩展AI应用场景,推动行业发展。标的上建议关注:1)出海有望应用到GPT-4o的传媒应用公司蓝色光标等;2)国内AI 应用领先的龙头公司昆仑万维、焦点科技等。产业链其他标的包括汤姆猫、紫天科技、神州泰岳等。
GPT-4o 应用侧最大亮点:强大的实时多模态交互体验我们认为GPT-4o(o 指omni,意为全能)最重要的亮点为可实现实时多模态交互体验。其训练是通过跨文本、视觉和音频端到端进行,所有输入和输出都由同一神经网络处理。此前语音模式由三个独立模型组成,实现转写(将音频转换为文本)、智能(接收文本并输出文本)、文生语音(将文本转换回音频)功能,而这一过程可能导致GPT-4 丢失大量信息,且反应相对较慢,无法识别音调、多个说话者或背景噪音,也无法输出表达情感的语音。而GPT-4o 通过跨模态训练和统一神经网络处理,实现低延迟、高拟真的惊艳效果。
免费开放和API 调用性价比提升,有望推动应用加速发展发布会上,OpenAI 还宣布:1)GPT-4o 向所有用户免费开放(有限额),包括此前仅对ChatGPT Plus 会员提供的高级功能;2)在 API 使用方面,GPT-4o 的价格是 GPT-4-turbo 的一半,速度是 GPT-4-turbo 的两倍;3)对桌面版ChatGPT 的UI 进行重新设计,并将推出专为苹果macOS 设计的ChatGPT 桌面应用,用户可以通过快捷键“拍摄”桌面并向ChatGPT 提问。
我们认为GPT-4o 对用户的免费开放,以及API 调用的性价比提升,降低了用户和开发者的使用门槛,有望提升应用开发品类丰富,提升应用体验,进一步推动应用百花齐放。
体验优秀,应用场景广泛
结合OpenAI 发布会的展示,我们认为GPT-4o 应用场景广泛,包括:1)语音交互,人机对话。GPT-4o 可实现低延迟(最快232 毫秒的时间内响应音频输入,平均响应时间为320 毫秒)、高拟真(感知情绪并逼真模仿人类语气)的惊艳效果。另外,GPT-4o 支持超过50 种语言,可实现实时同声传译,这将推动相关人机对话场景的个性化交互体验,提升用户粘性和应用成长空间,如agent、电商、游戏、情感陪伴等相关场景;2)多模态交互,如个性化教育(图像识别教学资料,并引导学习、答题)、图文和数据库分析(结合视频、图片和数据材料进行综合分析,判断趋势给出结论)等。
风险提示:竞争加剧、模型发展进度低于预期、政策监管风险等。本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论