计算机行业点评：GPT-4O 大模型风向标 OPENAI重大更新

2024-05-15 07:40:04 和讯德邦证券陈涵泊/王思

事件：美国时间5 月13 日，OpenAI 迎来重大更新。1）发布桌面版APP 及更新UI 后的ChatGPT，用户使用更加简单与自然；2）发布新的全能模型 GPT-4o，实现跨模态即时响应，相比GPT-4 Turbo，性价比显著提升的同时向用户免费开放。
桌面版及新UI 界面的ChatGPT，实现极致的用户交互体验。OpenAI 推出了适用于macOS 的新ChatGPT 桌面应用程序，该应用程序旨在无缝集成到用户的计算机上执行的任何操作。通过简单的键盘快捷键（Option + Space），用户便可向ChatGPT 提问，并支持直接在应用程序中截取屏幕截图进行讨论。与此同时，ChatGPT 支持与计算机直接语音对话，并在未来将推出新音频和视频功能。发布后，OpenAI 首先向Plus 用户推出macOS 应用程序，并将在未来几周内更广泛地提供该应用程序，同时计划在今年晚些时候推出Windows 版本。此外，OpenAI还全面改版了UI 界面，旨在提供更加友好和更具有对话性的用户交互体验。
GPT-4o 实现毫秒级先进视觉音频理解，价格方面更具优势。GPT-4o 为OpenAI最新的旗舰型号，不仅提供与GPT-4 同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。此次发布会，GPT-4o 具有如下亮点：1）毫秒级响应，实现即时语音对话。GPT-4o 对音频输入的响应时间最短为232 毫秒，平均为320 毫秒，这与人类在对话中的响应时间相似；2）更先进的视觉与音频理解能力，智能感知语气与语态。GPT-4o 在对话中可随时打断，并可根据场景生成多种语调，同时支持视频对话；3）API 性价比显著提升。与GPT-4 Turbo 相比，GPT-4o 速度提升2 倍、成本却降低了50%，且速率限制提升5 倍。
4）免费提供给所有用户使用，付费用户则可以享受五倍的调用额度，团队和企业用户调用额度更高。
GPT-4o 为端到端多模态模型，刷新SOTA 实现性能飞跃。传统语音AI 通常经过三步法（语音识别或ASR、 LLM 计划下一步语言、语音合成或TTS）实现对话功能，在这过程中会丢失很多信息且不能判断情绪变化。GPT-4o 为跨模态端到端训练新模型，意味着所有输入和输出都由同一神经网络处理，成为真正的多模态统一模型，带来性能的飞跃提升。具体来看：1）在传统基准测试中，GPT-4o 在文本、推理和编码智能方面实现了GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上达到了新的高水位线；2）在端到端多模态架构支持下，GPT-4o 多模态能力范围显著拓展，除了文本、图像等常用功能，GPT-4o 还支持3D 物品合成、文本转字体等多样化功能。
投资建议。我们认为，GPT-4o 是多模态大模型走向成熟的重要标志，藉此未来有望推动产生更多现象级AI 应用，并进一步提升推理算力需求。建议关注 AI 多模态：万兴科技、虹软科技、当虹科技、中科创达、大华股份、海康威视、漫步者、萤石网络、汉仪股份、美图公司、云从科技等；AI 算力：云赛智联、思特奇、恒为科技、海光信息、寒武纪、景嘉微、工业富联、拓维信息、浪潮信息、四川长虹、神州数码等；AI+办公：金山办公、万兴科技、福昕软件、彩讯股份、金蝶国际、泛微网络、致远互联、鼎捷软件、汉得信息，用友网络等；AI+教育/电商/医疗：科大讯飞、佳发教育、鸥玛软件、盛通股份、值得买、焦点科技、小商品城、润达医疗、嘉和美康、创业慧康等。
风险提示： AI 技术迭代不及预期、产品落地不及预期、AI 伦理风险等。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约