GPT-4O后续影响：推理端降本+多模态+低延迟带来AI应用转折点

2024-05-14 15:45:10 和讯光大证券付天姿

　　事件：美国东部时间5 月13 日，OpenAI 举办了2024 年春季产品发布会，发布新的支持语音对话的多模态模型GPT-4o。GPT-4o 将会逐步在ChatCompletions API、Assistants API、Batch API 和ChatGPT 服务中可用。
　　GPT-4o 性能提升，API 调用成本显著下降。1）多语种、多模态性能提升：
　　GPT-4o 在文本理解和代码生成能力上与GPT-4 Turbo 相当，但在多语种支持、音频和视频理解能力上有了明显的增强。2）API 调用价格下降一半：相比GPT-4 Turbo，GPT-4o 每百万tokens 输入价格从10 美元下调至5 美元，输出价格从30 美元下调至15 美元。3）多语种tokens 消耗降低：GPT-4o在20 种语言中使用了更高效的token 生成器，中文tokens 消耗降低30%。
　　4）推理速度大幅提升：GPT-4o 推理速度是GPT-4 Turbo 的两倍，同时API速率限制提高至每分钟一千万tokens，为GPT-4 Turbo 的五倍。
　　当前GPT-4o API 调用存在一定的限制。1）无法基于GPT-4o 训练定制化模型。2）上下文长度与GPT-4 Turbo 一致，为128,000 个tokens。3）训练数据截至23M10，相比GPT-4 Turbo 的23M12 数据时效性略有不足。4）仅支持无语音的每秒2-4 帧视频输入，暂不支持语音输入，不支持图像生成功能。
　　GPT-4o 多模态模型显著降低延迟。根据OpenAI 官方博客，GPT-4o 可以在最快232 毫秒、平均320 毫秒内响应音频输入，与人类对话的反应速度基本一致，相比GPT-4 Turbo 的平均5.4 秒响应时间提升明显。传统语音模型需要整合语音转录、文本处理、文本转语音三个模型，存在高延迟和信息丢失的问题。GPT-4o 将文本、音频和视频整合成统一的多模态模型，以GPT-4 级别的高性能进行实时对话。同时，GPT-4o 的语音理解能力大幅提高，可以直接观察音调、多个扬声器或背景噪音，也可以输出笑声、歌声或表达情感。
　　GPT-4o 展现出的低成本、低延迟特性将对整个行业产生连锁效应。1）推理端降本有望大幅提振应用端需求。当前GPT-4o 已面向付费版用户和企业版用户开放，未来将免费向所有用户开放，验证推理端成本持续下降。AI 应用的性价比提升将开辟更多商业化路径，推理成本降低有望带动应用端的飞轮效应。2）AI 商业化竞争由模型端扩散至基础设施架构。GPT-4o 低延迟背后受到模型性能、基础设施架构、网络延迟、数据处理方式等多种因素的影响。
　　投资建议：高性能模型免费开放，推理端降本速度超预期，使更多AI 应用在商业上可行，建议关注：1）微软：GPT-4o 的低延迟将直接提升Copilot 等AI 生产力工具的使用体验，有望加速AI 应用的货币化。2）苹果：智能手机是GPT-4o 语音助手的最佳载体。苹果与OpenAI 达成合作，或将在IOS18中引入ChatGPT，未来结合M4 AI 芯片有望推出性能强大的本地语音助手。
　　具备多模态能力和情感处理能力的AI 语音助手有望融入AR/VR、教育、情感陪伴等场景，建议关注：1）AI+VR/AR：可穿戴设备引入多模态模型与环境发生交互，促进AR 应用的创新，关注苹果、Meta。2）AI+教育：AI 的交互式特点在口语训练、模拟辩论等垂类场景具备独特优势，关注多邻国。
　　风险提示：AI 技术研发和产品迭代不及预期；AI 行业竞争加剧风险；商业化进展不及预期风险；国内外政策风险。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

看全文

写评论已有条评论跟帖用户自律公约