事件:美国东部时间5 月13 日,OpenAI 举办了2024 年春季产品发布会,发布新的支持语音对话的多模态模型GPT-4o。GPT-4o 将会逐步在ChatCompletions API、Assistants API、Batch API 和ChatGPT 服务中可用。
GPT-4o 性能提升,API 调用成本显著下降。1)多语种、多模态性能提升:
GPT-4o 在文本理解和代码生成能力上与GPT-4 Turbo 相当,但在多语种支持、音频和视频理解能力上有了明显的增强。2)API 调用价格下降一半:相比GPT-4 Turbo,GPT-4o 每百万tokens 输入价格从10 美元下调至5 美元,输出价格从30 美元下调至15 美元。3)多语种tokens 消耗降低:GPT-4o在20 种语言中使用了更高效的token 生成器,中文tokens 消耗降低30%。
4)推理速度大幅提升:GPT-4o 推理速度是GPT-4 Turbo 的两倍,同时API速率限制提高至每分钟一千万tokens,为GPT-4 Turbo 的五倍。
当前GPT-4o API 调用存在一定的限制。1)无法基于GPT-4o 训练定制化模型。2)上下文长度与GPT-4 Turbo 一致,为128,000 个tokens。3)训练数据截至23M10,相比GPT-4 Turbo 的23M12 数据时效性略有不足。4)仅支持无语音的每秒2-4 帧视频输入,暂不支持语音输入,不支持图像生成功能。
GPT-4o 多模态模型显著降低延迟。根据OpenAI 官方博客,GPT-4o 可以在最快232 毫秒、平均320 毫秒内响应音频输入,与人类对话的反应速度基本一致,相比GPT-4 Turbo 的平均5.4 秒响应时间提升明显。传统语音模型需要整合语音转录、文本处理、文本转语音三个模型,存在高延迟和信息丢失的问题。GPT-4o 将文本、音频和视频整合成统一的多模态模型,以GPT-4 级别的高性能进行实时对话。同时,GPT-4o 的语音理解能力大幅提高,可以直接观察音调、多个扬声器或背景噪音,也可以输出笑声、歌声或表达情感。
GPT-4o 展现出的低成本、低延迟特性将对整个行业产生连锁效应。1)推理端降本有望大幅提振应用端需求。当前GPT-4o 已面向付费版用户和企业版用户开放,未来将免费向所有用户开放,验证推理端成本持续下降。AI 应用的性价比提升将开辟更多商业化路径,推理成本降低有望带动应用端的飞轮效应。2)AI 商业化竞争由模型端扩散至基础设施架构。GPT-4o 低延迟背后受到模型性能、基础设施架构、网络延迟、数据处理方式等多种因素的影响。
投资建议:高性能模型免费开放,推理端降本速度超预期,使更多AI 应用在商业上可行,建议关注:1)微软:GPT-4o 的低延迟将直接提升Copilot 等AI 生产力工具的使用体验,有望加速AI 应用的货币化。2)苹果:智能手机是GPT-4o 语音助手的最佳载体。苹果与OpenAI 达成合作,或将在IOS18中引入ChatGPT,未来结合M4 AI 芯片有望推出性能强大的本地语音助手。
具备多模态能力和情感处理能力的AI 语音助手有望融入AR/VR、教育、情感陪伴等场景,建议关注:1)AI+VR/AR:可穿戴设备引入多模态模型与环境发生交互,促进AR 应用的创新,关注苹果、Meta。2)AI+教育:AI 的交互式特点在口语训练、模拟辩论等垂类场景具备独特优势,关注多邻国。
风险提示:AI 技术研发和产品迭代不及预期;AI 行业竞争加剧风险;商业化进展不及预期风险;国内外政策风险。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
最新评论