AI应用行业点评：OPENAI发布O3模型大模型推理能力再跃进

2024-12-22 19:40:04 和讯申万宏源研究洪依真/刘洋/陈晴华

　　事件：北京时间2024 年12 月21 日，OpenAI 在连续12 发布会收官之日宣布了o3 系列模型，包括o3 和o3 mini，较o1 模型再一次突破AI 极限。目前仅为成果宣布，正在推进外部安全测试，参与测试者可以申请o3-mini 预计有望在25 年1 月底左右推出o3-mini，后续再推出完整版。
　　数学和代码能力跃迁。1）代码能力较o1 提升20%多，接近甚至超越人类专业程序员。2）数学推理能力显著提升，达博士级别。3）首个突破ARC-AGI 的模型，展现理解人类复杂逻辑和抽象能力。
　　宣布o3-mini，高性价比模型。o3-mini 相较o3 更具经济效益，专注在兼顾模型性能的同时提升推理速度、降低推理成本。特点包括：1）灵活的推理时间模式，支持低、中、高3 种推理强度级别对应不同复杂程度任务。2）编程和数学领域表现优异且更高效，在codeforces 测试中，o3-mini 的Elo 评分随推理时间增加而增高，中等强度级别的o3-mini 模型得分能够超过o1 满血版。3）对开发者的API 工具上性能基本和o1满血版持平。o3-mini 提供给开发者API 功能，包括函数调用、结构化输出等，性能对标甚至超过o1 满血版。
　　挑战与启示：高阶推理可以做到，但仍需降成本。从业内推测来看，o3 模型核心创新在于实现token 空间内自研语言程序搜索和执行，优势在于更能够适应新任务。而缺点在于成本昂贵，o3 执行过程中需要探索大量路径并进行回溯，导致需处理千万个token 消耗大量计算资源，例如在ARC-AGI 任务的低计算量模式下每个任务需要花费17-20 美元。
　　近阶段大模型启示：1）大模型进展从预训练端转变为推理端；2）大模型进入Agent爆发时代；3）利好推理端算力需求；4）应用方面围绕解决复杂任务能力的出现，利好科学研究、编程软件开发、办公软件、医疗健康、金融等领域。
　　相关标的：Agent：泛微网络、鼎捷数智、中软国际；多模态：万兴科技、虹软科技；AI 教育：科大讯飞；AI 办公：金山办公、福昕软件；AI 金融：新致软件；AI 医疗：润达医疗。
　　风险提示：大模型技术中美仍存在差异；LLM 商业变现能力仍需要验证；scaling law在训练领域的效果和GPT-5 实际迭代情况仍需要关注。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王治强 HF013）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约