AI应用行业点评:OPENAI发布O3模型 大模型推理能力再跃进

2024-12-22 19:40:04 和讯  申万宏源研究洪依真/刘洋/陈晴华
  事件:北京时间2024 年12 月21 日,OpenAI 在连续12 发布会收官之日宣布了o3 系列模型, 包括o3 和o3 mini,较o1 模型再一次突破AI 极限。目前仅为成果宣布,正在推进外部安全测试,参与测试者可以申请o3-mini 预计有望在25 年1 月底左右推出o3-mini,后续再推出完整版。
  数学和代码能力跃迁。1)代码能力较o1 提升20%多,接近甚至超越人类专业程序员。2)数学推理能力显著提升,达博士级别。3)首个突破ARC-AGI 的模型,展现理解人类复杂逻辑和抽象能力。
  宣布o3-mini,高性价比模型。o3-mini 相较o3 更具经济效益,专注在兼顾模型性能的同时提升推理速度、降低推理成本。特点包括:1)灵活的推理时间模式,支持低、中、高3 种推理强度级别对应不同复杂程度任务。2)编程和数学领域表现优异且更高效,在codeforces 测试中,o3-mini 的Elo 评分随推理时间增加而增高,中等强度级别的o3-mini 模型得分能够超过o1 满血版。3)对开发者的API 工具上性能基本和o1满血版持平。o3-mini 提供给开发者API 功能,包括函数调用、结构化输出等,性能对标甚至超过o1 满血版。
  挑战与启示:高阶推理可以做到,但仍需降成本。从业内推测来看,o3 模型核心创新在于实现token 空间内自研语言程序搜索和执行,优势在于更能够适应新任务。而缺点在于成本昂贵,o3 执行过程中需要探索大量路径并进行回溯,导致需处理千万个token 消耗大量计算资源,例如在ARC-AGI 任务的低计算量模式下每个任务需要花费17-20 美元。
  近阶段大模型启示:1)大模型进展从预训练端转变为推理端;2)大模型进入Agent爆发时代;3)利好推理端算力需求;4)应用方面围绕解决复杂任务能力的出现,利好科学研究、编程软件开发、办公软件、医疗健康、金融等领域。
  相关标的:Agent:泛微网络、鼎捷数智、中软国际;多模态:万兴科技、虹软科技;AI 教育:科大讯飞;AI 办公:金山办公、福昕软件;AI 金融:新致软件;AI 医疗:润达医疗。
  风险提示:大模型技术中美仍存在差异;LLM 商业变现能力仍需要验证;scaling law在训练领域的效果和GPT-5 实际迭代情况仍需要关注。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王治强 HF013)

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读