AI动态跟踪系列(三):复杂推理大模型OPENAIO1亮相 数学与代码能力飞跃

2024-09-15 08:50:04 和讯  平安证券闫磊/黄韦涵/王佳一
  事项:
  9 月13 日,OpenAI 正式发布并上线o1 系列模型o1-preview 和o1-mini。
  平安观点:
  OpenAI 计数器重置回1,o1 系列开启复杂推理序幕。本次OpenAI 发布的是o1-preview(预览版)和o1-mini(擅长STEM、更快、更便宜)两个版本,ChatGPT 付费用户和API 用户可以使用。根据OpenAI 官网介绍,o1 系列被定位为用于解决难题的推理模型。对于复杂的推理任务来说,OpenAI 认为o1 是一个重大进步,代表了AI 能力的新水平,鉴于此,OpenAI 将计数器重置回1 并将此系列模型命名为OpenAI o1。OpenAI 研究发现,随着强化学习(训练时计算)和思考时间(测试时计算)的增加,o1 的性能会不断提高。因此在体验上,与此前模型不同点在于,OpenAIo1 在作出反应之前,需要像人类一样,花更多时间思考问题。
  o1 基准表现明显优于GPT-4o,数学与编码能力实现飞跃。OpenAI 实验结果表明,在绝大多数推理任务中,o1 的表现明显优于GPT-4o。尤其是在具有挑战性的推理基准上,o1 实现了能力飞跃,1)数学能力:在美国数学奥林匹克(AIME2024)预选赛题目中,GPT-4o 平均只能解决12%的问题,o1 正式版达到平均74%的准确率,在使用学习评分函数重新排名1000个样本后准确率达到93%,相当于美国排名前500 的学生水平。2)编码能力:在竞争性编程问题(Codeforces)比赛中,o1-preview、o1 分别超越了62%、89%的人类竞争者,而对比GPT-4o 仅超过11%。3)特定专业领域能力:GPQA diamond 测试(专门用于评估模型在化学、物理和生物学等领域的专业知识水平)中,o1 不仅成功完成了测试,更是超越了人类专家的表现,成为首个在GPQA diamond 基准上击败人类专家的AI 模型。
  o1 引入思维链优化逻辑推理,助力模型性能与安全提升。o1 优越能力的背后,核心突破在于运用思维链(chain of thought)方法来处理复杂任务,OpenAI 介绍到,类似于人类在回答困难问题之前可能会思考很长时间,o1 在尝试解决问题时会使用思维链。通过强化学习,o1 学会打磨其思维链并改进它所使用的策略。o1 学会了识别和纠正错误,学会了将棘手的步骤分解为更简单的步骤,学会了在当前方法不起作用时尝试不同的方法,此过程显著提高了模型的推理能力。在OpenAI 的一个官方演示中展示了o1-preview 解答复杂问题的逻辑推理过程,o1-preview 在过程中逐步显示思考、翻译问题、定义变量、理解问题、构建方程、解方程等与人类推理相似的步骤,最终输出结论。同时,OpenAI 认为思维链推理也为大模型安全性的提升提供了新思路,o1-preview 在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。
【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。
(责任编辑:王丹 )

   【免责声明】本文仅代表第三方观点,不代表和讯网立场。投资者据此操作,风险请自担。

【广告】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读