科技行业动态点评-OPENAI O1：大模型范式的转折点

2024-09-23 10:40:06 和讯华泰证券谢春生/袁泽世

　　OpenAI 发布o1 模型，标志着大模型的训练范式向推理侧转移9 月12 日，OpenAI 官方发布最新模型o1，指出其最大特点在于接受了强化学习（RL）训练，并在模型推理时采用更长的内部思维链（chain ofthought，CoT），实现了模型在物理、化学、数学等强逻辑领域性能大幅提升。我们认为，o1 的意义在以下几个方面：1）大模型Scaling Law 的重心由预训练向后训练和推理侧转移。2）RL 和长CoT 的使用，定性增加了后训练和推理所需的算力。3）目前o1 擅长的领域仍然是强推理需求的数学、代码、物理等领域，后续随着RL 的进一步迭代，多领域泛化能力有望提升。
　　建议关注国内算力链、苹果链和核心AI 应用相关公司。
　　大模型训练范式：Scaling Law 重心从预训练向后训练和推理转移2020 年OpenAI 提出的Scaling Law 是大模型迭代的重要基础理论。o1 之前，Scaling Law 的重心在预训练，通过给予大模型更多的参数、训练数据和算力，提升模型的智能表现。o1 发布后，OpenAI 指出，在预训练ScalingLaw 的同时，通过在后训练引入RL 并且在推理中增加长CoT（意味着更多的计算），同样能够大幅提升模型的性能表现，即Scaling Law 在能够在大模型预训练、后训练和推理的所有阶段持续赋能。我们认为，o1 的问世，为下一步大模型的训练和迭代提供了新的参考范式——RL+CoT。
　　新范式下的算力消耗：定性看，需要更多的训练和推理算力o1 之前的模型如GPT-4o，经历了预训练和后训练（基于人类反馈的强化学习RLHF）两个主要阶段，推理则采用单次推理或短CoT。我们认为，o1模型在预训练阶段算力变化或不大，旨在保证模型有着较好的通用能力。后训练阶段由于采用了RL，需要通过不断搜索的方式来迭代输出优化结果，因此算力消耗有望上升。推理阶段，o1 在RL 训练下学会了内部长CoT，推理所需token 增长明显，因此推理算力相比之前的单次推理或显著上升。
　　综上，在新的大模型训练范式下，定性看，模型需要更多的训练和推理算力。
　　目前o1 擅长强逻辑推理，后续迭代有望提升其泛化能力据OpenAI 官网，对于AIME 考试（类似美国高中生奥赛），o1 在每个问题只有一个样本的情况下准确率平均为74，相比GPT-4 提升了62。GPQAdiamond（化学、物理和生物学方面的专业知识）测试中，o1 超过了PhD-Level 人类专家。我们认为，由于RL 中奖励函数设置需要明确的“对错”概念，因此o1 目前更擅长强逻辑和数学等有明确对错的问题推理。但是随着RL+CoT 范式的不断迭代，o1 及后续模型有望出现“涌现”现象，将能力泛化到强逻辑以外的通用问题领域，或有利于复杂AI 应用的迭代。
　　风险提示：宏观经济波动，AI 技术进步不及预期。
【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

（责任编辑：王丹）

【免责声明】本文仅代表第三方观点，不代表和讯网立场。投资者据此操作，风险请自担。

【广告】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约