港股异动 | 快手-W(01024)涨超3% 快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力

2025-04-25 10:45:07 智通财经

新闻摘要

智通财经APP获悉，快手-W涨超3%，截至发稿，涨2.48%，报51.7港元，成交额6.42亿港元。消息面上，4月23日，快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用GRPO1/10的训练成本，在数学与代码双领域基准测试中实现性能突破 AIME2024得分50，LiveCodeBench得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero的方法

智通财经APP获悉，快手-W(01024)涨超3%，截至发稿，涨2.48%，报51.7港元，成交额6.42亿港元。

消息面上，4月23日，快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ，SRPO)，这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法。

通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练，SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6)，超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是，SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

（责任编辑：王治强 HF013）

【免责声明】本文仅代表作者本人观点，与和讯网无关。和讯网站对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考，并请自行承担全部责任。邮箱：news_center@staff.hexun.com

看全文

写评论已有条评论跟帖用户自律公约