港股异动 | 快手-W(01024)涨超3% 快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力

2025-04-25 10:45:07 智通财经 
新闻摘要
智通财经APP获悉,快手-W涨超3%,截至发稿,涨2.48%,报51.7港元,成交额6.42亿港元。消息面上,4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用GRPO1/10的训练成本,在数学与代码双领域基准测试中实现性能突破 AIME2024得分50,LiveCodeBench得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero的方法

智通财经APP获悉,快手-W(01024)涨超3%,截至发稿,涨2.48%,报51.7港元,成交额6.42亿港元。

消息面上,4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的方法。

通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

(责任编辑:王治强 HF013)

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

看全文
写评论已有条评论跟帖用户自律公约
提 交还可输入500

最新评论

查看剩下100条评论

有问必答- 持牌正规投资顾问为您答疑解惑

    热门阅读

      和讯特稿

        推荐阅读