巨乳 港股异动 | 快手-W(01024)涨超3% 快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码才气

发布日期:2025-04-26 01:11    点击次数:90

巨乳 港股异动 | 快手-W(01024)涨超3% 快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码才气

智通财经APP获悉,快手-W(01024)涨超3%,截止发稿,涨2.48%,报51.7港元,成交额6.42亿港元。

音信面上,4月23日,快手Kwaipilot团队发布全新大模子覆按步调SRPO并文书开源。该步调仅用 GRPO 1/10的覆按本钱,在数学与代码双领域基准测试中结束性能冲破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专科领域同期复现DeepSeek-R1-Zero 的步调。

快手 Kwaipilot 团队在最新权略效果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中冷落了一种鼎新的强化学习框架 —— 两阶段历史重采样计策优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同期在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的步调。

通过使用与 DeepSeek 换取的基础模子(Qwen2.5-32B)和隧说念的强化学习覆按,SRPO凯旋在AIME24和LiveCodeBench基准测试中获得了优异获利(AIME24 = 50、LiveCodeBench = 41.6),突出了DeepSeek-R1-Zero-32B 的进展。更值得提防的是,SRPO 仅需 R1-Zero 突出之一的覆按步数就达到了这一水平。

【免责声明】本文仅代表作家本东说念主不雅点,与和讯网无关。和讯网站对文中述说、不雅点判断保执中立,不合所包含现实的准确性、可靠性或齐全性提供任何昭示或默示的保证。请读者仅作参考,并请自行承担一都株连。邮箱:news_center@staff.hexun.com

AV天堂