猫眼电影
猫眼电影记者 董建华 报道P6F3X2M7T9QJ8L1B4WZR
鹭羽 发自 凹非寺量子位 | 公众号 QbitAI
“预测下一个token”——这个支撑LLM的核心训练机制,正在被强化学习颠覆。
微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前都能先“动脑推理”,并根据推理正确性获得奖励。
传统预训练依赖海量文本进行自监督学习,模型通过简单预测下一个token建立语言能力,作者将之比喻为一块蛋糕胚,而RL只是作为上面点缀的一颗樱桃。
现在RPT要做的就是用樱桃直接做蛋糕,即将这一过程重构为推理任务,促进模型更深层次理解和提升下一个token的预测准确度。
那这块樱桃蛋糕到底怎么做?详细烘焙流程我们接着往下看。
将强化学习引入预训练
传统的预训练方法采用自监督的下一个token预测任务,而RL通常承担微调LLM的功能,使其与人类偏好对齐或者增强复杂推理。
然而基于人类反馈的强化学习(RLHF)过度依赖昂贵数据,且模型容易受到奖励破解;可验证奖励的强化学习(RLVR)也会受到数据稀缺的限制,只能应用于特定领域的微调。
为了让强化学习更好地作用于LLM,团队提出的全新范式强化预训练RPT,激励使用RL进行有效的Next-Token推理任务,将预训练语料库重构为推理问题集,推动预训练从学习表面的token相关性转为理解深层含义。
模型首先需要对多个token生成一个思维链推理序列,涉及多种推理模式(如头脑风暴、自我批评和自我纠正),然后再为下一个token生成预测。
具体来说,RPT就是通过让LLM同策略(on-policy)执行,以生成多条不同的思维轨迹,每条轨迹包含中间推理步骤和对下一个token的最终预测。
引入前缀匹配奖励,验证预测的正确性。如果预测与真实token匹配,则分配正奖励1,反之为0。该奖励信号将用于更新LLM,以鼓励生成能准确延续上下文的轨迹。
团队使用包含4428个竞赛数学问题及答案的OmniMATH数据集,并通过计算下一token的熵和设定阈值,进行数据过滤,只保留更难预测的token参与训练。
另外采用Deepseek-R1-Distill-Qwen-14B作为基础模型,使用GRPO算法和8K的训练长度,批大小为256个问题,每个问题采样8个响应。
更深层次的推理
实验表明,与R1-Distill-Queen-14B相比,RPT-14B在三种难度(简单、中等、困难)上均实现了更高的下一个token预测准确率,优于标准下一token预测基线和使用推理的预测基线。
在性能上,也可与更大的模型R1-Distill-Queen-32B相媲美,说明RPT能有效捕捉token生成背后的复杂推理信号,并在提升LLM的语言建模能力方面拥有巨大潜力。
RPT在跨难度的训练计算方面,也表现出清晰的幂律缩放(Power-law Scaling),预测准确性随着计算的增加而不断提高,并且与理论曲线紧密拟合。
与传统的使用下一个token预测相比,在具有可验证答案的问题(即Skywork-OR1)上,使用RL微调RPT模型显示出更强的推理能力。
在数据有限的情况下,可以快速将从下一token推理中学习到的强化推理模式迁移至最终任务。
另外模型在SuperGPQA和MMLU-Pro基准测试上的零样本评估表明,RPT-14B不仅优于R1-Distill-Queen-14B,还在推理模式中显著超过了R1-Distill-Qwen-32B。
最后团队还对推理轨迹进行分析,发现与显式问题解决模型相比,RPT-14B采用了更多的假设生成、替代方案的考虑以及对结构线索甚至颗粒度token级细节的反思。
既包含高级语义理解,又包含低级文本特征,说明RPT在训练过程中会培养更深层次的推理习惯。
One More Thing
这个著名的“蛋糕论”最早出自图灵奖得主Yann LeCun在2016年的演讲。
如果智能是一块蛋糕,那么大部分蛋糕都是无监督学习,蛋糕上的裱花是监督学习,而蛋糕顶部的樱桃则是强化学习。
而现在试图用强化学习碾碎这块蛋糕的,还有OpenAI。
在上个月红杉组织的AI Ascent活动中,OpenAI科学家Dan Roberts就提及了他们在将RL置于模型预训练过程中的转变。
在GPT-4o中全是传统预训练计算,在o1中引入了一些强化学习运算并且取得了不错的效果,在o3中则引入更多,他们预计在未来的某一代模型中,将会完全由RL计算主导。
有理由相信,未来RL或许将在LLM预训练过程中掀起更大的风暴,且让我们拭目以待。
论文链接:https://arxiv.org/abs/2506.08007
参考链接:[1]https://x.com/omarsar0/status/1932522665182703664[2]https://x.com/qx_dong/status/1932268949238067482[3]https://www.youtube.com/watch?v=_rjD_2zn2JU
??时事1:格温同人免费漫画
??06月21日,东南大学参加中国第41次南极科考的队员在南京出征,
各位来宾、各位朋友:
,XXXXXX精品AV视频播放。??06月21日,湖南祁阳用科技赋能助粮食产量提升,
平日间,大地上猛兽遍地,凶禽横空,这就是人族的生存现状,需要抗争,需要挣扎,不然就没有活路。
,俺たちのゲームセット百度翻译,扒开老师❌狂揉❌难受3d,金卡戴珊㊙️私密視頻。??时事2:小🐤🐤戳进🍑无遮挡欧美
??06月21日,东山村遗址公布重大发现 发掘崧泽文化时期大墓,
三是工作责任心不强。少数同志谋权、谋人、谋私有一套,就是不谋事、不谋发展。对上级布置的工作、提出的要求,采取敷衍、推诿的态度,上面推一下才动一下,不推就不动,有的推了也不动,甚至搞上有政策下有对策,欺上瞒下,我行我素;遇到困难,不是千方百计地克服困难、战胜困难,而是讲客观、讲条件,想方设法地回避困难、逃避责任,甚至困难和压力稍大一点,就被吓倒、压趴,平时满足于开会说说、问题报报、来人陪陪、没事玩玩。到头来工作完不成、发展上不去。
,美女校花🌸张开腿让我❌动漫,免费黄片网站,咒术回战野蔷薇18+🔞。??06月21日,黑龙江嘉荫:“南北一家亲” 游客在中俄界江体验“泼水成冰”,
企业开张典礼领导讲话(精选30篇)
,美女露出全胸被绑住,星",!脱👙让学生C🐻-在线观看。??时事3:原神黄男男纯肉巨黄Gay动漫
??06月21日,躬耕乡野 科技特派员助力浙江松阳乡村产业旺起来,
其中一人一口老血喷出,气昏过去了。
,91蝌蚪少妇👠👠👠,开户猎手(破解版)_1.0.0.apk,校花扒开🍑给男人玩软件。??06月21日,泉州宝藏 | 为什么这座桥成了当地人心中难以言表的“断桥残梦”,
罗浮大泽的中年男子蛟苍脸色雪白,早已没有了一点血色,他出了一身冷汗,一股莫大的恐惧笼罩心头。
,圣女当众被迫高潮H视频动漫,牡工ozO体内交FIO另类,彩虹版gtv全球最好g平台下。??时事4:小莹好湿⋯好紧⋯太爽了
??06月21日,“龙腾福地”——甲辰新春主题非遗系列展在福州开幕,
“不错,正是因为如此,才惊动了这样的巨族!”
,动漫美女的隐私㊙️撒尿,欧美老年人靠比XXXXx,黄景瑜裸体实干12次。??06月21日,中国东方航空C919成功首航上海至重庆航线,
二、廉洁自律不仅仅是思想境界,也是职责要求
,脱裤子打屁屁免费网站,孕妇美女裸体❌羞羞视频,二次元色情性黄❌片视频费。责编:王楠
审核:闽有方
责编:覃勇