- 迪丽热巴 ai换脸 仙葩天子的格外喜好,喜怒哀乐杀害姐妹花,还把妹妹作念
- 变态另类 普天通讯集团发布2024年度功绩 净利润1847.5万元同比增
- 变态另类 《Clinical and Translational Sci
- 文爱 app 曾被拘留14个月&交100万保释金!人人:阿尔维斯
- 黑丝 jk 机场提前多久罢手办理登机?是否为腾飞前45分钟?
变态另类 GRPO在《时空谜题》中打败o1、o3-mini和R1
近日变态另类,国外大模子居品平台 OpenPipe 上发布了一项经营,进展其如何通过 GRPO 在重度推理游戏《时空谜题》中卓越 R1、o1、o3-mini 等模子。策四肢家分裂为来自 Ender Research 的强化学习经营员 Brad Hilton 和 OpenPipe 的首创东说念主 Kyle Corbitt。 他们的经营暗示,他们不仅将模子与 Sonnet 3.7 的差距削弱至个位百分比,同期达成跨越 100 倍的推理老本优化。 解说中还分享了任务联想与超参数同样的训诲,并公开了基于 torchtune 框架构建的完竣锤真金不怕火决策。 一、配景先容 自 OpenAI 旧年发布冲破性的 o 系列推理模子以来,禁受强化学习(RL)锤真金不怕火的大型讲话模子(LLMs)迎来爆发式增长。谷歌 DeepMind、阿里巴巴、DeepSeek、Anthropic 接踵推出撑握长 " 念念维链 "(CoT)推理的先进模子,在可考据问题上延伸强化学习锤真金不怕火,让传统的基准测试渐渐濒临性能天花板。 尽管取得权贵进展,逻辑演绎智力仍是顶尖模子的阿喀琉斯之踵。面前 LLMs 普遍存在三大过错: 难以踏实跟踪总共研讨细节 无法保握逻辑严实的推演历程 多步衔尾可靠性不及 即便顶尖模子生成 10-100 倍长度的输出,仍然会频现东说念主类可简略识别的初级乌有。 带着趣味,咱们开启了一系列的探索:微型开源模子能否借助前沿强化学习本领,冲破演绎推理的边陲? 咱们滥觞从性能较弱的模子启航,在一项全新的推理任务上对其进行迭代锤真金不怕火。跟着期间的推移,咱们清亮不雅察到它们的推忠良力有所进步,最终达到致使卓越了一些先进的私有模子 。 二、基准测试框架 为了开展咱们的推行,咱们滥觞必须详情一个具有明确可考据谜底且具有挑战性的推理任务。正好其中一位作家之前创建了一个绝对合适条目的谜题集——"时空谜题"(Temporal Clue)。除了顺苦衷实真相了了这一尺度外,还不错按照需要创建新谜题。 "时空谜题"灵感源自热点桌游 Clue(Cluedo),在该游戏中,玩家们竞相揭开究竟是谁在 Boddy 先生的豪宅中谋杀了他。"时空谜题"将这款游戏转动为一个单东说念主逻辑谜题,它不仅涵盖尺度因素 —— 凶犯是谁、用什么凶器、在哪作案,还增添了两个维度:作案期间和作案动机。谜题是速即生成的,游戏使用了 OR - Tools 的 CP - SAT 求解器进行印迹挑选。 在某个爽气的冬夜,奥秘富豪 John Q. Boddy 先生为他的密友举办了一场微型的糜掷晚宴。可是,这场晚宴以悲催结束,Boddy 先生于早晨期间被发现死在王人铎庄园的一个房间里。以下是被认定为嫌疑东说念主的研讨利益东说念主员…… 为了明确这项推理任务的最好水平,咱们对一些火爆的推理模子进行了基准测试 ,包括 DeepSeek R1、OpenAI 的 o1 和 o3 - mini 以及 Anthropic 的 Claude Sonnet 3.7。此外,咱们还对 14B 和 32B 的 Qwen 模子进行了基准测试,这是咱们最终落幕的预览: 在这些基准测试中,咱们发现 Claude Sonnet 3.7 在设定 6.4 万个 token 的情况下证实最好,DeepSeek R1 的证实确切与 OpenAI 的 o1 和 o3 - mini 不相高下。可是,未经调优的 Qwen 2.5 Instruct 模子在比较之下就稍显失色了。 一个症结问题是:咱们能否将这些较微型的通达权重模子锤真金不怕火到前沿水平的证实?谜底是笃信的,独一用对活动。 三、锤真金不怕火 为了锤真金不怕火出一个具有前沿水平的推理模子,咱们禁受了强化学习活动。咱们滥觞让大讲话模子针对每个谜题生成多个回复,以此探索问题的各式可能性,从而领导它们学习。对得出正确谜底的推理历程赐与正向强化,而对误导模子的推理历程则进行刑事牵累。 在稠密强化学习的活动中,咱们选用了 DeepSeek 模子的 GRPO 算法。与 PPO 等传统活动比较,GRPO 不仅证实出色,还简化了锤真金不怕火历程。 从宏不雅层面来看,咱们的锤真金不怕火遵从以下几个基本活动: 针对谜题任务生成模子回复 对回复进行评分,并为每组聊天回复估算上风值 期骗这些上风值估算落幕领导的编著战略梯度对模子进行微调 用新的谜题和模子的最新版块重迭上述活动,直至达到最好性能 在生成回复关节,咱们使用了热点的 vLLM 推理引擎,并对参数选定进行了调优。咱们发现,向 vLLM 发送过多肯求会导致正在处理的肯求被霸占。为惩处这一问题,咱们使用了一个信号量来戒指肯求数目,该信号量经过调优,无意在尽量减少换出的同期保握较高的键值缓存期骗率。 采样完成后,咱们使用 HuggingFace Transformers AutoTokenizer 对回复进行处理。它的聊天模板功能可将音信对象渲染为教导字符串,其中包含一个助手掩码,用于详情哪些象征是由大讲话模子生成的。咱们发现这些模子在其默许模板中空泛必要的 "生成" 标签,于是在 token 活动中对模板进行了修改。最终得到的助手掩码被纳入用于调优的张量字典中,用以记号哪些位置需要进行亏空诡计。 在赢得助手掩码后,咱们对数据进行打包以便调优。除了在每个打包序列中包含多个教导和回复除外,咱们还识别出分享的教导象征,并为每个象征分拨一个父 ID,同期附上尺度的组 ID。关于像 "时空谜题" 这类平均每个谜题跨越 1000 个象征的任务,咱们针对每个任务生成多个回复并高效打包张量,权贵减少了冗余。一朝将总共必要信息打包完毕,咱们就能以二维神情直不雅呈现锤真金不怕火数据集,每一滑王人是一个可能包含多个教导和回复的象征序列 。 有了数据后,咱们驱动调优。模子依然完成了预锤真金不怕火和指示微调,具备一定的智能水平。固然它们还无法踏实地惩处谜题,但是偶尔也能收效。通过提高正确推理的概率,咱们缓缓领导模子朝着 "神探" 的水平迈进。关于诡计损成仇同样权重,咱们禁受了战略梯度的活动。 在锤真金不怕火历程中,咱们使用了由 PyTorch 团队提供的 Torchtune 库,其中包括 Llama、Gemma、Phi 等热点模子。咱们在这个阵势中除了使用 Qwen 模子,也用 80 亿参数和 700 亿参数的 Llama 模子进行了推行。Torchtune 还提供了一些从简内存和进步性能的用具,包括: 激活搜检点(Activation Checkpointing) 激活卸载(Activation Offloading) 量化(Quantization) 参数高效微调(PEFT),举例 LoRA 此外,Torchtune 撑握多拓荒和多节点锤真金不怕火,还不错聚会全分片数据并行(FSDP)和张量并行(TP)锤真金不怕火。他们提供了十多个锤真金不怕火配方,饱读吹用户复制并把柄我方的用例进行定制。他们完竣微调配方的修改版撑握以下功能: 多拓荒和单拓荒锤真金不怕火 参考模子加载和权重交换以诡计 KL 散度 使用组和父 ID 进行高等因果掩码诡计 GRPO 亏空集成和组件日记记载 强化学习锤真金不怕火历程波及超参数的选定。在锤真金不怕火模子期间,咱们对各式设置进行了测试,最终详情了以下参数: 模子:Qwen 2.5 Instruct 140 亿参数版和 320 亿参数版 每次迭代的任务数:32 每个任务每次迭代的样本数:50 每次迭代的总样本数:32 × 50 = 1600 学习率:6 × 10 ⁻⁶ 微批次大小:关于 140 亿参数模子为 4 个序列,关于 320 亿参数模子为 8 个序列 批次大小:可变,取决于序列数目 批次大小之是以可变,是因为锤真金不怕火历程中回复长度不同。每次迭代的序列打包后果会有波动,上风为零的回复会被丢弃。在一次推行中,咱们尝试将学习率与批次大小成反比动态同样,但这会导致小批次的学习率过高。经过上限处理后的版块与使用恒定学习率比较莫得清亮各异,但同样批次大小和学习率仍是明天值得探索的标的。 咱们还进行了简短的推行,在每次迭代的任务数和每个任务的样本数之间进行反向同样(即一个增多另一个减少),同期保握每次迭代的总样本数大约相称。在较短的锤真金不怕火周期内,这些变化莫得产生清亮各异,这标明锤真金不怕火配方对任务数目与单任务样本量之间的不同配比具有强鲁棒性。 四、落幕 经过 100+ 次迭代锤真金不怕火,咱们的模子收效达到前沿级推理水平。 咱们的模子无意在准确率下跌之前赶紧修订。最好现象下,140 亿参数、1.6 万个 token 的模子已接近于 ClaudeSonnet 3.7 的性能。320 亿参数、6.4 万个 token 的模子更是确切达到了 Sonnet 的落幕。 拳交扩张在锤真金不怕火期间,性能进步遵从幂律公法,在图表上造成线性联系(在恶化之前)。 下一步,咱们将探索各类化复兴的活动,缓缓构建智力的活动,或者无意激勉出透顶探索的活动。 此外,咱们认真到在锤真金不怕火期间输出长度呈现出意思意思的公法。领先回复变长,随后趋于踏实,在锤真金不怕火接近尾声时出现分化,其中 140 亿参数模子的回复变得更长,而 320 亿参数模子的回复长度则镌汰(尤其是在达到最好性能之后)。 为了从定性角度评估逻辑推忠良力的进步,咱们让起头进的模子 Claude Sonnet 3.7 对 Qwen 32B 模子所作念出的推论进行识别,并评估其合感性。Sonnet 从基础模子中识别出 6 个推论,除了一个被判定为正确外,其余均被判定为乌有。违犯,从经过锤真金不怕火的模子中识别出 7 个推论,除了一个乌有除外,其余均被判定为逻辑合理。 临了,在假定按需部署具有饱和隐隐量的情况下,咱们把柄 Fireworks AI 的无就业器订价层级估算了 Qwen 模子的老本。咱们画图了一张准确性和推理老本的联系图,并发当今未经调优的模子中存在一条了了的线性帕累托前沿线,极地面改善了老本与准确性之间的量度联系。 五、结语 在咱们的拜谒经营中,咱们探索了较微型的开源讲话模子能否通过强化学习达成前沿水平的演绎推忠良力。对期间印迹谜题进行锤真金不怕火时,咱们使用了超参数和 GRPO 活动来锤真金不怕火 Qwen 14B 和 32B 模子,权贵低进步了性能。这些修订使开源模子在推感性能方面达到了最前沿的水平,并大幅度低贬低了老本。咱们的经营落幕突显了强化学习在高效锤真金不怕火开源模子处理复杂演绎任务方面的宽广后劲。 此外,临了还有一个惊喜。咱们发现,仅需 16 个锤真金不怕火样本就能达成高达 10 - 15% 的性能进步,这意味着咱们无需普遍数据就能进行推理。 原文一语气:https://openpipe.ai/blog/using-grpo-to-beat-o1-o3-mini-and-r1-on-temporal-clue 雷峰网变态另类 |