目前,增强学习(RL)在提高识别大语模型(LLM)的能力方面具有巨大的潜力。诸如DeepSeek R1,Kimi K1.5和Qwen 3之类的模型完美地反映了RL在增强复杂的LLM推理能力方面的有效性。但是,为了获得有效的强化研究,需要解决一个重大挑战,尤其是信用名称:在大型语言模型的情况下,如何将全阶评估(LLM响应)(LLM响应)的最终结果与特定的决策行动联系起来。这个问题的困难是,奖励信号对成功或失败的特定评论非常分散,只能在以下结束时获得。在加强研究中,估计优势的基本方法通常用于解决信用分配问题。当前,大型语言模型的加强方法主要分为两类。我之间的区别S值的主要估计值的不同晶粒。粗粒轨迹级别的方法,例如DeepSeek R1使用的GRPO,只能根据最终奖励计算完整订单的优势值。尽管此方法很好,但反馈信号太粗糙了,LLM无法奖励错误答案的正确部分,也不会惩罚正确答案的冗余部分。另一个极端是令牌级方法(令牌级),例如经典PPO。这种类型的过程估计每个令牌的主要值,并需要希望有一个额外的策略模型来预测每个令牌的状态(v值)。但是,在研究大语言模型的强化时,与不同信号相对应的轨迹分布差异很大,并且模型的数量是训练过程中每个提示的响应的响应限制,并且关键模型难以正确训练,从而导致一个重大错误In估计高级别值。为了打破这种瓶颈,中国科学院和香港城市大学软件研究所的研究团队具有创新的政策优化框架(SPO)部分。纸张标题:优化细分政策:大型语言模型的有效细分级信贷分配作者:Yiran Guo,Lijie Xu,Jie Liu,Dan Ye,Shuang Qiu链接:https://arxiv.org/abs/abs/2505.23564代码链接: (分段级)主要的价值估计方法。它不会仅在最后一步中计算出轨迹级别方法的好处,并且也不计算每个步骤的好处,例如令牌级方法。取而代之的是,它根据许多连接的段将生成的解释分配,并计算了每个段的优势的值。这种估计片段级别值的方法具有MA纽约州明显的好处:(1)更好的信用分配:与轨迹级别相比,细分级程序可以为优势提供更多的本地反馈,从而使模型可以奖励正确的答案,并惩罚答案的冗余。 。 。因此,可以在令牌水平和轨迹水平之间调节谷物谷物,并可以适应各种任务和应用情况。 SPO框架主要包括三个主要组成部分:(1)灵活的细分级级策略; (2)基于蒙特卡洛抽样的优势占优势量的估计; (3)使用优化的优势优势水平。这种模块化设计提供了高度灵活性的轮廓,并且不同的组件可以具有不同的实现技术以在不同的应用程序情况下应用。该团队进一步提出了两个针对不同概念场景的SPO框架的特定示例:简短它提出了SPO链,它使用基于切割点的细分划分和主导价值的估计,它提出了SPO链。对于长的COT场景,它提出了一种估算树木结构的方法,从而大大提高了MC采样的效率。此外,团队还提出了一种优化令牌掩码策略的方法,选择性地计算了该细分市场内的低概率令牌的损失,而不是该细分市场中的所有令牌。作者认为,这些令牌是轨迹轨迹可以获得的模型,也是产生细分级别的主要原因。该方法可用于SPO链和Spo-Tree,从而进一步增强信用分配。框架和核心技术SPO框架主要是围绕着Follownod设计的三个具有挑战性的问题:(1)如何将生成的解释分开 - 遵循许多细分? (2)每种细分市场准确且估计? (3)如何将优势值使用到细分级别来更新该方法?三个主要的SPO模块回答了上三个问题,每个问题都包含适用于不同方案的不同可选技术:1。段分区:a)基于切割点的分区:用于短心理链的情况,将状态(V值)更可能更改的分割点放置。根据令牌的可能性了解过度变化段的界限 - 更改,并优先考虑将主要要点(切割点)分开,这些要点可能会改变理解道路,以使信用分配更加准确。例如,在下面的示例中,标记为红色的令牌是主要点,而标记为蓝色的垂直条是该段的结果。 b)固定令牌计数分区:将命令分为固定长度,以促进树结构的组织和主要值的估计,为Spo树设计。 2。段的优势估计:a)基于链条的程序:在缺点链的情况下,MC采样的成本不高。该团队使用一种直接的方法来估计片段估计级别值以独立估计每个段边框的状态(V值),然后将优势值计算为段级别。以下公式显示了估计链优势量的方法。 b)基于估计值的价值(基于树):在思考链的较长情况下,MC估计的成本非常高。团队提出了一种估计树的好方法:将采样轨迹调整为树结构,通过组合奖励来计算状态的(V值)值,以及组的子节点形式的子节点的节点,并计算组中每个段的主要值。该方法使用用于估算V值的示例,用于接近该方法同一时间,大大提高了样本效率。以下公式显示了估计树木优势值的方法。 3.使用细分市场的优势使用令牌概率掩码来优化策略:在获得细分级别值值之后,为了进一步改善信用分配,团队将通过每种方法的方法提出创新,以优化令牌掩码方法。在策略更新期间,只有段级别值的值被分配给段中的低概率(关键)令牌,而不是全部令牌。此方法可能会更准确地将奖励/惩罚分配给关键决策点,从而提高学习效率和有效性。 SPO链和SPO-Tree优化目标分别显示在下面。 a)SPO链优化目的:b)待树优化目标:比较下图所示的基线方法。从链条思维的简短视图中,Rhomath1.1b用作基本模型,GSM是我们ed。 8K训练套件经过训练。与不同的训练算法相比,NG使用SPO培训获得的测试模型具有更高的精度。如下图所示,对于长链思维方案,使用DeepSeek-R1-Distill-Qwen-1.5b作为基本模型和数学数据集用于培训的基本模型,在同一培训时间,测试准确性高于GRPO。下表显示了与长期经过思考的场景相比的更多结果:SPO-Tree在SPO上的每个上下文长度检查中都表现良好,SPO仅使用数学,并且仅使用4K上下文的最大长度。值得注意的是,尽管DeepScaler在32K上下文长度分析中表现最佳,但在短期上下文中的表现(与4K相比2K),并且不如原始基座模型那样好。它表明,GRPO培训是MAIT的方式可能无法有效地优化模型令牌的效率,从而导致输出的冗余性,resul在有限的上下文长度的情况下,降低准确性率的问题。通过实验发现,与晶粒尺寸(INT5)中等大小(INT5)相比,超级晶粒尺寸(INT2,仅分配了两个切口)的影响,但是与中型尺寸的熊(INT5)相比,多余的粗糙晶粒尺寸(INT100)显着减少。显示了采用中粒子优势值的SPO的有效性。关于片段分裂程序影响的实验表明,在简短的链条思想方案中,基于切口点的建议分裂段的方法最好,这比使用新的字符(bebepo)(bebepo)和令牌数字的固定划分(固定token-token-count)更好。令牌概率掩盖消融实验表明,去除令牌概率掩模将导致SPO链精度。更值得注意的是将令牌概率掩码应用于t他的GRPO将大大提高其准确性。不同实验对树结构的影响表明,较小的树结构在早期阶段具有更高的精度,也许是因为它们更快地扫描了更多数据样本。但是,随着训练的出现,树的较大结构将具有更好的准确性,因为较大的树结构在估计主要段水平的值时将更加准确。这项工作的总结是基于晶粒尺寸细分市场的主要HCARE的RL框架SPO,在令牌水平和轨迹水平之间具有更好的平衡,比轨迹水平更好的信用分配更好,并且只有少数主要的价值估算值。可以使用有效且无偏的MC程序来估计它,而无需其他关键模型。该文章还建议了两个SPO示例。
AG棋牌官方游戏平台_正规AG棋牌平台
客服热线:400-123-4567
邮箱:admin@baidu.com
地址:广东省广州市天河区88号