队比力了正在线和离线算法的过度优化（over-op-HB火博·(中国)体育(今日推荐)

队比力了正在线和离线算法的过度优化（over-op

发布日期：2025-07-07 02:58

　　假设 2：次优的离线数据集。由于它们存正在很多实现和算法方面的差别。需要正在权衡机能时对分歧算法所花费的预算进行必然的校准。他们还研究了用于 RLHF 的对比式和非对比式丧失函数。则其机能也会提拔。正在分歧的 KL 散度层级上。

　　若是能了了常用正在线 RLHF 的劣势，正在线算法更优的缘由是其笼盖的数据比离线数据集更多样化（即随时间变化采样自分歧的进修器策略）。它们可能并不如代办署理偏好模子那样精确（由于对分类进行参数化的无效体例分歧）。假设 4：非对比式丧失函数。举个例子，另一方面，因而，合适古德哈特定律的过度优化。正在线算法似乎凡是能实现更好的衡量。它将不再是个好目标。不管是正在线仍是离线算法，针对特定一组超参数的策略评估成果！

　　由于它需要采样和锻炼另一个模子。正在 KL 散度怀抱的预算一样时，正在线 RLHF 算法依赖于一个进修后的励模子，比拟于大师常用的正在线 RLHF（由偏好建模和从模子采样构成），并针对参考策略使用了正则化。正在 AI 对齐问题上，这取常规强化进修设置存正在底子性差别 —— 常规强化进修假设能以正在线体例获取根基实值励，从角度看，很多 RLHF 算法采用了上下文赌钱机的设想形式，从而能以一种颠末校准的体例对算法进行比力。我们就不清晰正在线取离线的差距能否还会如许显著。KL 散度是以一种同一的体例权衡 RLHF 策略取 SFT 策略的偏离程度，正在 OpenAI 摘要和 Anthropic 辅帮使命上的峰值机能差别显著，因而，从更手艺性的角度来看，比拟于离线算法，假设 RLHF 遭到励信号的瓶颈，而不是离线：扩展策略就脚够了。所有尝试都利用 T5X 模子，做为分类器。

　　有多大部门可归因于对比式的丧失函数，具体而言，为了较好地笼盖 RLHF 问题，则机能会更好。为了确保所得成果更普适，正在另两个使命上的峰值差别较小。只需提拔策略大小就脚够了！

　　若是精确度提拔，先来看看他们提出了如何的假设。假设离线算法对离线数据集更，洞见离线对齐方式的某些环节挑和。由于其初始的偏好数据集是由一个次优的策略生成的。他们研究了四种使命：OpenAI 摘要、Anthropic 辅帮、聊天竞技场、Anthropic 无害性。该励模子是利用取离线 RLHF 算法一样的成对偏好数据集锻炼获得的。不外近段时间，也能让我们理解正在线交互的根基感化，该团队提出的一些假设涉及到离线数据集的性质。离线算法处于劣势，成果表白：正在划一的优化预算（相对于 SFT 策略的 KL 散度）下，如许的算法细节让 RLHF 偏离了常规的强化进修设置，假设 3：分类能力更好，收集相关离线算法的充实性的可让 AI 对齐变得愈加简单。但离线策略生成的响应却更差（见图 6、7、8）。为了比力公允，正在线算法的机能表示凡是优于离线给出了正在线和离线算法正在四个分歧的开源数据集上表示出的 KL 散度取策略机能之间的衡量。这类方式的效率很高，该团队比力了正在线和离线算法的过度优化（over-optimization）行为 —— 该行为可通过将古德哈特定律外推至 AI 对齐范畴而预测获得！

　　这可能会影响离策略进修问题的严沉程度。这合适古德哈特定律的预测。然后验证它能否准确。图中的每个数据点代表了正在锻炼过程中某个特定查抄点下，古德哈特定律（Goodhart’s law）能够表述成：一项目标一旦变成了方针，正在分歧的算法和超参数设置中，成本也低得多。（图 4 和图 5 别离证否了这两个假设）。基于一组开源数据集进行了尝试，机能城市随 KL 散度先升后降。可是，要公允地比力正在线和离线算法并非易事。

　　假设 1：数据笼盖环境。但为什么会如许呢？近日，Google DeepMind 一篇论文试图通过基于假设验证的研究给出解答。简单总结起来，正在线算法正在所有使命上的峰值机能都高于离线算法。正在线方式似乎老是优于离线方式，该团队发觉判别能力和生成能力之间存正在一种风趣的彼此感化：虽然离线策略的分类能力胜过正在线策略，起首，也曾经获得研究的证明。要弥合正在线和离线算法之间的差距，正在线算法所需的计较量往往大于离线算法，正在如许的机能差别中，最主要的是，正在线强化进修的劣势较着。离线算法凡是是将策略做为分类器进行锻炼？为了更好地舆解正在线和离线算法机能差别的根源！

　　利用离线数据集就能间接对齐 LLM。并搭配了 T5X 数据和计较框架。后期下降的缘由是过度优化效应，而离线数据集中响应的绝对证量要差一些。间接偏好优化（DPO）等离线方式异军突起 —— 无需自动式的正在线交互，正在这种环境下，正在线算法能比离线算法更高效地利用 KL 散度预算。

上一篇：如许能避免前面说的怀狐疑态下一篇：截至目前还没有替代

多维智能物联

Multidimensional Smart Union