LLM开发中如何自动筛选高质量数据？Meta、UC伯克利、NYU提出的RIP方法详解-模具钢网

在 LLM 的开发过程中，精心挑选高质量的训练示例是推动模型进步的主要动力。Scaling Law 虽能达成“力大砖飞”的效果，但仅仅增加数据量并无法确保模型性能的提升，关键在于数据的质量。低质量的数据有可能会引入噪声，从而对模型的训练效果产生影响。

那么，有哪些方法可以自动筛选出，甚至能够自动创建出高质量且兼具多样性的数据集呢？

最近，Meta 机构的学者提出了一种最新方法，简称 RIP。UC 伯克利和 NYU 等机构的学者也提出了这种方法。这种方法让低质量数据“一路走好”，同时也暗示着只有成功存活下来的数据才是高质量的数据。

_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%

论文地址：

RIP 受到进化算法的启发，在 Alpacaeval2 基准上实现了大幅提升，在 Arena-Hard 基准上实现了大幅提升，在 Wildbench 基准上实现了大幅提升，并且获得了 LeCun 的转赞。

LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_

RIP方法概述

拒绝指令偏好（RIP）的基础是两个核心假设。

第一个假设为：低质量 prompt 很有可能产生低质量响应。也就是说，那些意义不清晰、模糊或者包含冲突信息的提示词，极有可能引发嘈杂或不准确的模型响应。并且这些提示词不应作为后续用于指令微调（SFT）的训练数据。

假设二是，低质量的 prompt 很有可能会催生出具有更大差异的响应。

低质量 prompt 会带来不确定性和模糊性，可能有多种解释。所以 LLM 可能会去猜测或者填补提示词中的空白，这使得多次响应之间的差异更大。虽然有些响应可能与 prompt 的原始意图相符，但有些响应可能会明显偏离。

从这一点逆向思考，我们能把模型多次响应的方差当作评估提示词质量的指标。方差若越小，就表明提示词的质量更高。

基于上述两个假设，RIP 方法能够测量被拒绝的响应质量，也就是下图 m_1 所表示的部分。同时，也能够测量被选择和被拒绝的响应之间的奖励差距，即 reward gap，也就是下图 m_3 所表示的部分。通过这样的方式，就可以评估数据的完整性。

LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_

上图中定义的3个关键指标分别有如下含义：

m_1：被拒绝响应的的质量。

被拒绝响应的长度是一个方面，较长的被拒绝响应意味着提示可能更复杂，也可能更模糊。

被选择的响应与被拒绝的响应之间的奖励差距，这个差距如果较小的话，就可能意味着提示更加清晰且更具体。

这种方法之下，RIP能够用来筛选以及构建高质量的数据集。有一组提示词 X ，其中包含 x 。RIP的目的是找到 X 的一个子集 S ，且 S 能够用于对大模型ℳ进行微调。

RIP 就好像搭建了一个优胜劣汰的提示词斗兽场，提示词所对应的响应情况要么是获胜（被选择），要么是失败（被拒绝）。提示词的响应及其相应的奖励，既可以来源于人类偏好数据，也可以由模型本身ℳ生成出来，之后再用其他大模型来进行评分。

除了过滤现有训练集，RIP也可以用于构建高质量合成数据集。

在生成合成数据时，第一步是筛选出一组质量高的提示，将其作为种子池。接着，利用这些种子提示词当作少量样本，从而引导模型生成新的提示词。

这些新生成的提示词能够进一步借助 RIP 来展开筛选操作。这样做的目的是保证合成数据具备良好的质量。而这种采用的方法被称作 Self-RIP。

实验结果与分析

RIP 在多个实验里都获得了明显的性能提升。尤其在由人类编写的提示方面，展现出了突出的优势。

在 WildChat 数据集中，其包含的人工编写提示词数量超过 25 万条。通过 Llama 3.1 - 405B - Instruct 来评估响应的质量。对于每个回答，要进行 10 次独立评估。每次评估给出 0 到 10 分的评分。最后使用平均分作为最终奖励。

如下表呈现的那样，RIP 仅需不足一半的训练样本，便能够在诸多指标上达成显著的提升。

LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_

使用 RIP 把高质量的提示词筛选出来之后，RIP 让 Llama3.1-8B-Instruct DPO 基线的性能有了显著提升。

RIP 在参数更大的模型上是有效的。过滤使 Llama 3.3 - 70B - Instruct 模型的性能得到提升，其中 AlpacaEval2 LC 的胜率从 38.9 提升到了 67.7，Arena Hard 从 67.5 提升到了 82.9，WildBench 从 52.8 提升到了 58.8。

_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%

这些结果显示，RIP 有能力将高质量的提示筛选出来，进而使模型的性能得到提升。

基于少样本生成且不进行后过滤，按照 Self-RIP 方法，能够得到 20k 大小的数据集。此数据集可使模型在 AlpacaEval2 上的 LC 胜率从 48.4%提升至 53.6%，在 Arena-Hard 上的胜率从 37.9%提升至 43.7%，在 WildBench 上的 WB-Score 从 41.5 提升至 44.8。这进一步说明了在高质量指令上训练的重要性。

_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%

当应用完整的 Self-RIP 方法时，并且使用了后过滤。此时训练效果得到了进一步的改善，并且实现了最佳的 AlpacaEval2 LC 胜率为 60.2%。

RIP在和其他筛选方法进行比较时表现得很出色。相较于基于提示的筛选方法，像 InsTag Diversity/Difficulty Filtering 这类，RIP 在所有的基准测试里都获得了更高的分数。

此外，相比基于提示和选择响应的筛选方法，如PPL和IFD，RIP的性能更好。这些结果显示，RIP在筛选提示时会考虑更多因素，所以能够更精准地评估提示的质量。

_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%_LeCun力荐！进化算法淘汰77%低质数据：RIP方法让模型性能狂飙60%

图 1 展示了在不同训练数据大小的情况下，使用 RIP 以及 self-RIP 之后，模型训练效果所得到的提升。

模型的性能有了显著提升。

未来的研究可在这基础上展开进一步探索与改进。其一，可以研究怎样优化评估模型，提升其对响应质量评估的准确性；其二，可以探索怎样降低 RIP 方法的计算成本，让其更适宜大规模数据的处理；其三，可以研究开展安全性评估，探索利用 RIP 进行安全性过滤，在现有系统中构建专门用于安全性的奖励模型。

参考资料：

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274555.html

LLM开发中如何自动筛选高质量数据？Meta、UC伯克利、NYU提出的RIP方法详解

相关推荐

联系我们