1. 首页>>分享

LLM开发中如何自动筛选高质量数据?Meta、UC伯克利、NYU提出的RIP方法详解

在 LLM 的开发过程中,精心挑选高质量的训练示例是推动模型进步的主要动力。Scaling Law 虽能达成“力大砖飞”的效果,但仅仅增加数据量并无法确保模型性能的提升,关键在于数据的质量。低质量的数据有可能会引入噪声,从而对模型的训练效果产生影响。

那么,有哪些方法可以自动筛选出,甚至能够自动创建出高质量且兼具多样性的数据集呢?

最近,Meta 机构的学者提出了一种最新方法,简称 RIP。UC 伯克利和 NYU 等机构的学者也提出了这种方法。这种方法让低质量数据“一路走好”,同时也暗示着只有成功存活下来的数据才是高质量的数据。

_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

论文地址:

RIP 受到进化算法的启发,在 Alpacaeval2 基准上实现了大幅提升,在 Arena-Hard 基准上实现了大幅提升,在 Wildbench 基准上实现了大幅提升,并且获得了 LeCun 的转赞。

LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_

RIP方法概述

拒绝指令偏好(RIP)的基础是两个核心假设。

第一个假设为:低质量 prompt 很有可能产生低质量响应。也就是说,那些意义不清晰、模糊或者包含冲突信息的提示词,极有可能引发嘈杂或不准确的模型响应。并且这些提示词不应作为后续用于指令微调(SFT)的训练数据。

假设二是,低质量的 prompt 很有可能会催生出具有更大差异的响应。

低质量 prompt 会带来不确定性和模糊性,可能有多种解释。所以 LLM 可能会去猜测或者填补提示词中的空白,这使得多次响应之间的差异更大。虽然有些响应可能与 prompt 的原始意图相符,但有些响应可能会明显偏离。

从这一点逆向思考,我们能把模型多次响应的方差当作评估提示词质量的指标。方差若越小,就表明提示词的质量更高。

基于上述两个假设,RIP 方法能够测量被拒绝的响应质量,也就是下图 m_1 所表示的部分。同时,也能够测量被选择和被拒绝的响应之间的奖励差距,即 reward gap,也就是下图 m_3 所表示的部分。通过这样的方式,就可以评估数据的完整性。

LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_

上图中定义的3个关键指标分别有如下含义:

m_1:被拒绝响应的的质量。

被拒绝响应的长度是一个方面,较长的被拒绝响应意味着提示可能更复杂,也可能更模糊。

被选择的响应与被拒绝的响应之间的奖励差距,这个差距如果较小的话,就可能意味着提示更加清晰且更具体。

这种方法之下,RIP能够用来筛选以及构建高质量的数据集。有一组提示词 X ,其中包含 x 。RIP的目的是找到 X 的一个子集 S ,且 S 能够用于对大模型ℳ进行微调。

RIP 就好像搭建了一个优胜劣汰的提示词斗兽场,提示词所对应的响应情况要么是获胜(被选择),要么是失败(被拒绝)。提示词的响应及其相应的奖励,既可以来源于人类偏好数据,也可以由模型本身ℳ生成出来,之后再用其他大模型来进行评分。

除了过滤现有训练集,RIP也可以用于构建高质量合成数据集。

在生成合成数据时,第一步是筛选出一组质量高的提示,将其作为种子池。接着,利用这些种子提示词当作少量样本,从而引导模型生成新的提示词。

这些新生成的提示词能够进一步借助 RIP 来展开筛选操作。这样做的目的是保证合成数据具备良好的质量。而这种采用的方法被称作 Self-RIP。

实验结果与分析

RIP 在多个实验里都获得了明显的性能提升。尤其在由人类编写的提示方面,展现出了突出的优势。

在 WildChat 数据集中,其包含的人工编写提示词数量超过 25 万条。通过 Llama 3.1 - 405B - Instruct 来评估响应的质量。对于每个回答,要进行 10 次独立评估。每次评估给出 0 到 10 分的评分。最后使用平均分作为最终奖励。

如下表呈现的那样,RIP 仅需不足一半的训练样本,便能够在诸多指标上达成显著的提升。

LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_

使用 RIP 把高质量的提示词筛选出来之后,RIP 让 Llama3.1-8B-Instruct DPO 基线的性能有了显著提升。

RIP 在参数更大的模型上是有效的。过滤使 Llama 3.3 - 70B - Instruct 模型的性能得到提升,其中 AlpacaEval2 LC 的胜率从 38.9 提升到了 67.7,Arena Hard 从 67.5 提升到了 82.9,WildBench 从 52.8 提升到了 58.8。

_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

这些结果显示,RIP 有能力将高质量的提示筛选出来,进而使模型的性能得到提升。

基于少样本生成且不进行后过滤,按照 Self-RIP 方法,能够得到 20k 大小的数据集。此数据集可使模型在 AlpacaEval2 上的 LC 胜率从 48.4%提升至 53.6%,在 Arena-Hard 上的胜率从 37.9%提升至 43.7%,在 WildBench 上的 WB-Score 从 41.5 提升至 44.8。这进一步说明了在高质量指令上训练的重要性。

_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

当应用完整的 Self-RIP 方法时,并且使用了后过滤。此时训练效果得到了进一步的改善,并且实现了最佳的 AlpacaEval2 LC 胜率为 60.2%。

RIP在和其他筛选方法进行比较时表现得很出色。相较于基于提示的筛选方法,像 InsTag Diversity/Difficulty Filtering 这类,RIP 在所有的基准测试里都获得了更高的分数。

此外,相比基于提示和选择响应的筛选方法,如PPL和IFD,RIP的性能更好。这些结果显示,RIP在筛选提示时会考虑更多因素,所以能够更精准地评估提示的质量。

_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%_LeCun力荐!进化算法淘汰77%低质数据:RIP方法让模型性能狂飙60%

图 1 展示了在不同训练数据大小的情况下,使用 RIP 以及 self-RIP 之后,模型训练效果所得到的提升。

模型的性能有了显著提升。

未来的研究可在这基础上展开进一步探索与改进。其一,可以研究怎样优化评估模型,提升其对响应质量评估的准确性;其二,可以探索怎样降低 RIP 方法的计算成本,让其更适宜大规模数据的处理;其三,可以研究开展安全性评估,探索利用 RIP 进行安全性过滤,在现有系统中构建专门用于安全性的奖励模型。

参考资料:

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274555.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息