不用RLHF，匹敌GPT-4，Meta发布LIMA65B，1000个样本

来源：IT之家时间：2023-05-26 10:28 阅读量：5207

RLHF 并没有那么重要！Meta 最新 650 亿参数模型 LIMA，仅用 1000 个样本，实现与 GPT-4 相匹敌的性能。

人人都知，让 ChatGPT 称霸天下的秘密武器，就是人类反馈强化学习。

而现在，Meta AI 等机构的爆火研究 LIMA 直接打破这一规则，直言 RLHF 并没有那么重要！

论文一出，直接在 AI 圈炸了锅！

就连 LeCun 忍不住发推炫一番:LIMA:LLaMa-65B+1000 监督样本 = GPT-4 / Bard 级别的性能。

正如标题所称，LIMA 是「Less is More for Alignment」，暗示着一个强大的预训练 AI 模型，通过几个样本就足以实现高质量的结果。

而 LIMA 仅在 1000 个精心挑选的样本上微调 LLaMa-65B，而且无需 RLHF，就实现了与 GPT-4 和 Bard 相媲美的性能。

论文中，研究人员将这一突破称为「表面对齐假设」。

实验证明了，大语言模型在预训练阶段就已习得大部分知识，仅用有限的指令微调数据，足以教会模型产生高质量的内容。

高质量的数据就可以克服小样本量？训练这样模型的成本是多少，这是否意味着小型 LLM 玩家可以与 OpenAI / 谷歌竞争？

还有网友质疑，GPT-4 在 57% 情况中击败 LIMA，还能说性能相当？

RLHF 并非王者？

大语言模型经过预训练，能在大规模上预测下一个 token，让其学习通用表征。这些表征可以转移到几乎任何语言理解或生成任务中。

为了实现这种转移，人们已经提出各种「对齐」语言模型的方法，主要侧重在百万级 token 上进行指令调优。

而最近采用较多的是，从人类反馈中进行强化学习。这些反馈便是在与人类标注者进行数百万次互动中收集的。

ChatGPT 令人深刻的表现，主要归功于 RLHF。根据 OpenAI 的思路，RLHF 分为三步。

然而，现有的对齐方法代价是高昂的，需要大量算力，以及专门的数据才能实现像 ChatGPT 一样的性能。

Meta AI 却要逆行其道，证明了，一个预训练语言模型可以通过简单地微调精心挑选的 1000 个样本，就能实现强大的性能。

在此，研究人员提出「表面对齐假设」，假设「对齐」可以是一个简单的过程，。

在这个过程中，模型的知识和能力几乎完全是在预训练期间学习的，而「对齐」只告诉模型学习与用户交互的风格或格式

为了验证这个假设，Meta 等研究者挑选了 1000 个近似于真实用户提示，以及高质量响应的样本。

此外，研究者手动编写了 250 个提示和响应的样本，同时对任务的多样性进行了优化。

最后，研究人员对预训练 LLaMa 65B 模型在 1000 个样本集上进行微调，并进行了人类评估。

评估结果

Meta 将 LIMA 与 5 个模型基准进行了比较:

Alpaca 65B—— 利用 52,000 个样本对 LLaMa 65B 微调后得到的大模型

DaVinci003—— 基于 RLHF 训练的大语言模型

Bard—— 基于谷歌的 PaLM 模型

Claude—— 通过强化学习 Constitutional AI 训练的 52B 参数模型

GPT-4—— 目前使用 RLHF 训练的最强的模型

为了比较 LIMA 和其他 SOTA 模型，Meta 为每个测试提示生成一个单一的响应。

然后，要求人类参与者将 LIMA 的输出与每个基准进行比较，并标记他们更喜欢哪一个。

在人类偏好研究中，尽管 Alpaca 65B 的训练数据量是 LIMA 的 52 倍，但它产生的输出往往比 LIMA 的不如人意。

让人大跌眼镜的是，DaVinci003 也是同样的情况，虽然程度较小。该模型使用了 RLHF 进行训练，这本应是一种更优越的对齐方法。

而 Bard 在 42% 的时间中，其产生的回答优于 LIMA。这也意味着，剩下的 58% 时间里，LIMA 的响应至少和 Bard 一样优秀。

最后，研究者发现，虽然 Claude 和 GPT-4 通常表现得比 LIMA 更好，但在一些情况下，LIMA 实际上能产生更好的回答。

另外，讽刺的是，在 GPT-4 的偏好研究中，有 19% 的时间，GPT-4 更喜欢 LIMA 的输出。

「表面对齐假设」

Meta 将这一发现定义为「表面对齐假设」。

它表明，所谓预训练后的对齐阶段，主要是让模型学会一种特定的风格或格式，这种风格或格式在与用户交互时可以被模型回忆起来。

因此，「微调」更多是关于风格，而不是实质。

LIMA 的结果表明，实际上，利用简单的方法就可以解决对齐和微调 AI 模型这类复杂问题。

这与诸如 OpenAI 的 RLHF 那些，特别繁琐和复杂的微调过程，形成了鲜明的对比。

不过，LIMA 也不是万能的。Meta 认为，该方法存在两个明显的局限:

第一，用高质量的示例构建数据集是一种非常具有挑战性的方法，很难扩展。

第二，LIMA 并不像已经有产品的模型那样强大，比如 GPT-4。

团队表示，虽然 LIMA 的生成结果，在大部分情况下质量都很高。但一个「对抗性的提示」或一个「不走运的样本」，依然会让模型产生不理想的答案。

Yann LeCun 对 GPT-4 和类似模型背后努力的相对贬值采取了务实的看法。

他将大型语言模型看作是近期的一个元素，至少在中期内不会「在没有重大变化」的情况下发挥作用。

以上，主要评估是根据最先进的模型对 LIMA 进行评估，但需要明确的是，其中一些模型实际上已经在训练期间使用了数百万真实用户的提示。

对此，研究人员通过手动分析 50 个随机示例来进行绝对的评估。

并将每个示例标记成 3 个类别:Fail，响应不符合提示符的要求；Pass，响应符合；Excellent，对提示提供了优秀的响应。

实验结果显示，50% 的 LIMA 回答被认为是优秀的，它能够遵循所有的 50 个分析提示中的 44 个。

如下，LIMA 针对育儿建议和生成食谱的示例进行的输出。

另外，一个仅在 1000 个样本上微调的模型在多轮对话中表现又如何？

在零样本上，LIMA 的响应出奇地连贯，并引用了前面对话的信息。在 10 次对话中，LIMA 有 3 次未能遵循提示。

为了提高对话能力，研究人员收集了 30 个多轮对话。其中 10 个是由作者手动编写，20 个来自 Stack Exchange，并根据助手风格进行编辑。

研究者使用组合的 1,030 个示例对预训练模型进行微调，得到一个新版本的 LIMA，并针对相同的提示进行了 10 次实时对话。

实验发现加入这 30 个示例后生成质量显著提升，优质响应比例从 45.2％提高到 76.1％！

LIMA 如何以「少」胜「多」

团队通过消融实验，研究了训练数据多样性、质量和数量的影响。

Meta 发现，为了对齐目的，提高输入多样性和输出质量有可测量的正面效应，而单独增加数量却没有。

实验设置

团队在各种数据集上微调了一个拥有 70 亿参数的 LLaMa 模型，并控制了相同的超参数。

团队对每个测试集提示抽取 5 个回应，并通过让 ChatGPT在 1-6 的 Likert 量表上评级回应的帮助性来评估回应质量。

多样性

为了测试提示多样性的影响，同时控制质量和数量，团队比较了在质量过滤后的 Stack Exchange 数据和 wikiHow 数据上的训练效果。

图 5 显示，更多样的 Stack Exchange 数据显著提升了模型的性能。

质量

为了测试响应质量的影响，团队从 Stack Exchange 抽取了 2000 个没有任何质量或风格过滤的示例，并比较了在这个数据集和过滤后的数据集上训练的模型。

图 5 显示，在过滤和未过滤的数据源上训练的模型之间存在着 0.5 点的差异。

数量

在众多机器学习设置中，都会采用增加示例数量的策略，来提升性能。

为了测试其影响，团队从 Stack Exchange 中抽取了呈指数增长的训练集。

但实际上，如图 6 所示，数据翻倍的训练集并未改善响应质量。

如此一来也暗示了，对齐的规模法则不必然只受数量影响，而更可能是在保持高质量响应的同时，提升提示的多样性。

作者介绍

Chunting Zhou 是 Meta AI 的一名研究科学家。

2022 年 5 月，她在卡内基梅隆大学语言技术研究所获得博士学位，在那里从事自然语言处理工作，导师是 Graham Neubig。Zhou 的主要研究兴趣在于自然语言处理和机器学习的交叉领域，并对开发对分布变化具有鲁棒性的方法感兴趣，目的是学习模型能够在各种群体中表现统一。

此外，Zhou 还研究生成模型，及其在自然语言处理任务中的应用。

参考资料:

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

关键词：