Training language models to follow instructions with human feedback

Abstract

本文介绍了一种通过人类反馈来调整语言模型以符合用户意图的方法。作者使用了监督学习和强化学习来微调GPT-3模型，得到了一个名为InstructGPT的模型。在人类评估中，InstructGPT模型的输出被认为比175B GPT-3更符合用户意图，且具有更高的真实性和更少的有害输出。作者认为，通过人类反馈微调语言模型是实现模型与人类意图对齐的一个有前途的方向。

1 Introduction

大型语言模型可以通过输入任务示例来执行自然语言处理任务，但它们常常表现出意外行为，如编造事实、生成有偏见或有毒的文本，或者不遵循用户指令。这是因为语言建模目标。

大型语言模型的目标与实际应用场景不一致，可能导致意外行为，因此需要避免这种情况。这对于被部署在数百个应用程序中的语言模型尤为重要。训练语言模型遵循用户意图，包括明确的指令和隐含的诚实、无偏见、无害等意图。语言模型应该是有帮助的、诚实的和无害的。在评估这些标准时需要详细说明。本文介绍了一种fine-tuning方法，使用强化学习从人类反馈中调整语言模型，以遵循广泛的书面指令。该技术使用人类偏好作为奖励信号来微调模型。作者雇用40名承包商标记数据，并使用人类编写的演示数据训练监督学习基线。然后，他们收集了人类标记的比较数据集，并使用PPO算法将监督学习基线微调以最大化奖励。最终，他们将模型命名为InstructGPT。我们通过让标注者评估模型在测试集上的输出质量来评估模型，测试集由未出现在训练数据中的客户提供的提示组成。我们还在一系列公共NLP数据集上进行自动评估。我们训练了三个模型。

研究使用GPT-3架构的三个模型，分别有1.3B、6B和175B个参数。研究发现，模型的大小与性能之间存在正相关关系。同时，模型的大小对于生成长文本和多样化输出有积极影响。在测试集上，标注员明显更喜欢InstructGPT模型的输出，即使与GPT-3相比，InstructGPT模型只有100倍以下的参数。InstructGPT模型在遵循指令方面表现更好，生成更合适的输出。 InstructGPT模型在真实性方面比GPT-3有所提高，特别是在TruthfulQAbenchmark上，InstructGPT的答案真实且信息丰富的频率是GPT-3的两倍。在API提示分布的“封闭领域”任务中，InstructGPT模型的臆想率是GPT-3的一半。 InstructGPT比GPT-3在毒性方面略有改善，但在偏见方面没有改进。使用RealToxicityPrompts数据集进行评估，InstructGPT生成的有害输出比GPT-3少约25％。在Winogender和CrowSPairs数据集上，InstructGPT与GPT-3相比没有显著改进。 RLHFfine-tuning过程中，我们发现在某些公共NLP数据集上，如SQuAD、DROP、HellaSwag和WMT 2015法英翻译中，与GPT-3相比存在性能回归。这是“对齐税”的一个例子，因为我们的对齐过程是以牺牲性能为代价的。

使用PPO算法进行预训练可以提高性能，但在某些任务上可能会出现性能下降。通过将PPO更新与增加预训练分布对数似然的更新混合使用，可以大大减少这些数据集上的性能回归，而不会影响标注者的偏好得分。该研究测试了模型对于未参与训练的标注者的泛化能力，并发现他们与训练标注者一样更喜欢InstructGPT的输出。但需要进一步研究这些模型在更广泛的用户群体和人类对于所需行为存在分歧的输入上的表现。研究发现，公共NLP数据集不能反映我们的语言模型的使用方式。与公共数据集相比，使用人类偏好数据fine-tune的InstructGPT表现更好，标注者也更喜欢它。 InstructGPT模型在超出RLHF微调分布的指令中表现出了良好的泛化能力，能够概括“遵循指令”的概念。与之相比，GPT-3需要更仔细的提示，并且通常不能在这些领域遵循指令。这个结果令人兴奋，因为它表明我们的模型能够在接收很少直接监督信号的任务上保持一定的对齐。 InstructGPT仍然会犯一些简单的错误，例如不遵循指令、编造事实、对简单问题给出长篇含糊的回答，或无法检测到带有虚假前提的指令。使用人类偏好来微调大型语言模型可以显著提高它们在各种任务上的表现，但仍需进一步努力提高它们的安全性和可靠性。

本文介绍了一个新的方法，用于将自然语言处理模型与API文档对齐。在方法和实验细节方面进行了详细说明，包括高级方法、任务和数据集细节、人类数据收集、模型训练和评估过程。结果分为三部分：API提示分布结果、公共NLP数据集结果和定性结果。最后讨论了该方法的意义、限制、开放问题和广泛影响。

2 Related work

该研究探讨了如何通过人类反馈来对模型进行对齐和学习，特别是强化学习从人类反馈中学习的方法。此前，该方法已经被应用于训练简单机器人和Atari游戏，并最近被用于微调语言模型以进行文本摘要。此外，还有许多类似的研究，如在对话、翻译、故事生成等领域使用人类反馈作为奖励来对齐代理。

本文介绍了一种基于强化学习的方法，用于训练语言模型在多种语言任务上的表现。该方法使用了一种规范化先验的技术，可以有效地提高模型的性能。最近，对于语言模型的对齐问题引起了人们的关注。Kenton等人列举了语言模型中的行为问题，包括产生有害内容和误导目标。同时，Askell等人提出了语言助手作为对齐研究的测试平台，并研究了一些简单的基线和它们的扩展性。本文介绍了训练语言模型遵循指令的方法，并与其他相关研究进行了比较。研究表明，在多个NLP任务上对语言模型进行微调，可以提高其在其他任务上的性能表现。这段文字讲述了关于指令跟随和导航的相关研究，其中模型被训练用自然语言指令在模拟环境中进行导航。语言模型存在多种风险和挑战，包括偏见、泄露私人数据、生成错误信息和恶意使用等。针对这些问题，需要建立评估标准和解决方案，但是干预语言模型的行为可能会产生副作用。在解决这些问题的过程中，需要平衡不同的需求和利益。本文介绍了几种改善语言模型生成行为的方法，包括微调、数据过滤、控制标记、数据增强、空间投影等。此外，还有一些使用第二个语言模型来引导生成的方法。这些方法可以减少语言模型生成的偏见和有害文本。

3 Methods and experimental details

3.1 High-level methodology

本文方法基于Ziegler等人（2019）和Stiennon等人（2020）的研究，使用预训练语言模型和人工标注数据，通过三个步骤生成与提示文本对齐的输出。

第一步：收集演示数据，训练有监督策略。使用标注者提供的演示数据，在输入提示分布上训练预训练的GPT-3模型，以有监督学习的方式微调模型。
第二步：收集比较数据，训练奖励模型。收集模型输出的比较数据集，标注者指出他们更喜欢哪个输出。
第三步：训练一个奖励模型来预测人类更喜欢的输出。使用PPO算法优化策略，以RM的输出作为奖励模型的标量奖励，对监督策略进行微调，以优化该奖励。
步骤2和3可以不断迭代；收集更多比较数据，用于训练新的RM和新的策略。实际上，我们大部分的比较数据来自于我们的监督策略，一些来自于我们的PPO策略。