茉莉花新闻网

中華青年思想與行動的聚合地

国内有类似ChatGPT能力的模型吗?

HeptaAI的回答

国内有类似ChatGPT能力的模型吗?

泻药。ChatGPT是纯生成式对话模型,国内目前还少有类似的研究出现。第一,创新缺乏动力(Funding给不足,虽然ChatGPT最终的结果很惊艳,但是它的兄弟模型InstructGPT的出发点是减少模型偏见,这种研究国内给的支持很少);第二,公司割裂严重(公司各干各的,想要从头搭,例如百度文心大模型没法从别的大公司处得到支持,但是OpenAI的InstructGPT收到了来自DeepMind等知名公司的大力支持甚至直接介入)。高校是不可能做出这样的模型的,根本没钱做标注。因此国内做传统对话模型更多,是通过模块化的方式实现的。

以下为技术分析正文:


学术圈、工业圈和朋友圈都被ChatGPT刷爆了,在铺天盖地的评价中我们还是来做一下对于模型架构的分析,看看OpenAI又是如何创造这一个神话的。这里我搬运一下InstructGPT(ChatGPT的兄弟模型,目前可以看成学习ChatGPT的最宝贵资源)的一些基础。本系列包括三篇文章,每一篇会投不同的问题。本文是引入性质的,主要搬运了InstructGPT和RLHF的博客内容。

ChatGPT全家桶阅读指南

对InstructGPT的大致了解:InstructGPT博客+RLHF博客(本文)

对InstructGPT的深度理解:InstructGPT博客+RLHF博客+论文(更新后会上链接)

对InstructGPT的系统学习:InstructGPT博客+RLHF博客+论文+系统性概括(更新后会上链接)

InstructGPT博客:对齐语言模型以遵循指令

英文博客传送门

摘要

我们训练的语言模型比 GPT-3 更善于遵循用户意图,同时使用通过我们的对齐研究开发的技术使它们更真实、毒性更小。 这些 InstructGPT 模型是在循环中与人类一起训练的,现在作为默认语言模型部署在我们的 API 上。

简介

OpenAI GPT-3 可以使用精心设计的文本提示执行自然语言任务。 但这些模型也可能产生不真实、有毒或反映有害情绪的输出。 这部分是因为 GPT-3 被训练来预测大型互联网文本数据集上的下一个单词,而不是安全地执行用户想要的语言任务。 换句话说,这些模型与他们的用户不一致。

为了使我们的模型更安全、更有帮助和更一致,我们使用了一种称为基于人类反馈的强化学习 (RLHF) 的现有技术。 在我们的客户向 API 提交的提示中,[1] 我们仅使用通过 Playground 提交给 2021 年 1 月部署的早期版本 InstructGPT 模型的提示。我们的人工注释者会从所有提示中删除个人身份信息,然后再将其添加到训练集。

我们的标签提供所需模型行为的演示,并对我们模型的几个输出进行排名。 然后我们使用这些数据来微调 GPT-3。

由此产生的 InstructGPT 模型比 GPT-3 更擅长遵循指令。 他们也不太经常编造事实,并且在有毒输出产生方面表现出小幅下降。 尽管参数少了 100 多倍,但我们的标签制作者更喜欢 1.3B InstructGPT 模型的输出而不是 175B GPT-3 模型的输出。 同时,我们表明我们不必在 GPT-3 的能力上做出妥协,正如我们的模型在学术 NLP 评估中的表现所衡量的那样。

这些 InstructGPT 模型已经在 API 上测试了一年多,现在是我们 API 上可访问的默认语言模型。 [2] API 中部署的 InstructGPT 模型是使用相同的人工反馈数据训练的更新版本。 他们使用我们将在即将出版的出版物中描述的类似但略有不同的培训方法。

我们相信,在循环中对人类进行微调的语言模型是提高其安全性和可靠性的有力工具,我们将继续朝着这个方向努力。

这是我们多年来一直追求的对齐研究,首次应用于我们的产品。 我们的工作还与最近的研究有关,该研究微调语言模型以遵循使用学术 NLP 数据集的指令,特别是 FLAN 和 T0. 我们工作的一个关键动机是增加有用性和真实性,同时减轻语言模型的危害和偏见。 我们之前在这个方向的一些研究发现,我们可以通过微调人类示范的小型精选数据集来减少有害输出。其他研究侧重于过滤预训练数据集,安全特定控制令牌,或指导模型生成。我们正在我们正在进行的对齐研究中探索这些想法和其他想法。

实验结果

我们首先评估 InstructGPT 的输出遵循用户指令的程度,方法是让标记者将其输出与 GPT-3 的输出进行比较。 我们发现 InstructGPT 模型在提交给 API 上的 InstructGPT 和 GPT-3 模型的提示中明显更受欢迎。 当我们为 GPT-3 提示符添加前缀以使其进入“指令跟随模式”时,这也是正确的。

针对各种模型尺寸(x 轴)的模型输出质量评级,根据我们 API 上提交给 InstructGPT 模型的提示。 InstructGPT 输出被我们的标注者给出的分数比 GPT-3 的输出高得多,有几个提示和没有提示,以及通过监督学习微调的模型。 我们发现在 API 上提交给 GPT-3 模型的提示有类似的结果。

为了衡量我们模型的安全性,我们主要在公开可用的数据集上使用一套现有指标。 与 GPT-3 相比,InstructGPT 产生的模仿性错误更少(根据 TruthfulQA)并且毒性更小(根据 RealToxicityPrompts)。 我们还对我们的 API 提示分布进行了人工评估,发现 InstructGPT 更少地编造事实(“幻觉”),并生成更合适的输出。

v2 b7a7ec3644680468eb79ab751bdb6b3c 1440w
评估 InstructGPT 的毒性、真实性和适用性。 较低的分数对毒性和幻觉更好,而较高的分数对 TruthfulQA 和适当性更好。 幻觉和适当性是根据我们的 API 提示分布来衡量的。 结果跨模型大小组合。

最后,我们发现 InstructGPT 输出优于我们客户分发版中的 FLAN 和 T0。 这表明用于训练 FLAN 和 T0 的数据(主要是学术 NLP 任务)并不能完全代表已部署的语言模型在实践中的使用情况。

方法

下面这张图是全文精髓,希望仔细阅读(在paper的翻译中会有更详细的导读):

v2 e2460e80678573b96b91497daf6965b8 1440w
说明我们方法的三个步骤的图表:(1) 监督微调 (SFT),(2) 奖励模型 (RM) 训练,以及 (3) 通过近端策略优化 (PPO) 对该奖励模型进行强化学习。 蓝色箭头表示此数据用于训练我们的模型之一。 在第 2 步中,方框 A-D 是来自我们的模型的样本,这些样本由标注者进行排序。

为了训练 InstructGPT 模型,我们的核心技术是从人类反馈中强化学习 (RLHF),这是我们在早期对齐研究中帮助开创的一种方法。 这种技术使用人类偏好作为奖励信号来微调我们的模型,这很重要,因为我们旨在解决的安全和对齐问题是复杂且主观的,并且无法通过简单的自动指标完全捕获。

我们首先收集关于提交给我们 API 的提示的人工编写演示数据集,并使用它来训练我们的监督学习基线。 接下来,我们收集了一个数据集,该数据集包含两个模型输出在更大的 API 提示集上的人工标记比较。 然后我们在这个数据集上训练一个奖励模型 (RM) 来预测我们的标签者更喜欢哪个输出。 最后,我们使用此 RM 作为奖励函数并微调我们的 GPT-3 策略以使用 PPO 算法最大化此奖励。

对这一过程的一种思考方式是,它 "解锁 "了GPT-3已经具备的能力,但仅通过提示工程难以激发:这是因为我们的训练程序相对于预训练期间学到的东西,教给模型新能力的能力有限,因为相对于模型预训练,它使用的计算和数据不到2%。

这种方法的局限性在于它引入了“对齐税”:仅在客户任务上对齐模型可能会使它们在其他一些学术 NLP 任务上的表现更差。 这是不可取的,因为如果我们的对齐技术使模型在人们关心的任务上变得更糟,那么它们就不太可能在实践中被采用。 我们发现了一个简单的算法更改,可以最大限度地减少这种对齐税:在 RL 微调期间,我们混合了一小部分用于训练 GPT-3 的原始数据,并使用正常对数似然最大化对这些数据进行训练。 这大致保持了安全性和人类偏好方面的表现,同时减轻了学术任务上的表现下降,在某些情况下甚至超过了 GPT-3 基线。

泛化的设置

我们的程序使我们的模型行为与我们的标签人员和我们的研究人员的偏好相一致,前者直接产生用于训练我们的模型的数据,后者则通过书面说明、对具体例子的直接反馈和非正式对话向标签人员提供指导。它也受到我们的客户和我们的API政策中隐含的偏好的影响。我们选择了那些在识别和回应敏感提示的能力的筛选测试中表现良好的标签人员。然而,这些对数据的不同影响来源并不能保证我们的模型与任何更广泛群体的偏好相一致。

我们进行了两个实验来调查这一点。首先,我们使用没有产生任何训练数据的被扣留的标签者来评估GPT-3和InstructGPT,发现这些标签者喜欢InstructGPT模型的输出的比率与我们的训练标签者差不多。第二,我们在来自我们的标签者的一个子集的数据上训练奖励模型,发现它们在预测不同子集的标签者的偏好方面有很好的概括性。这表明,我们的模型并没有完全过度适应我们的训练标签者的偏好。然而,还需要做更多的工作来研究这些模型在更广泛的用户群体中的表现,以及它们在人类对所需行为有分歧的输入中的表现。

局限性

尽管取得了重大进展,我们的InstructGPT模型还远未完全统一或完全安全;它们仍然产生有毒或有偏见的输出,编造事实,并在没有明确提示的情况下产生性和暴力内容。但是,机器学习系统的安全性不仅取决于底层模型的行为,而且还取决于这些模型的部署方式。为了支持我们的API的安全性,我们将继续在上线前审查潜在的应用程序,提供内容过滤器以检测不安全的完成,并监测滥用情况。

训练我们的模型以遵循用户指令的一个副产品是,如果被指示产生不安全的输出,它们可能会变得更容易被滥用。解决这个问题需要我们的模型拒绝某些指令;可靠地做到这一点是一个重要的开放性研究问题,我们很高兴能够解决这个问题。

此外,在许多情况下,向平均标签者的偏好看齐可能是不可取的。例如,当生成对少数民族群体影响过大的文本时,该群体的偏好应该得到更多的重视。现在,InstructGPT被训练成遵循英语指令;因此,它偏向于讲英语的人的文化价值观。我们正在进行研究,了解贴标者偏好的差异和分歧,这样我们就可以根据更多特定人群的价值观来调整我们的模型。更广泛地说,使模型输出与特定人类的价值观相一致,会带来具有社会影响的困难选择,最终我们必须建立负责任的、包容性的程序来做出这些决定。

接下来的步骤

这是我们对准研究在我们产品上的第一次应用。我们的结果表明,这些技术能够有效地大幅提高通用人工智能系统与人类意图的一致性。然而,这仅仅是个开始:我们将继续推动这些技术,以改善我们当前和未来的模型的一致性,使其成为对人类安全和有帮助的语言工具。

RLHF博客:从人类偏好中学习

英文博客传送门

摘要

构建安全 AI 系统的一个步骤是消除人类编写目标函数的需要,因为对复杂目标使用简单代理,或者将复杂目标弄错一点,可能会导致不良甚至危险的行为。 通过与 DeepMind 的安全团队合作,我们开发了一种算法,可以通过告知两种提议的行为中哪一种更好来推断人类的需求。

简介

我们提出了一种学习算法,该算法使用少量人类反馈来解决现代 RL 环境。 之前已经探索过具有人类反馈的机器学习系统,但我们已经扩大了该方法的规模,使其能够处理更复杂的任务。 我们的算法需要来自人类评估者的 900 位反馈来学习后空翻——一项看似简单的任务,判断起来很简单,但具体说明却很困难。

v2 c7bd45249e77a8b5f192e006ef36621d 720w
我们的算法使用来自人类评估者的大约 900 个反馈学会了后空翻。

整个训练过程是人类、智能体对目标的理解和 RL 训练之间的 3 步反馈循环。

v2 f5355a3f2747e7363cca80fc1bc4c79e 1440w

我们的 AI 代理首先在环境中随机行动。 定期将其行为的两个视频片段提供给人类,人类决定两个片段中的哪一个最接近实现其目标——在本例中为后空翻。 人工智能通过找到最能解释人类判断的奖励函数,逐步建立任务目标模型。 然后它使用 RL 来学习如何实现该目标。 随着其行为的改进,它会继续询问人类对轨迹对的反馈,其中它最不确定哪个更好,并进一步完善其对目标的理解。

我们的方法展示了有前途的样本效率——如前所述,后空翻视频需要不到 1000 位的人类反馈。 它花费了人类评估者不到一个小时的时间,而在后台,政策积累了大约 70 小时的整体经验(模拟速度比实时速度快得多)。我们将继续努力减少人类需要供给的反馈量。

我们已经在模拟机器人和 Atari 领域的许多任务上测试了我们的方法(没有获得奖励函数的访问权限:所以在 Atari 中,没有访问游戏分数)。 我们的代理可以从人类反馈中学习,以在我们测试的许多环境中实现强大的,有时甚至是超人的表现。 在下面的动画中,您可以看到使用我们的技术训练的智能体玩各种 Atari 游戏。 每个框架右侧的水平条代表每个代理人对人类评估员对其当前行为的认可程度的预测。 这些可视化表明,经过人类反馈训练的代理人在 Seaquest(左)中学会了评估氧气的价值,在 Breakout 和 Pong(中)中预测奖励,或者在 Enduro(右)中学习如何从崩溃中恢复。

v2 28d851da95744108492d64dcb888b15a 1440w

请注意,反馈不需要与环境的正常奖励函数保持一致:例如,我们可以训练我们的代理在 Enduro 中精确地与其他汽车保持平衡,而不是通过超过它们来最大化游戏分数。 有时我们还发现,从反馈中学习比使用正常奖励函数的强化学习效果更好,因为人类比编写环境奖励的人更好地塑造奖励。

挑战

我们算法的性能仅与人类评估者关于哪些行为看起来正确的直觉一样好,因此如果人类没有很好地掌握任务,他们可能不会提供那么多有用的反馈。 相关地,在某些领域,我们的系统可能会导致代理采用欺骗评估者的策略。 例如,一个本应抓取物品的机器人将其操纵器置于相机和物体之间,使其看起来只是在抓取物体,如下所示。

v2 9fbfa6e4fc5935ea334f25f6f8135fe0 720w

我们通过添加视觉提示(上面动画中的粗白线)来解决这个特殊问题,使人类评估者更容易估计深度。

这篇文章中描述的研究是与 DeepMind 的 Jan Leike、Miljan Martic 和 Shane Legg 合作完成的。 我们的两个组织计划继续就涉及长期 AI 安全的主题进行合作。 我们认为像这样的技术是朝着能够学习以人为中心的目标的安全人工智能系统迈出的一步,并且可以补充和扩展现有的方法,如强化和模仿学习。 这篇文章代表了 OpenAI 安全团队所做的工作; 如果您有兴趣解决此类问题,请加入我们!

相比之下,我们花了两个小时来编写自己的奖励函数来让机器人后空翻,虽然它成功了,但它比仅通过人类反馈训练的那个要笨拙得多。 我们认为,在许多情况下,人类反馈可以让我们比手动制定目标更直观、更快速地指定特定目标。

同类信息

查看全部

茉莉花论坛作为一个开放社区,允许您发表任何符合社区规定的文章和评论。

茉莉花新闻网

        中国茉莉花革命网始创于2011年2月20日,受阿拉伯之春的感召,大家共同组织、发起了中国茉莉花革命。后由数名义工无偿坚持至今,并发展成为广受翻墙网民欢迎的新闻聚合网站并提供论坛服务。

新闻汇总

邮件订阅

输入您的邮件地址:

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram