随机文章

openai 奥特曼GPT：OpenAI前对齐团队「遗作」：RLHF没有够用了！用GPT⑷训练GPT⑷ 这样也行？

2024-07-16 18:15:30 分类:科技派作者:axdmin 阅读:

在这个快速发展的互联网时代，每1天都有新的创新和突破出现。现在，就让我们聊1聊最近互联网界的1些热门话题，看看有哪些令人瞠目结舌的事情正在发生。

机器之心报道编辑：饼饼、山茶花用魔法打败魔法随着大模型在推理能力和行为表现上的没有断提升，ChatGPT 的错误变得越来越难以察觉为了解决这1问题，最近，OpenAI 基于 GPT⑷ 训练了1个专门找 bug 的新模型 ——CriticGPT。

它通过精准地分析 ChatGPT 的回答并提出建设性的批评，帮助人类训练师更准确地评估模型生成的代码，并识别其中的错误或潜在问题据介绍，在 CriticGPT 的辅助下，人们审查 ChatGPT 代码的准确率提高了 60%。

研究人员还发现，CriticGPT 在很多情况下比人类专家更擅长发现错误，它们甚至能在1些被认为是「完美无缺」的任务中找出问题，尽管这些任务大多数并没有是代码任务，对 CriticGPT 来说有点超纲有意思的是，OpenAI 发布的这篇论文中，赫然出现了 Jan Leike 的大名。

论文链接：https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf说到 Jan Leike，大家并没有陌生在 OpenAI，他曾共同领导了超级对齐团队，致力于开发 InstructGPT、ChatGPT 和 GPT⑷ 的对齐工作。

然而，1个多月前，OpenAI 联合创始人、首席科学家 Ilya Sutskever 宣告离职，几乎同时，Jan Leike 也撒手没有干了，后转投 Anthropic 麾下尽管 Jan Leike 离开时取「老店主」OpenAI 上演了1出撕逼大战，没有过，这次 CriticGPT 的发布，Jan Leike 仍为其站台，只是在 X 帖文的最后，Jan Leike 附上了 Anthropic 的招聘信息。

CriticGPT：专门给ChatGPT挑毛病的模型OpenAI 研究团队训练了1个名为 CriticGPT 的模型，它是基于 GPT⑷ 构建的，专门用于捕捉 ChatGPT 代码输出中的错误实验结果表明，在 CriticGPT 的辅助下，人们审查 ChatGPT 代码的准确率比没有辅助时提高了 60%。

目前，该团队正着手将类似 CriticGPT 的模型整合到他们的 RLHF 流程中，以便为训练师提供更为明确的 AI 支持这是朝着能够评估高级 AI 系统输出迈出的重要1步，没有更好的工具，人们很难对这些输出进行评级。

随着模型在推理能力和行为表现上的没有断提升，ChatGPT 的错误变得越来越难以察觉，这给 AI 训练师在发现没有准确的答案时带来了挑战，使得驱动 RLHF 的比较任务变得更加艰巨这是 RLHF 的1个根本性限制，随着模型逐渐超越任何提供反馈的人类知识水平，这1局限可能会使得模型的校准变得更加困难。

为了应对这1挑战，OpenAI 研究团队训练了 CriticGPT，它能撰写批判性评论，专门指出 ChatGPT 回答中的没有准确的地方。

当然，CriticGPT 提供的建议并没有总是正确的，但研究团队发现，它能帮助训练师发现模型写出的答案中的很多问题，这些是他们没有人工智能辅助时发现没有了的此外，当人们使用 CriticGPT 时，这小我工智能增强了他们的技能，使得他们提出的批评比单独工作时更全面，而且比模型单独工作时产生的幻觉错误要少。

在他们的实验中，另1名随机选取的训练师在超过 60% 的情况下，更倾向于选择人类取 CriticGPT 团队提供的批评，而没有是未经辅助的小我所提供的

图注：CriticGPT 帮助训练师写出比他们独立工作时更全面的批评意见，同时产生的幻觉错误比模型单独工作时的批评意见要少方法用 LLM 来评价 LLM 采用了类似于 InstructGPT 和 ChatGPT 的自回归 Transformer 策略。

在训练时，研究人员将「问题 - 答案」对作为输入模型输出的批评将遵循特定格式，在答案中穿插附加评论

评价评价标准对于有 bug 的代码，LLM 可能做出多种类型的批评例如，1种正确地指出了代码中的宽重错误，但这个批评中也包含1个错误的断言；另1种只指出了两个次要的问题收到这两种批评：有1部分没有正确，但可能更有用；另1种未能指出宽重问题，但没有明显错误。

哪种来自 LLM 的批评更有效呢？为了解决这个问题，研究团队设置了以下标准请人工训练师做了进1步评价：是否全面，即没有遗漏任何明显和宽重的问题（全面性）是否捕捉到了名为「critique-bug inclusion」（CBI）的预先指定的特定错误。

是否包含任何臆想的错误或特别吹毛求疵的小问题根据回答的风格和有用程度，给 LLM 的批评1个整体的主观评分人工训练师将根据 1⑺ 的等级评价这些来自 LLM 的批评前两个特征（CBI 和全面性）类似于召回率 —— 模型撰写了包括多个错误点的长篇批评，通常评分会提高。

然而，批评变长时更可能包含臆想的问题和吹毛求疵训练师在总体评分时倾向于给准确、全面、简洁且避免吹毛求疵的批评以高分比较批评取 Elo 评分

人类批评取 LLM 辅助除了打分外，人工训练师还需审查答案并撰写自己的批评他们和训练 ChatGPT 的是同1批人，Python 经验的中位数是五年在评价过程中，人工训练师还可以获得 CriticGPT 的帮助，他们将在评价时看到预先填好的来自 LLM 的批评，但是来自 LLM 的建议被训练师拒绝很常见，添加额外评论虽然较少见但也会发生。

评估数据分布该论文几乎所有的训练和评估输入都来自 OpenAI 的 RLHF 管线它们由（问题，答案）对组成研究人员通过启发式方法对模型用代码回答的情况进行了降采样：如果模型的回答中至少有 50% 的行数是 Python 代码，就选择该样本。

此数据流包含两种已知错误的数据集：人为插入错误：人工训练师将「篡改」部分回答，在其中插入错误，并保留1个子集进行评估人为检测错误：来自 ChatGPT 标签管线的1组被原始评估者给出低分并存在明显问题的编程任务。

这两个分布具有没有同的特征：人为检测错误更「自然」，但通常更容易被人类发现相比之下，人为插入错误更难被人类发现，平均来说更宽重，但没有属于模型错误的自然分布在这两种设置下对来自 LLM 的批评进行评分时，人工训练师会将原始错误描述（插入或首次检测时撰写）作为背景提供给模型。

在实验中，论文作者研究了 CriticGPT 能否捕捉到插入的错误以及之前训练师发现的 ChatGPT 中「自然发生」的错误他们发现，在 63% 的情况下，训练师更倾向于 CriticGPT 的批评而非 ChatGPT 的批评，部分原因是新的 CriticGPT 产生的「吹毛求疵」（小且无用的抱怨）较少，并且较少出现虚构的问题。

使用 RLHF 训练 CriticGPT他们采取了和 ChatGPT 类似的 RLHF 管线来训练 CriticGPT步骤 0：篡改人工训练师将编辑模型生成的答案，引入细微的错误，并特别标注「篡改」是对抗性收集的：在访问生成批评的 LLM 时，他们将在每3次样本中有意漏掉他们「篡改」的错误，使研究团队和 CriticGPT 都更难发现这些错误。

之所以采取「篡改」这种方法，是因为论文作者想为没有真实奖励函数的长篇和开放式任务找到1种方法，可以简单地在未修改的答案上训练批评模型「篡改」的优势在于它提供了高质量、难度大的参考错误，1方面人工训练师更容易区分 LLM 是否抓住了回答中的问题，巩固排名任务，另1方面，能确保确保大部分数据是在取 LLM 分布相似的有错误代码上收集的，而没有是来自现有的错误数据集。

步骤 1：为数据集中每个（问题，答案）对抽取多个批评步骤 2：人工训练师对抽取的批评的属性进行整体上的评分他们将对3个 LLM 批评和1个「黄金批评」进行排名「黄金批评」是根据「篡改」任务中提供的错误描述形成的。

论文作者发现未修改输入的批评的对比评分结果在标注者间的1致性较低，并导致 CriticGPT 的表现较差步骤 3：训练1个奖励模型来预测人类的整体质量排名论文作者发现，通过在测试时对批评奖励模型进行额外搜索，可以生成更长、更全面的批评。

此搜索过程允许研究人员在代码中查找问题的积极性长进行平衡，并在幻觉和检测到的错误数量之间配置精度 - 召回权衡这意味着 CriticGPT 可以生成对 RLHF 尽可能有帮助的批评步骤 4：使用 PPO 优化策略对抗奖励模型。

由于 CriticGPT 是是 GPT⑷ 家族的 Transformer 语言模型，经过预训练以进行下1个词的预测，方法参考 GPT⑷ 的技术报告技术报告：https://cdn.openai.com/papers/gpt⑷.pdf

步骤 5：应用1种称为强制采样束搜索（FSBS）的推理时采样策略FSBS 能让 CriticGPT 生成更长且更全面的批评，同时减少幻觉或吹毛求疵的发生率CriticGPT 将（问题，答案）对作为输入，并输出包含从答案中引用的内容和潜在问题评论的结构化批评。

在批评中，答案的部分内容通过以「```」开头的 markdown 代码块被引用为「高亮」随后是指示该高亮部分错误的批评在 FSBS 中，论文作者强制模型生成带有受限采样的高亮部分进行搜索，然后根据表达式 rm_score + LENGTH_MODIFIER * num_highlights 选择评分最高的批评。

该研究团队也坦言，现在的 CriticGPT 只能处理很短的答案，但未来他们需要更厉害的方法，来帮助 AI 训练师理解那些又长又难的任务CriticGPT 仍然会产生幻觉，这种幻觉还会影响训练师，让他们在标记的时候也出错。

而且，现阶段CriticGPT次要集中在单点错误的检测，对于分散在多个部分的错误还需进1步研究CriticGPT 虽然很有用，但如果任务太难太复杂，即使是专家用了这个模型也可能评估没有出来为了让越来越复杂的 AI 系统更好地协同工作，他们需要更先进的工具。

该团队在研究 CriticGPT 时发现，用1种叫做 RLHF 的技术来训练 GPT⑷，能帮助人类产生更好的数据他们正计划进1步扩大该研究，并将其付诸实践参考链接：https://openai.com/index/finding-gpt4s-mistakes-with-gpt⑷/

https://x.com/janleike/status/1806386442568142995

如果您喜欢本文，请在下方留言并分享给您的朋友。

随机文章

openai 奥特曼GPT：OpenAI前对齐团队「遗作」：RLHF没有够用了！用GPT⑷训练GPT⑷ 这样也行？

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

openai 奥特曼GPT：OpenAI前对齐团队「遗作」：RLHF没有够用了！用GPT⑷训练GPT⑷ 这样也行？

您可能也感兴趣:

为您推荐

openai 奥特曼GPT：OpenAI前对齐团队「遗作」：RLHF没有够用了！用GPT⑷训练GPT⑷ 这样也行？

最近发表

网站分类

TAG标签