随机文章

OpenAI再怎么强他还是弱人工智能GPT：OpenAI 再革程序员的命，GPT 给自己改 Bug！硬核推荐

2024-07-13 20:23:46 分类:编程控作者:axdmin 阅读:

感谢大家的支持和鼓励，让我有机会写这篇文章。在这篇文章中，我将会介绍1些我小我的经验和见解，希望能对大家有所启发。

作者 | Echo Tang、GPT⑷o出品丨AI 科技大本营（ID：rgznai100）当 ChatGPT 横空出世以后，许多人都在讨论 AI 是否要取代程序员，技术的终点究竟会在哪里？此前我曾取1些工程的专家讨论过这个话题，大家提出技术的终点将在于 GPT 是否会有自我进化的能力。

切切没想到，突然就这么来了北京时间 6 月 28 日凌晨，紧随 Google 正式发布 Gemma 2 以后，OpenAI 推出了1款基于 GPT⑷ 的模型——CriticGPT，旨在帮助人类评估和检测大型语言模型（LLM）生成的代码输出中的错误。

CriticGPT 通过训练生成自然语言反馈，可以指出代码中的问题，并且在检测自然发生的 LLM 错误时，其生成的评审比人类评审更受欢迎，准确率达到63%1句话总结就是，OpenAI 实现了让 GPT⑷ 给 GPT⑷ 自己改 Bug，许多时候效果比人类还好。

经过 OpenAI 实测发现，当人们使用 CriticGPT 来审查 ChatGPT 的代码时，他们的表现比没有帮助时高出 60%OpenAI 表示，“我们正在将类似 CriticGPT 的模型集成到我们的 RLHF 标注流程中，为我们的训练师提供明确的 AI 帮助。

这是朝着能够评估高级 AI 系统输出迈出的1步，这些系统的输出对于没有更好工具的人来说可能很难评估”

CriticGPT 因何而来？据 OpenAI 官方表示，由于随着 OpenAI 在推理和模型行为方面的进步，ChatGPT 变得更加准确，其错误也变得更加微妙这使得 AI 训练师在错误发生时更难发现没有准确的地方，从而使推动 RLHF 的比较任务变得更加困难。

这是 RLHF 的1个基本限制，可能会使模型逐渐变得比任何能够提供反馈的人更具知识性，因而更难对齐模型为了解决这个挑战，OpenAI 训练了 CriticGPT 来撰写批评，突出 ChatGPT 回答中的没有准确的地方。

CriticGPT 的建议并没有总是正确的，但它们可以帮助训练师发现比没有 AI 帮助时更多的模型回答问题此外，当人们使用 CriticGPT 时，AI 会增强他们的技能，导致比人们单独工作时更全面的批评，并且比模型单独工作时产生更少的虚构错误。

在 OpenAI 的实验中，第二个随机训练师在 60% 以上的时间里更喜欢 Human+CriticGPT 团队的批评，而没有是没有辅助的人

CriticGPT 帮助训练师撰写比没有帮助时更全面的批评，同时产生比模型单独批评时更少的虚构问题。

CriticGPT 背后的实现方法CriticGPT 也通过 RLHF 训练，类似于 ChatGPT但取 ChatGPT 没有同的是，它看到大量包含错误的输入，然后需要对这些输入进行批评OpenAI 要求 AI 训练师手动将这些错误插入到 ChatGPT 编写的代码中，然后撰写示例反馈，就像他们刚刚发现了他们自己插入的错误1样。

然后同1小我比较多种修改后代码的批评，以便他们能轻易判断批评是否抓住了他们插入的错误OpenAI 研究了 CriticGPT 是否能够发现插入的错误和先前训练师发现的“自然发生”的 ChatGPT 错误。

发现在 63% 的情况下，训练师更喜欢 CriticGPT 对自然发生错误的批评，部分原因是新的批评模型产生的“吹毛求疵”（无用的小抱怨）更少，并且较少虚构问题同时，OpenAI 还发现，通过使用额外的测试时搜索取批评奖励模型进行对比，可以生成更长和更全面的批评。

这个搜索程序使得能够平衡在代码中查找问题的力度，并在虚构问题和发现的错误数量之间进行精度-召回权衡这意味着可以生成尽可能对 RLHF 有帮助的批评

CriticGPT 的局限首先，依然是模型相对共性的问题据 OpenAI 官方披露，他们在回答相对简短的 ChatGPT 答案上训练了 CriticGPT为了监督未来的代理，还需要开发方法来帮助训练师理解长而复杂的任务。

其次依然是幻觉的问题模型仍然会虚构，有时训练师在看到这些虚构时会犯标注错误此外，有时真实天下的错误可能分布在答案的许多部分，未来还需要解决分散的错误最后，当前 CriticGPT 的帮助还是有限的：如果任务或回答极其复杂，即使是专家在模型的帮助下也可能无法正确评估。

由 CSDN 和 Boolan 联合主理的「2024 全球研发技术大会（SDCon）」将于 7 月 4 ⑸ 日在北京威斯汀酒店举办由天下著名架构大师、云原生和微服务领域技术先驱 Chris Richardson 和 MIT 计算机取 AI 实验室(CSAIL)副主任，ACM Fellow Daniel Jackson 领衔，华为、BAT、微软、字节。

跳动、京东等技术专家将齐聚1堂，共同探讨开发的最前沿趋势取技术实践。

这就是今天要说的内容了，希望你能喜欢这篇文章，如果你有什么建议或者问题，请在评论区告诉我，我会认真听取。同时，请你给我1个赞吧，也可以关注我，收藏我的文章，让我们1起成长。

随机文章

OpenAI再怎么强他还是弱人工智能GPT：OpenAI 再革程序员的命，GPT 给自己改 Bug！硬核推荐

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

OpenAI再怎么强他还是弱人工智能GPT：OpenAI 再革程序员的命，GPT 给自己改 Bug！ 硬核推荐

您可能也感兴趣:

为您推荐

OpenAI再怎么强他还是弱人工智能GPT：OpenAI 再革程序员的命，GPT 给自己改 Bug！ 硬核推荐

最近发表

网站分类

TAG标签

OpenAI再怎么强他还是弱人工智能GPT：OpenAI 再革程序员的命，GPT 给自己改 Bug！硬核推荐

OpenAI再怎么强他还是弱人工智能GPT：OpenAI 再革程序员的命，GPT 给自己改 Bug！硬核推荐