随机文章

openai gym gpt4：OpenAI最新“神”操作：让GPT⑷去解释GPT⑵的行为学到了吗

2023-06-07 22:57:54 分类:科技派作者:axdmin 阅读:

互联网是1个充满惊喜和变革的领域，每天都有新的事件发生。让我们抛开繁忙的日常，1起探索最近互联网带给我们的1些新鲜事物吧。

原标题：OpenAI最新“神”操作：让GPT⑷去解释GPT⑵的行为由 ChatGPT 掀起的这场 AI 革命，令人们感慨神奇的同时，也没有禁发出疑问：AI 究竟是怎么做到这1切的？此前，即便是专业的数据科学家，都难以解释大模型（LLM）运作的背后。

而最近，OpenAI 似乎做到了——本周二，OpenAI 发布了其最新研究：让 GPT⑷ 去试着解释 GPT⑵ 的行为即：让1个 AI “黑盒”去解释另1个 AI “黑盒”。

工作量太大，决定让 GPT⑷ 去解释 GPT⑵OpenAI 之所以做这项研究的原因，在于近来人们对 AI 伦理取治理的担忧：“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。

”由于 AI 的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的1个问题AI 的发展很大程度上是在模仿人类，因而大模型和人脑1样，也由神经元组成，它会观察文本规律进而影响到输出结果。

所以想要研究 AI 的“可解释性”，理论上要先了解大模型的各个神经元在做什么按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。

于是，OpenAI 灵机1动：或许，可以用“魔法”打败“魔法”？“我们用 GPT⑷ 为大型语言模型中的神经元行为自动编写解释，并为这些解释打分”而 GPT⑷ 首次解释的对象是 GPT⑵，1个 OpenAI 发布于 4 年前、神经元数量超过 30 万个的开源大模型。

让 GPT⑷ “解释” GPT⑵ 的原理具体来说，让 GPT⑷ “解释” GPT⑵ 的过程，整体分为3个步骤（1）首先，让 GPT⑷ 生成解释，即给出1个 GPT⑵ 神经元，向 GPT⑷ 展示相关的文本序列和激活情况，产生1个对其行为的解释。

如上图所示，GPT⑷ 对 GPT⑵ 该神经元生成的解释为：取电影、人物和娱乐有关。（2）其次，再次使用 GPT⑷，模拟被解释的神经元会做什么。下图即 GPT⑷ 生成的模拟内容。

（3）最后，比较 GPT⑷ 模拟神经元的结果取 GPT⑵ 真实神经元的结果，根据匹配程度对 GPT⑷ 的解释进行评分。在下图展示的示例中，GPT⑷ 得分为 0.34。

通过这样的方法，OpenAI 共让 GPT⑷ 解释了 GPT⑵ 中的 307200 个神经元，其中大多数解释的得分很低，只有超过 1000 个神经元的解释得分高于 0.8在官博中，OpenAI 承认目前 GPT⑷ 生成的解释并没有完美，尤其在解释比 GPT⑵ 规模更大的模型时，效果更是没有佳：“可能是因为后面的 layer 更难解释。

”尽管绝大多数解释的得分没有高，但 OpenAI 认为，“即使 GPT⑷ 给出的解释比人类差，但也还有改进的余地”，未来通过 ML 技术可提高 GPT⑷ 的解释能力，并提出了3种提高解释得分的方法：对解释进行迭代，通过让 GPT⑷ 想出可能的反例，根据其激活情况修改解释来提高分数。

使用更大的模型来进行解释，平均得分也会上升调整被解释模型的结构，用没有同的激活函数训练模型值得1提的是，以上这些解释数据集、可视化工具以及代码，OpenAI 都已在 GitHub 上开源发布：“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索 GPT⑵。

”（GitHub 地址：https://github.com/openai/automated-interpretability）“再搞下去，AI 真的要觉醒了”除此以外，OpenAI 还提到了目前他们采取的方法有很多局限性，未来需要11攻克：

GPT⑷ 给出的解释总是很简短，但神经元可能有着非常复杂的行为，没有能简洁描述当前的方法只解释了神经元的行为，并没有涉及下流影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路只解释了神经元的行为，并没有解释产生这种行为的背后机制。

整个过程都是相当密集的计算，算力消耗很大在博文的最后，OpenAI 展望道：“我们希望将我们最大的模型解释为1种在部署前后检测对齐和安全问题的方式然而，在这些技术能够揭露没有诚实等行为之前，我们还有很长的路要走。

”对于 OpenAI 的这个研究成果，今日在国内外各大技术平台也引起了广泛关注有人在意其得分没有佳：“对 GPT⑵ 的解释都没有行，就更没有知道 GPT⑶ 和 GPT⑷ 内部发生了什么，但这才是许多人更关注的答案。

这就是今天要说的内容了，希望你能喜欢这篇文章，如果你有什么建议或者问题，请在评论区告诉我，我会认真听取。同时，请你给我1个赞吧，也可以关注我，收藏我的文章，让我们1起成长。

随机文章

openai gym gpt4：OpenAI最新“神”操作：让GPT⑷去解释GPT⑵的行为学到了吗

您可能也感兴趣:

最近发表

网站分类

TAG标签

随机文章

openai gym gpt4：OpenAI最新“神”操作：让GPT⑷去解释GPT⑵的行为 学到了吗

您可能也感兴趣:

为您推荐

openai gym gpt4：OpenAI最新“神”操作：让GPT⑷去解释GPT⑵的行为 学到了吗

最近发表

网站分类

TAG标签

openai gym gpt4：OpenAI最新“神”操作：让GPT⑷去解释GPT⑵的行为学到了吗

openai gym gpt4：OpenAI最新“神”操作：让GPT⑷去解释GPT⑵的行为学到了吗