OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为-品论天涯网

由ChatGPT掀起的这场AI革命，令人们感慨神奇的同时，也不禁发出疑问：AI究竟是怎么做到这一切的？此前，即便是专业的数据科学家，都难以解释大模型（LLM）运作的背后。而最近，OpenAI似乎做到了——本周二，OpenAI发布了其最新研究：让GPT-4去试着解释GPT-2的行为。sCj品论天涯网

即：让一个AI“黑盒”去解释另一个AI“黑盒”。sCj品论天涯网

sCj品论天涯网

工作量太大，决定让GPT-4去解释GPT-2sCj品论天涯网

OpenAI之所以做这项研究的原因，在于近来人们对AI伦理与治理的担忧：“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”sCj品论天涯网

由于AI的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。sCj品论天涯网

AI的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”，理论上要先了解大模型的各个神经元在做什么。sCj品论天涯网

按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。sCj品论天涯网

于是，OpenAI灵机一动：或许，可以用“魔法”打败“魔法”？sCj品论天涯网

“我们用GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而GPT-4首次解释的对象是GPT-2，一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。sCj品论天涯网

让GPT-4“解释”GPT-2的原理sCj品论天涯网

具体来说，让GPT-4“解释”GPT-2的过程，整体分为三个步骤。sCj品论天涯网

（1）首先，让GPT-4生成解释，即给出一个GPT-2神经元，向GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。sCj品论天涯网

sCj品论天涯网

如上图所示，GPT-4对GPT-2该神经元生成的解释为：与电影、人物和娱乐有关。sCj品论天涯网

（2）其次，再次使用GPT-4，模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。sCj品论天涯网

sCj品论天涯网

（3）最后，比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果，根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。sCj品论天涯网

sCj品论天涯网

通过这样的方法，OpenAI共让GPT-4解释了GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。sCj品论天涯网

在官博中，OpenAI承认目前GPT-4生成的解释并不完美，尤其在解释比GPT-2规模更大的模型时，效果更是不佳：“可能是因为后面的layer更难解释。”sCj品论天涯网

尽管绝大多数解释的得分不高，但OpenAI认为，“即使GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过ML技术可提高GPT-4的解释能力，并提出了三种提高解释得分的方法：sCj品论天涯网

对解释进行迭代，通过让GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。sCj品论天涯网

使用更大的模型来进行解释，平均得分也会上升。sCj品论天涯网

调整被解释模型的结构，用不同的激活函数训练模型。sCj品论天涯网

值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI都已在GitHub上开源发布：“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索GPT-2。”sCj品论天涯网

（GitHub地址：https://github.com/openai/automated-interpretability）sCj品论天涯网

“再搞下去，AI真的要觉醒了”sCj品论天涯网

除此之外，OpenAI还提到了目前他们采取的方法有很多局限性，未来需要一一攻克：sCj品论天涯网

GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。sCj品论天涯网

当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。sCj品论天涯网

只解释了神经元的行为，并没有解释产生这种行为的背后机制。sCj品论天涯网

整个过程都是相当密集的计算，算力消耗很大。sCj品论天涯网

在博文的最后，OpenAI展望道：“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”sCj品论天涯网

对于OpenAI的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。sCj品论天涯网

有人在意其得分不佳：“对GPT-2的解释都不行，就更不知道GPT-3和GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进：“未来就是用AI完善AI模型，会加速进化。”也有人担心AI进化的未来：“再搞下去，AI真的要觉醒了。”sCj品论天涯网

那么对此，你又有什么看法呢？sCj品论天涯网