OpenAI发表研究论文介绍了一种逆向工程AI模型工作原理的方法-品论天涯网

ChatGPT开发商OpenAI构建人工智能的方法本周遭到了前员工的抨击，他们指责该公司利用可能有害的技术冒不必要的风险。今天，OpenAI发布了一篇新的研究论文，目的显然是为了表明它在通过提高模型的可解释性来应对人工智能风险方面的认真态度。GFD品论天涯网

GFD品论天涯网

在论文中，该公司的研究人员提出了一种窥探为ChatGPT提供动力的人工智能模型内部的方法。他们设计了一种方法来识别模型如何存储某些概念--包括那些可能导致人工智能系统行为失常的概念。GFD品论天涯网

虽然这项研究使OpenAI在控制人工智能方面的工作更加引人注目，但也凸显了该公司最近的动荡。新研究由OpenAI最近解散的"超对齐"团队完成，该团队致力于研究技术的长期风险。GFD品论天涯网

前小组的共同负责人伊利亚-苏茨克沃（IlyaSutskever）和扬-莱克（JanLeike）均已离开OpenAI，并被列为共同作者。苏茨克沃是OpenAI的创始人之一，曾任首席科学家，去年11月，董事会成员投票解雇了首席执行官山姆-奥特曼（SamAltman），引发了几天的混乱，最终奥特曼重返领导岗位。GFD品论天涯网

ChatGPT由一个名为GPT的大型语言模型系列提供支持，该模型基于一种被称为人工神经网络的机器学习方法。这些数学网络通过分析示例数据显示出了学习有用任务的强大能力，但它们的工作原理无法像传统计算机程序那样被轻易检查。人工神经网络中各层"神经元"之间复杂的相互作用，使得逆向分析ChatGPT这样的系统为何会得出特定的反应极具挑战性。GFD品论天涯网

这项工作背后的研究人员在一篇随附的博文中写道："与大多数人类创造物不同，我们并不真正了解神经网络的内部运作。一些著名的人工智能研究人员认为，包括ChatGPT在内的最强大的人工智能模型或许可以用来设计生化武器和协调网络攻击。一个更长期的担忧是，人工智能模型可能会选择隐藏信息或以有害的方式行事，以实现它们的目标。"GFD品论天涯网

OpenAI的这篇新论文概述了一种技术，该技术借助额外的机器学习模型，识别代表机器学习系统内部特定概念的模式，从而稍稍降低了神秘感。创新的关键在于通过识别概念来完善用于窥探系统内部的网络，从而提高效率。GFD品论天涯网

OpenAI通过在其最大的人工智能模型之一GPT-4中识别代表概念的模式证明了这种方法。该公司发布了与可解释性工作相关的代码，以及一个可视化工具，用于查看不同句子中的单词如何激活GPT-4和另一个模型中的概念，包括亵渎和色情内容。了解一个模型是如何表现某些概念的，这将有助于减少与不受欢迎的行为相关的概念，使人工智能系统保持正常运行。它还可以调整人工智能系统，使其偏向于某些主题或想法。GFD品论天涯网

尽管LLM无法被轻易解读，但越来越多的研究表明，它们可以被穿透，从而揭示出有用的信息。由亚马逊和Google支持的OpenAI竞争对手Anthropic上个月也发表了类似的人工智能可解释性研究成果。为了演示如何调整人工智能系统的行为，该公司的研究人员创造了一个痴迷于旧金山金门大桥的聊天机器人。有时，只需让人工只能机器人解释其推理过程，就能获得深刻的见解。GFD品论天涯网

东北大学从事人工智能可解释性研究的教授大卫-鲍（DavidBau）在谈到OpenAI的新研究时说："这是令人兴奋的进展。"作为一个领域，我们需要学习如何更好地理解和审视这些大型模型。"GFD品论天涯网

鲍说，OpenAI团队的主要创新在于展示了一种配置小型神经网络的更有效方法，该网络可用于理解大型神经网络的组成部分。但他也指出，这项技术还需要改进，以使其更加可靠。要利用这些方法创造出完全可以理解的解释，还有很多工作要做。"GFD品论天涯网

鲍是美国政府资助的一项名为"国家深度推理结构"（NationalDeepInferenceFabric）的工作的一部分，这项工作将向学术研究人员提供云计算资源，以便他们也能探索特别强大的人工智能模型。他说："我们需要想办法让科学家即使不在这些大公司工作，也能从事这项工作。"GFD品论天涯网

OpenAI的研究人员在论文中承认，要改进他们的方法还需要进一步的工作，但他们也表示，希望这种方法能带来控制人工智能模型的实用方法。他们写道："我们希望有一天，可解释性能为我们提供推理模型安全性和鲁棒性的新方法，并通过为强大的人工智能模型的行为提供强有力的保证，大大增加我们对它们的信任。"GFD品论天涯网

阅读论文全文：GFD品论天涯网

https://cdn.openai.com/papers/sparse-autoencoders.pdf
GFD品论天涯网

OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法

OpenAI发表研究论文介绍了一种逆向工程AI模型工作原理的方法