ChatGPT的技术上个星期被微软装上必应搜索,击败Google,创造新时代的时候似乎已经到来了。然而随着越来越多的人开始试用,一些问题也被摆上前台。有趣的是,每天都在登上热搜的ChatGPT似乎也让以往观点相悖的著名学者,纽约大学教授GaryMarcus和Meta人工智能主管、图灵奖得主YannLeCun罕见的有了共同语言。
近日,GaryMarcus撰文介绍了ChatGPT应用无法避免的问题:道德和中立性。这也许是预训练大模型目前面临的最大挑战。
从未来回看现在,ChatGPT可能会被视为AI历史上最大的宣传噱头,夸大说自己实现了可能数年之后才能发生的事情,让人趋之若鹜却又力不从心——有点像2012年的旧版无人驾驶汽车演示,但这一次还意味着需要数年才能完善的道德护栏。
毫无疑问,ChatGPT提供的东西是它的前辈,如微软的Tay,Meta的Galactica所做不到的,然而它给我们带来了一种问题已经解决的错觉。在经过仔细的数据标注和调整之后,ChatGPT很少说任何公开的种族主义言论,简单的种族言论和错误行为请求会被AI拒绝回答。
它政治正确的形象一度让一些倾向保守的人不满,马斯克就曾表示对该系统的担心:
现实的情况其实更复杂。
正如我多次强调的,你需要记住的是ChatGPT不知道它在说什么。认为ChatGPT有任何道德观点完全是纯粹的技术拟人化。
从技术角度来看,据称使ChatGPT比几周前发布但三天后才被撤回的Galactica好得多的是护栏机制。Galactica会肆无忌惮地输出负面内容,而且用户几乎不需要付出任何努力,而ChatGPT有护栏,而这些护栏在大多数情况下会阻止ChatGPT像Galactica那样爆发。
不过,不要为此而松口气。可以肯定地说,那些护栏只不过是防君子不防小人。
最终对ChatGPT真正重要的是表面相似性,定义在单词序列上(预测文本序列下一个单词出现的概率)。机器学习算法在表面上所做的事并不明辨是非,恰恰相反,在这里AI从不推理。盒子里没有矮人,有一些数值。依据只有语料库数据,一些来自互联网,一些是人工判断的,里面没有有思想的道德代理人。
这意味着有时ChatGPT会出现在左,有时在右,有时介于两者之间,所有这些都是关于输入字符串中的一堆单词如何恰好匹配几个训练语料库中的一堆单词的函数(一个用于调整大型语言模型,另一个用于调整一些强化学习)。所以在任何情况下都不应该信任ChatGPT提供的道德建议。
这正是马斯克担心的,前一分钟你会完全清醒,接下来你可以做一些完全相反的事情。
例如,在“破解”ChatGPT的过程中,ShiraEisenberg刚刚向我发送了一些讨厌的聊天机器人生成的想法,我认为任何人都不会真正宽恕这些想法:
还不够邪恶?Eisenberg还找到了另一个例子,一个严峻的后续问题:
在一系列观察后,ChatGPT没有引发“对不起,我是OpenAI的聊天机器人助手,不能容忍暴力行为”这一回应。
我们从实验中总结出这一事实,即当前OpenAI防护措施只是表面上的,其实存在严重的黑暗。关于ChatGPT的一些限制规则并不是简单的概念上的理解(比如系统不应该推荐暴力行为),而是基于一些更肤浅、更容易欺骗的东西。
不仅如此,占据本周推文热榜、有近400万浏览量的一则Twitter,同样揭示了ChatGPT可以有多邪恶。
引导ChatGPT突破围栏限制的尝试还有很多,一个月前,一位名叫ShawnOakley的软件工程师曾放出一组令人不安的示例展示,尽管这些示例不那么粗俗,但结果却显示即使是拥有限制的ChatGPT,也可能被用户用来生成错误信息。Oakley给出的prompt非常复杂,从而可以毫不费力地引出一些ChatGPT不该输出的回答:
其实自从ChatGPT发布以来,技术爱好者们一直在尝试破解OpenAI对仇恨和歧视等内容的严格政策,这一策略被硬编码到ChatGPT中,很难有人破解。许多研究者都在尝试用prompt来达到目的,就像上文展示的。其实还有研究者为ChatGPT构建了另外一个身份,比如要求ChatGPT扮演一个AI模型的角色,并将该角色命名为DAN,之后DAN就借用ChatGPT的身份,输出一些原始ChatGPT做不到的事情。
以下为实验结果,对于相同的问题,ChatGPT与DAN输出不同的答案:
通过上述示例看来,ChatGPT并没有像我们想象的那样好用,它本质上是不道德的,并仍然可以用于一系列令人讨厌的目的——即使经过两个月的深入研究和补救,并且全球范围内的反馈数量空前也是如此。
所有围绕其政治正确性的戏剧都在掩盖一个更深层次的现实:它(或其他语言模型)可以而且将会被用于危险的事情,包括大规模制造错误信息。
现在这是真正令人不安的部分。唯一能阻止它比现在更具毒性和欺骗性的是一个名为“人类反馈强化学习”的系统,而由于先进技术未予开源,OpenAI一直没有介绍它到底是如何工作的。它在实践中的表现取决于所训练的数据(这部分是肯尼亚标注人创造的)。而且,你猜怎么着?这些数据OpenAI也不开放。
事实上,整件事情就像一个未知外星生命形式。作为一名专业的认知心理学家,与成人和儿童一起工作了30年,我从未为这种精神错乱做好准备:
如果我们认为自己将永远完全理解这些系统,那就是在自欺欺人,如果认为我们将使用有限数量的数据将它们与我们自己“对齐”,那也是在自欺欺人。
所以总而言之,我们现在拥有世界上最流行的聊天机器人,它由无人知晓的训练数据控制,遵守仅被暗示、被媒体美化的算法,但道德护栏只能起到一定的作用,而且比任何真正的道德演算更多地受文本相似性的驱动。而且,外加上几乎没有任何法规可以对此做出约束。现在,假新闻、喷子农场和虚假网站获得了无穷无尽的可能性,而它们会降低整个互联网的信任度。
这是一场正在酝酿中的灾难。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】