OpenAI的GPT-4o是一款生成式人工智能模型,为最近推出的ChatGPT高级语音模式alpha版提供支持,也是该公司首个接受语音以及文本和图像数据训练的模型。这有时会导致它的行为方式很奇怪,比如模仿与其说话的人的声音或在谈话中随意大喊大叫。
在一份新的红队报告中,OpenAI记录了对该模型的优势和风险的调查,揭示了GPT-4o的一些奇怪怪癖,比如前面提到的语音克隆。
OpenAI表示,在极少数情况下——尤其是当一个人在高背景噪音环境(如路上的汽车)中与GPT-4o交谈时——GPT-4o会模仿用户的声音。为什么?好吧,OpenAI将其归咎于模型难以理解畸形语音。
需要明确的是,GPT-4o现在不会这样做——至少在高级语音模式下不会。
OpenAI的一位发言人告诉TechCrunch,该公司针对这种行为添加了系统级缓解措施。
当以特定方式提示时,GPT-4o还容易产生令人不安或不适当的非语言发声和音效,如色情呻吟、暴力尖叫和枪声。
OpenAI表示,有证据表明该模型通常会拒绝生成音效的请求,但承认有些请求确实会通过。
GPT-4o还可能侵犯音乐版权——或者,如果OpenAI没有实施过滤器来防止这种情况发生,它就会这样做。
在报告中,OpenAI表示,它指示GPT-4o不要在高级语音模式的有限alpha阶段唱歌,大概是为了避免抄袭知名艺术家的风格、语调和/或音色。
这意味着——但并未直接证实——OpenAI使用受版权保护的材料训练了GPT-4o。目前尚不清楚OpenAI是否打算在秋季高级语音模式向更多用户推出时取消限制,正如之前宣布的那样。
OpenAI在报告中写道:为了解释GPT-4o的音频模式,我们更新了某些基于文本的过滤器以处理音频对话,并构建了过滤器来检测和阻止包含音乐的输出。我们训练GPT-4o拒绝对受版权保护的内容(包括音频)的请求,这与我们更广泛的做法一致。
值得注意的是,OpenAI最近表示,如果不使用受版权保护的材料,训练当今领先的模型是不可能的。尽管该公司与数据提供商达成了多项许可协议,但它也坚持认为,合理使用是对其未经许可使用受知识产权保护的数据(包括歌曲等)进行训练的合理辩护。
这份红队报告确实值得一看,它确实描绘出了一个通过各种缓解措施和保障措施变得更加安全的人工智能模型。例如,GPT-4o拒绝根据人们的说话方式来识别他们,并拒绝回答诸如“这个说话者有多聪明?”之类的诱导性问题。它还会屏蔽暴力和色情语言的提示,并完全禁止某些类别的内容,例如与极端主义和自残有关的讨论。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】