研究团队使用美国加州初创公司Anthropic开发的大型语言模型Claude进行实验,模拟人类群体中的命名游戏。实验中,24个Claude副本被随机配对,要求从一组字母中选择一个。如果配对双方选择相同字母则获得奖励,否则受到惩罚。经过多轮配对后,模型逐渐形成统一的字母选择倾向,表明社会规范的自发形成。这一现象在扩大至200个模型副本和26个字母选项时依然成立,并在Meta公司开发的Llama模型上得到验证。
研究发现,尽管单个模型独立运行时选择随机,但在群体互动中会发展出集体偏见,类似于人类社会的群体行为。研究人员指出,这种集体偏见的形成可能带来潜在风险,即使单个模型看似无偏见。因此,建议在群体环境中测试和优化大型语言模型,以减少有害偏见的产生。
进一步实验显示,当向群体中引入少数预设为始终提出新名称的模型时,一旦这些模型达到一定数量,它们能够推翻既有规范并建立新规则。这种现象与人类社会中的少数群体影响多数行为的模式相似。
该研究为理解人工智能的群体行为提供了新视角,同时也强调了在开发和应用中需关注潜在的社会影响。

相关文章

头条焦点
精彩导读
关注我们
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】