最近发表在《科学报告》杂志上的一项研究表明,大型语言模型(LLM)人工智能聊天机器人在创造性任务中可能超越普通人类,例如集思广益常见物品的替代用途——这反映了发散性思维。然而,在这些任务中得分最高的个人仍然超过了表现最好的聊天机器人的结果。
发散思维是一种通常与创造力联系在一起的思维过程,强调针对特定任务产生许多不同的想法或解决方案。
它通常通过替代用途任务(AUT)进行评估,其中要求参与者在短时间内想出尽可能多的日常物品的替代用途。回答分为四个不同的类别:流畅性、灵活性、原创性和详尽性。
MikaKoivisto和SimoneGrassini将256名人类参与者的反应与三个AI聊天机器人(ChatGPT3、ChatGPT4和Copy.Ai)的反应进行了比较,并对四种物体(一根绳子、一个盒子、一支铅笔和一支蜡烛)的AUT做出了反应。作者通过对语义距离(响应与对象原始用途的相关程度)和创造力进行评级来评估响应的原创性。
使用计算方法以0到2的范围来量化语义距离,而人类评估者对响应的发起者视而不见,主观地对创造力进行1到5的评分。平均而言,聊天机器人生成的响应得分明显高于人类对语义距离(0.95vs.0.91)和创造力(2.91vs.2.47)的反应。
人类的反应在这两项指标上都有更大的范围——最低分数远低于人工智能的反应,但最高分数通常更高。在八个评分类别中的七个中,人类的最佳反应优于每个聊天机器人的最佳反应。
这些发现表明,人工智能聊天机器人现在至少可以像普通人一样产生创意。然而,作者指出,他们只考虑了与创造力评估相关的单个任务的表现。作者提出,未来的研究可以探索如何将人工智能整合到创意过程中,以提高人类的表现。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】