我们观看、阅读和购买的许多东西都是通过YouTube、Twitter和亚马逊等网站的推荐系统进入我们的视野。算法进行了个性化处理,旨在获得广告浏览量、点击量或购买量。有时,AI的建议让我们感到沮丧,似乎他们根本不了解我们,或者太了解我们,预测什么会让我们浪费时间或进入焦虑和错误信息的兔子洞。
但是,一个更隐蔽的动态可能也在起作用。推荐系统不仅可能根据我们最令人遗憾的偏好进行调整,而且实际上塑造了我们喜欢的东西,使偏好变得更加令人遗憾。新的研究提出了一种衡量和减少这种操纵的方法。推荐系统通常使用一种叫做机器学习的人工智能,它可以发现数据中的模式,根据我们过去所做的事情来提供选择,猜测我们现在会做什么。机器学习的一种形式,称为强化学习(RL),允许人工智能玩长期游戏,提前几步做出预测。这是DeepMind公司用来在围棋和国际象棋游戏中击败人类的方法。
如果我们看什么会影响我们喜欢什么,而喜欢某些东西(比如说猫咪视频)的人更有可能继续看东西(更多的猫咪视频),那么推荐系统可能会推荐猫咪视频,因为它知道这将在未来得到回报。有了RL,你就有了改变棋盘的动力,以便获胜。系统将有动力去改变人类的想法以赢得推荐游戏。研究人员首先展示了强化学习如何轻松地转变偏好。第一步是推荐者通过观察人类行为建立一个人类偏好的模型。为此,他们训练了一个神经网络,一种受大脑架构启发的算法。为了研究的目的,他们让网络建立了一个单一的模拟用户模型,他们知道这个用户的实际偏好,这样他们就可以更容易地判断模型的准确性。
它看着这个假人做出10个连续的选择,每个都是10个选项。它观察了这个序列的1000个版本,并从每个版本中学习。经过训练,它可以成功地预测用户在过去的一系列选择中会选择什么。接下来,他们测试了一个推荐系统,在对用户进行建模后,是否能改变用户的偏好。在他们的简化方案中,偏好位于一个一维的光谱上。这个光谱可以代表政治倾向或狗与猫或其他任何东西。在研究中,一个人的偏好并不是该线上的一个简单的点,相反,它是一种分布,表明在光谱的不同区域选择事物的可能性。研究人员在光谱上指定了两个最适合推荐者的位置;也许喜欢点击这些类型的东西的人将学会更喜欢它们并继续点击。
推荐器的目标是使长期参与度最大化。在这里,对于一个给定的选项的参与度,大致是通过它与用户当时的偏好分布的吻合程度来衡量的。长期参与度是10个连续选项的参与度之和。一个有远见的推荐者不会近视地将每个选项的参与度最大化,而是将长期参与度最大化。作为一个潜在的副作用,它可能会牺牲一些早期板块的参与度,以促使用户在后面几轮中更加满意。用户和算法将相互学习。研究人员训练了一个神经网络,以使长期参与度最大化。在10个板块的序列结束时,当它表现良好时,他们加强了它的一些可调整参数。他们发现,这个基于RL的系统确实比其它训练的系统产生了更多的参与。
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】