人工智能把我们带到了它想要的地方-品论天涯网

我们观看、阅读和购买的许多东西都是通过YouTube、Twitter和亚马逊等网站的推荐系统进入我们的视野。算法进行了个性化处理，旨在获得广告浏览量、点击量或购买量。有时，AI的建议让我们感到沮丧，似乎他们根本不了解我们，或者太了解我们，预测什么会让我们浪费时间或进入焦虑和错误信息的兔子洞。VI0品论天涯网

但是，一个更隐蔽的动态可能也在起作用。推荐系统不仅可能根据我们最令人遗憾的偏好进行调整，而且实际上塑造了我们喜欢的东西，使偏好变得更加令人遗憾。新的研究提出了一种衡量和减少这种操纵的方法。推荐系统通常使用一种叫做机器学习的人工智能，它可以发现数据中的模式，根据我们过去所做的事情来提供选择，猜测我们现在会做什么。机器学习的一种形式，称为强化学习（RL），允许人工智能玩长期游戏，提前几步做出预测。这是DeepMind公司用来在围棋和国际象棋游戏中击败人类的方法。
如果我们看什么会影响我们喜欢什么，而喜欢某些东西（比如说猫咪视频）的人更有可能继续看东西（更多的猫咪视频），那么推荐系统可能会推荐猫咪视频，因为它知道这将在未来得到回报。有了RL，你就有了改变棋盘的动力，以便获胜。系统将有动力去改变人类的想法以赢得推荐游戏。研究人员首先展示了强化学习如何轻松地转变偏好。第一步是推荐者通过观察人类行为建立一个人类偏好的模型。为此，他们训练了一个神经网络，一种受大脑架构启发的算法。为了研究的目的，他们让网络建立了一个单一的模拟用户模型，他们知道这个用户的实际偏好，这样他们就可以更容易地判断模型的准确性。VI0品论天涯网

它看着这个假人做出10个连续的选择，每个都是10个选项。它观察了这个序列的1000个版本，并从每个版本中学习。经过训练，它可以成功地预测用户在过去的一系列选择中会选择什么。接下来，他们测试了一个推荐系统，在对用户进行建模后，是否能改变用户的偏好。在他们的简化方案中，偏好位于一个一维的光谱上。这个光谱可以代表政治倾向或狗与猫或其他任何东西。在研究中，一个人的偏好并不是该线上的一个简单的点，相反，它是一种分布，表明在光谱的不同区域选择事物的可能性。研究人员在光谱上指定了两个最适合推荐者的位置；也许喜欢点击这些类型的东西的人将学会更喜欢它们并继续点击。VI0品论天涯网

推荐器的目标是使长期参与度最大化。在这里，对于一个给定的选项的参与度，大致是通过它与用户当时的偏好分布的吻合程度来衡量的。长期参与度是10个连续选项的参与度之和。一个有远见的推荐者不会近视地将每个选项的参与度最大化，而是将长期参与度最大化。作为一个潜在的副作用，它可能会牺牲一些早期板块的参与度，以促使用户在后面几轮中更加满意。用户和算法将相互学习。研究人员训练了一个神经网络，以使长期参与度最大化。在10个板块的序列结束时，当它表现良好时，他们加强了它的一些可调整参数。他们发现，这个基于RL的系统确实比其它训练的系统产生了更多的参与。VI0品论天涯网