AI测出你几岁死亡？Transformer「算命」登Nature子刊，成功预测意外死亡-品论天涯网

声明:本文来自于微信公众号新智元i（ID:AI_era），作者:新智元i，授权站长之家转载发布。vjL品论天涯网

【新智元导读】AI算命将可以预测人类的意外死亡?丹麦科学家用全国600万人的公开数据训练了一个基于Transformer的模型，成功预测了意外死亡和性格特点。vjL品论天涯网

AI真的可以用来科学地算命了!?vjL品论天涯网

丹麦技术大学（DTU）的研究人员声称他们已经设计出一种人工智能模型，据说可以预测人们的生活中的重大事件和结果，包括每个人死亡的大致时间。文章在前两天登上了Nature的子刊Computational Science。vjL品论天涯网

vjL品论天涯网

作者Sune Lehmann称，「我们使用该模型来解决一个基本问题:我们可以在多大程度上根据过去的条件和事件来预测未来的事件?」vjL品论天涯网

看来作者研究的目的没有别的，确实是想用AI来帮大家算命。vjL品论天涯网

vjL品论天涯网

研究人员将人的生活轨迹表征为时间顺序的生活事件序列，这种表征方法与自然语言具有结构相似性。vjL品论天涯网

利用Transformer模型的表征学习能力，可以学习到生活事件的语义空间，并生成个体生活序列的紧凑向量表征。vjL品论天涯网

研究人员利用丹麦约600万人口的健康和劳动力数据，构建了基于Transformer的模型「life2vec」。vjL品论天涯网

模型的输入数据是个人的出生时间，地点、教育、健康状况、职业和工资等，而输出数据包括了「意外死亡」和「性格的细微差异」等和个人生活息息相关的内容。vjL品论天涯网

vjL品论天涯网

研究团队基于生活序列对个人的生活事件展开了预测，模型表现明显优于当前其他方法。vjL品论天涯网

vjL品论天涯网

相比于其他方法，life2vec模型对于性格的细微差异有更加优秀的预测结果vjL品论天涯网

研究人员在论文中进一步指出，模型的概念空间和个体表征空间都是有意义和可解释的，可以用来生成新假说，为个体化干预提供可能。vjL品论天涯网

人的一生也许是可以预测的vjL品论天涯网

人类目前正在经历的人类预测时代的核心原因是海量数据集和强大的机器学习算法的出现。vjL品论天涯网

在过去的十年里，机器学习通过访问越来越大的数据集，使越来越复杂的模型成为可能，从而使图像和文本处理领域发生了革命性的变化。vjL品论天涯网

语言处理发展得特别快，Transformer体系结构已被证明可以成功地捕获了大量非结构化单词序列中的复杂模式。vjL品论天涯网

虽然这些模型起源于自然语言处理，但它们捕获人类语言中的结构的能力推广到其他序列，这些序列与语言有着相似的属性。vjL品论天涯网

但是由于缺乏大规模数据，Transformer模型尚未应用于行业外的多模态社会经济数据。vjL品论天涯网

研究人员的数据集改变了这一点。他们的数据集的巨大体量使研究团队能够构建个体生命轨迹的序列级别表征，其中详细说明了每个人如何在时间中移动。vjL品论天涯网

研究人员可以在不同类型的事件中观察个人生活是如何演变的（关于心脏病发作的信息与加薪或从城市搬到农村的信息混合在一起）。vjL品论天涯网

每个序列中的时间分辨率和序列的总数都足够大，研究人员可以有意义地应用基于transformer的模型来预测生活事件的结果。vjL品论天涯网

这意味着表征学习可以应用于一个全新的领域，以发展对人类生活的进化和可预测性的新理解。vjL品论天涯网

具体地说，研究人员采用了类似Bert的架构来预测人类生活的两个非常不同的方面:死亡时间和个性细微差别。vjL品论天涯网

研究人员发现，研究人员的模型可以准确地预测这些结果，在早期死亡的情况下，比目前最先进的方法高出∼11%。vjL品论天涯网

为了做出这些准确的预测，研究人员的模型依赖于生活中所有事件的单一公共嵌入空间-轨迹。vjL品论天涯网

vjL品论天涯网

正如研究语言模型中的嵌入空间可以提供对人类语言的新理解一样，研究人员可以研究嵌入空间的概念，以揭示生活事件之间的非平凡相互作用。vjL品论天涯网

下面，研究人员提供了对由此产生的生活事件的概念空间的洞察，并展示了该空间和模型本身的健壮性和可解释性。vjL品论天涯网

基于Transformer的模型还产生了对个体的嵌入（语言表征中的类比是总结整个文本的矢量）。使用显著图和概念激活向量(TCAV)等可解释性工具，研究人员表明个人摘要也是有意义的，并具有作为行为表型的潜力，可以改进其他个人水平的预测任务，例如，增强对医学图像的分析。vjL品论天涯网

模型预测结果vjL品论天涯网

研究人员用一种简单的符号语言对丰富的数据进行编码。vjL品论天涯网

复杂的多源时态数据的原始数据流带来了巨大的方法论挑战，例如不规则的采样率、数据的稀疏性、特征之间的复杂交互以及大量的维度。vjL品论天涯网

用于时间序列分析的经典方法（例如，支持向量机，ARIMA）[42，43]变得繁琐，因为它们具有伸缩性，不灵活，并且需要大量的数据预处理来提取有用的特征。vjL品论天涯网

使用转换方法允许研究人员避免手工制作的特征，而是以一种利用与语言的相似性的方式对数据进行编码。具体地说，在研究人员的例子中，每一类离散特征和离散连续特征形成一个词汇表。vjL品论天涯网

这个词汇表——连同时间的编码——允许研究人员将每个生活事件（包括其详细的限定信息）表征为一个由合成词或概念符号组成的句子。vjL品论天涯网

研究人员在每个事件上都附加了两个时间指标。一个是指定个人在事件发生时的年龄，另一个是捕捉绝对时间，见下图。vjL品论天涯网

vjL品论天涯网

因此，研究人员的合成语言可以捕捉到这样的信息:「2020年9月，弗朗西斯科在埃尔西诺尔的一座城堡里当警卫时收到了2万丹麦克朗。」vjL品论天涯网

或者「在寄宿中学的第三年，赫敏参加了五门选修课」。在这个意义上，一个人的生命进程被表征为一串这样的句子，它们一起构成了个人的生命序列。vjL品论天涯网

研究人员的方法允许研究人员编码关于个人生活中事件的广泛的详细信息，而不牺牲原始数据的内容和结构。vjL品论天涯网

life2vec模型

研究人员使用transformer模型来形成个人生活的紧凑表征。研究人员称研究人员的深度学习模型为life2vec。vjL品论天涯网

Life2vec模型基于transformer架构。由于其压缩上下文信息的能力以及考虑时间和位置信息，Transformer非常适合表征生命序列。vjL品论天涯网

Life2vec的训练分为两个阶段。首先，研究人员通过同时使用vjL品论天涯网

（1）一个遮蔽语言模型(MLM)任务，迫使模型使用标记表征和上下文信息。vjL品论天涯网

（2）一个序列排序预测(SOP)任务，关注序列的时间连贯性(来训练模型。预训练创建了一个概念空间，并教会模型生命序列结构中的模式。vjL品论天涯网

接下来，为了创建个人生命序列的紧凑表征，模型执行了一个分类任务。模型在这最后一步学习的个人总结取决于分类任务;它识别并压缩了为给定下游任务最大化确定性的模式。vjL品论天涯网

例如，当研究人员要求模型预测一个人的个性细微差别时，人物嵌入空间将围绕着对个性贡献的关键维度构建。vjL品论天涯网

跨领域的准确预测

任何模型的首要测试是预测性能。life2vec不仅超越了现有的SOTA，同时还能在非常不同的领域进行分类预测。研究人员在两个不同的任务上测试了他们的框架。vjL品论天涯网

预测早期死亡率vjL品论天涯网

研究人员估算一个人在2016年1月1日之后四年内存活的可能性。这是统计建模中常用的任务。此外，死亡率预测与其他健康预测任务密切相关，因此需要life2vec建模个人健康序列的发展以及劳动历史，以成功预测正确的结果。vjL品论天涯网

具体来说，给定一个序列表示，life2vec推断出一个人在研究人员序列结束后的四年内（2016年1月1日）存活的可能性。vjL品论天涯网

研究人员专注于对年轻的群体进行预测，包括30至55岁的个人，其中死亡率难以预测。vjL品论天涯网

研究人员展示了使用修正的马修斯相关系数C-MCC61，的模型的性能，该模型由于存在未标记的样本而调整MCC值。vjL品论天涯网

Life2vec比基线高出11%。请注意，增加RNN模型的大小并不能提高它们的性能。vjL品论天涯网

下图2.D还细分了各种子组的性能:基于年龄和性别的交叉组，以及基于序列长度的组。vjL品论天涯网

vjL品论天涯网

预测个性的细微差别vjL品论天涯网

死亡作为一个预测目标是明确定义的，也是非常可衡量的。vjL品论天涯网

为了测试life2vec的多功能性，研究人员人员现在预测「个性细微差别」，这是测量光谱的另一端的结果，是个体内部的东西，通常可以通过问卷调查来衡量。vjL品论天涯网

尽管很难测量，但个性是塑造人们思想、情感和行为并预测生活结果的重要特征。具体地说，研究人员关注内向-外向维度领域中的人格细微差别（为了简单起见，下面是外向），因为相应的人格细微差别是上个世纪(在西方世界)出现的基本人格结构的几乎所有综合模型的一部分。vjL品论天涯网

作为研究人员的数据集，研究人员使用了在「丹麦个性和社会行为小组」（POSAP）研究中为一大群有很大代表性的个体收集的数据。vjL品论天涯网

研究人员随机选择一个项目（个性细微差别）每个外向方面，并预测个人水平的答案。vjL品论天涯网

vjL品论天涯网

上图显示，将Life2vec应用于生命序列不仅允许研究人员预测早期死亡率，而且具有足够的通用性，足以捕捉个性的细微差别）。vjL品论天涯网

Life2vec在所有项目上的得分都高于RNN，但只有在项目2和3上差异有统计学意义。为这一特定任务而训练的RNN也能够提取个性周围的信号，这一事实突显出，尽管变压器模型很强大，但使Life2vec如此通用的很大一部分原因是数据集本身。vjL品论天涯网

概念空间:理解概念之间的关系

研究人员方法的新奇之处在于，该算法学习包含人类生活中可能发生的所有事件的单个联合多维空间。研究人员从可视化开始研究人员对这个空间的探索。vjL品论天涯网

全局视野vjL品论天涯网

vjL品论天涯网

在上图中，使用PaCMAP将原始的280维概念投影到二维图上，该图保留了高维空间的局部和全局结构。vjL品论天涯网

在这里，每个概念都根据其类型进行着色。vjL品论天涯网

这种颜色清楚地表明，总体结构是根据合成语言的关键概念组织的:健康、工作类型等，但有有趣的细节，将出生年份、收入、社会地位和其他关键的人口统计信息分开。这个空间的结构是高度鲁棒的，并在一系列条件下可靠地重复出现。vjL品论天涯网

概念空间的精细结构是有意义的。深入挖掘全局布局，研究人员发现该模型学习了附近概念之间的错综复杂的关联。vjL品论天涯网

研究人员通过邻居分析来研究这些局部结构，该分析利用原始高维表示中概念之间的余弦距离作为相似性度量。vjL品论天涯网

个人摘要

的摘要是一个单一的向量，它概括了一个人的整个生活事件序列的基本方面。vjL品论天涯网

个人摘要跨越了研究人员的人嵌入的空间。为了形成人的摘要，模型确定哪些方面与手头的任务相关。从这个意义上说，人称摘要是以特定的预测任务为条件的。下面，研究人员侧重于死亡可能性的人称摘要。vjL品论天涯网

vjL品论天涯网

上图可视化了个人概要的空间。vjL品论天涯网

相对于死亡率预测，该模型将个体组织在从低到高的估计死亡率（D组中的点云）的连续体上。vjL品论天涯网

在图中，研究人员通过红色菱形显示真实的死亡，而预测的可信度通过点的半径来表现（例如，具有小半径的点是低置信度预测）。vjL品论天涯网

此外，使用从黄色到绿色的颜色映射来显示估计的概率。vjL品论天涯网

研究人员看到，虽然区域2大多数都是老年人，但仍然看到很大一部分年轻人（图5E），它包含一小部分真正的目标(图5F)。vjL品论天涯网

B区具有很大程度上相反的结构，大多数是年轻人，但也有相当数量的老年人（图5E），只有一人实际死亡(图5F)。vjL品论天涯网

当研究人员查看低概率区域的实际死亡时，研究人员发现距离区域1最近的5个死亡原因如下--两个意外，脑部恶性肿瘤，宫颈恶性肿瘤，心肌梗死。vjL品论天涯网

参考资料:vjL品论天涯网

https://arxiv.org/abs/2306.03009vjL品论天涯网