由日内瓦大学(UNIGE)、日内瓦大学医院(HUG)和新加坡国立大学(NUS)的研究人员组成的团队创造了一种评估人工智能可解释性技术的突破性方法。其目的是揭开人工智能决策的基础,并确定潜在的偏见。这一成果为提高人工智能驱动的诊断和预测工具的透明度和可信度铺平了道路。
这种新方法揭示了所谓的"黑匣子"人工智能算法的神秘工作原理,帮助用户了解什么会影响人工智能产生的结果,以及这些结果是否可以信任。这在对人类健康和福祉有重大影响的情况下尤其重要,例如在医疗应用中使用人工智能。
这项研究在即将出台的欧盟人工智能法案的背景下具有特别的意义,该法案旨在规范欧盟内部人工智能的发展和使用。这些研究结果最近发表在《自然-机器智能》杂志上。
时间序列数据--代表信息随时间的演变无处不在:例如在医学上,用心电图记录心脏活动;在地震研究中;跟踪天气模式;或在经济学上监测金融市场。这些数据可以通过人工智能技术进行建模,以建立诊断或预测工具。
人工智能的进步,特别是深度学习--包括使用这些非常大量的数据训练机器,目的是解释它并学习有用的模式为越来越准确的诊断和预测工具开辟了道路。然而,由于没有深入了解人工智能算法的工作方式或影响其结果的因素,人工智能技术的"黑匣子"性质提出了关于可信度的重要问题。
"这些算法的工作方式至少可以说是不透明的,"共同指导这项工作的UNIGE医学院放射学和医学信息学系主任兼HUG医学信息科学部主任ChristianLovis教授说。''当然,赌注,特别是经济上的赌注是非常高的。但是,如果不了解机器的推理基础,我们怎么能相信它?这些问题是至关重要的,特别是在医学等部门,人工智能驱动的决策可以影响人们的健康甚至生命;在金融领域,它们可以导致巨大的资本损失。"
可解释性方法旨在通过破译人工智能为什么和如何达成一个特定的决定以及其背后的原因来回答这些问题。''知道在特定情况下哪些因素使天平倾向于支持或反对一个解决方案,从而允许一些透明度,增加对它们的信任,''新加坡国立大学设计与工程学院MathEXLab主任GianmarcoMengaldo助理教授说,他共同指导了这项工作。
"然而,目前在实际应用和工业工作流程中广泛使用的可解释性方法在应用于同一任务时提供了明显不同的结果。这就提出了一个重要的问题:既然应该有一个唯一的、正确的答案,那么什么可解释性方法是正确的?因此,对可解释性方法的评价变得和可解释性本身一样重要"。
区分重要的和不重要的
辨别数据在开发可解释性人工智能技术方面至关重要。例如,当人工智能分析图像时,它专注于一些特征属性。
洛维斯教授实验室的博士生和该研究的第一作者HuguesTurbé解释说:''例如,人工智能可以区分狗的图像和猫的图像。同样的原则适用于分析时间序列:机器需要能够选择一些元素--例如比其他元素更明显的峰值--来作为其推理的基础。对于心电图信号,这意味着调和来自不同电极的信号,以评估可能的不协调,这将是特定心脏疾病的标志。"
在所有可用于特定目的的方法中选择一种可解释性方法并不容易。不同的人工智能可解释性方法往往产生非常不同的结果,即使是应用于相同的数据集和任务。为了应对这一挑战,研究人员开发了两种新的评估方法,以帮助了解人工智能如何做出决定:一种用于识别信号中最相关的部分,另一种用于评估它们对最终预测的相对重要性。为了评估可解释性,他们隐藏了一部分数据以验证它是否与人工智能的决策有关。
然而,这种方法有时会在结果中造成错误。为了纠正这一点,他们在一个包括隐藏数据的增强型数据集上训练人工智能,这有助于保持数据的平衡和准确。然后,该团队创建了两种方法来衡量可解释性方法的工作情况,显示人工智能是否使用正确的数据进行决策,以及所有数据是否被公平考虑。"总的来说,我们的方法旨在评估将在其操作领域内实际使用的模型,从而确保其可靠性,"HuguesTurbé解释说。
为了进一步研究,该团队已经开发了一个合成数据集,他们已经向科学界提供了该数据集,以轻松评估任何旨在解释时间序列的新人工智能。
在医学应用的未来
展望未来,该团队现在计划在临床环境中测试他们的方法,那里对人工智能的忧虑仍然很普遍。MinaBjelogrlic博士解释说,他是Lovis教授部门的机器学习团队的负责人,也是这项研究的第二作者,"建立对人工智能评估的信心是在临床环境中采用它们的关键步骤。我们的研究侧重于对基于时间序列的AI的评估,但同样的方法可以应用于基于医学中使用的其他模式的AI,如图像或文本。"
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】