研究显示,乳腺X射线摄影中的人工智能可能会受患者年龄和种族的影响而产生误报,这凸显了多样化训练数据的重要性。最近的一项研究分析了近5000张由FDA批准的人工智能算法解读的乳腺筛查照片,发现患者的种族和年龄等特征会影响假阳性率。研究结果发表在今天(5月21日)出版的北美放射学会(RSNA)期刊《放射学》上。
示例:一名59岁的黑人患者乳腺纤维腺体密度散在,乳房X光检查假阳性病例评分为96分。(A)左侧头尾切面和(B)内外侧斜切面显示外上象限中间深度(方框)有血管钙化,人工智能算法将其单独识别为可疑发现,并将单个病灶评分定为90分。因此,乳房X光检查的总分为96分。资料来源:北美放射学会(RSNA)
北卡罗来纳州达勒姆杜克大学助理教授、医学博士德里克-阮(DerekL.Nguyen)说:"人工智能已成为放射科医生提高乳房X光筛查阅读效率和准确性,同时减轻阅读者倦怠感的一种资源。然而,患者特征对人工智能性能的影响还没有得到很好的研究。"
阮博士介绍说,虽然初步数据表明,将人工智能算法应用于乳腺X光筛查检查可能会提高放射科医生对乳腺癌检测的诊断性能,并缩短判读时间,但人工智能也有一些方面需要注意。
他说:"用于人工智能算法训练的人口统计学多样化数据库很少,FDA也不要求多样化的数据集进行验证。"由于患者群体之间存在差异,因此研究人工智能软件能否适应不同年龄、种族和民族的患者,并使其表现达到相同水平非常重要。"
在这项回顾性研究中,研究人员确定了2016年至2019年期间在杜克大学医学中心进行数字乳腺断层合成筛查的阴性(无癌症证据)患者。所有患者在接受乳房X光筛查后都接受了为期两年的随访,没有患者被确诊为乳腺恶性肿瘤。
研究人员从这一群体中随机抽取了一个子集,该子集由4855名患者组成(中位年龄54岁),广泛分布在四个民族/种族群体中。该子集包括1316名(27%)白人患者、1261名(26%)黑人患者、1351名(28%)亚裔患者和927名(19%)西班牙裔患者。
一种市售的人工智能算法对乳房X射线照片子集中的每次检查进行解读,生成病例评分(或恶性肿瘤的确定性)和风险评分(或一年后的恶性肿瘤风险)。
阮说:"我们的目标是评估人工智能算法在不同年龄、乳腺密度类型和不同患者种族/族裔中的表现是否一致。"
鉴于研究中的所有乳房X光检查结果均为阴性,因此该算法标记为可疑的任何结果均被视为假阳性结果。与白人患者和年龄在51-60岁之间的女性相比,黑人患者和年龄较大的患者(71-80岁)更容易出现假阳性病例评分,而亚裔患者和年龄较小的患者(41-50岁)则较少出现假阳性病例评分。
"这项研究非常重要,因为它强调了医疗机构购买的任何人工智能软件在所有患者年龄、种族/族裔和乳房密度方面的表现可能不尽相同。展望未来,我认为人工智能软件的升级应侧重于确保人口多样性。"阮博士说,医疗机构在购买用于乳房X光筛查解读的人工智能算法之前,应了解其服务的患者群体,并向供应商询问其算法培训情况。
掌握本机构的人口统计学基线知识,并向供应商询问其培训数据的种族和年龄多样性,将有助于你了解在临床实践中会面临的限制。
编译来源:ScitechDaily
【查看完整讨论话题】 | 【用户登录】 | 【用户注册】