机器学习合适医疗范畴吗?
作者头像
  • 刘小刚
  • 2019-12-14 16:20:37 3

当前的模型确实非常复杂,能够捕捉到极为精细的视觉特征,以至于人类肉眼难以理解。然而,仅仅因为人眼的局限性,我们就应该放弃使用这些系统吗?

Eric Bender撰文,由编辑部翻译。

世界各地的医疗机构中,“深度学习”技术已经开始辅助或替代人类处理一些常规任务,比如医学影像分析。波士顿麻省总医院的乳腺成像部门负责人康斯坦斯·莱曼(Constance Lehman)提到,每年进行的50,000次乳腺X光检查,每次的结果都会经过深度学习模型处理,并将信息提供给放射科医生。

深度学习是人工智能的一部分,也被称作“机器学习”。这种技术使计算机能够根据大数据自主做出预测。近年来,这项技术快速发展,广泛应用于医疗诊断、在线购物以及自动驾驶等领域。

然而,由于深度学习工具往往以一种“黑箱”方式运作,这引发了人们对这些工具决策过程的担忧。越来越多的研究人员呼吁,需要明确解释这些工具是如何做出决策的。在医学领域,由于这些工具的判断可能直接影响患者的生命,因此风险尤为显著。

尽管存在担忧,但深度学习的优势依然显著。在麻省总医院的乳腺X光检查项目中,当前的深度学习模型有助于识别致密型乳腺。麻省理工学院的计算机科学家雷曼(Lehman)和里贾纳·巴齐莱(Regina Barzilay)开发了一种新的深度学习模型,用于预测女性未来五年内患乳腺癌的风险。在一项针对近40,000名女性的回顾性研究中,研究者发现该模型对其中4,000名女性的检测结果明显优于现有标准方法。目前,该系统正在进行进一步测试,未来可能会在医院中常规使用。

虽然深度学习模型的内部机制难以理解,但巴齐莱认为这并不是问题的关键。她指出,医学领域中有很多先进技术,医生并不完全了解其工作原理,例如磁共振成像(MRI)。

然而,仍有人对此表示担忧。研究人员在一篇发表于《英国医学杂志临床研究》的文章中指出,许多机器学习工具仍然是“得出结果却没有附带理由”的黑箱。许多人认为,如果医生不了解算法的诊断依据,那么病人凭什么要相信推荐的治疗方案?

卡内基梅隆大学的计算机科学家扎克·利普顿(Zachary Lipton)表示,在机器学习领域,关于可解释性的讨论已经偏离了重点。通常提供的解释模型往往效果不佳,人们对于系统实际提供的内容感到困惑。

为了提高深度学习的透明度,计算机科学家们正在探索多种方法。例如,预测乳腺癌风险的模型可以使用热图方法,让放射科医生放大乳腺X光图像中模型关注的区域。模型还可以提取并突出显示描述其看到内容的文本片段。

此外,深度学习模型还可以显示与目标区域相似的其他区域的图像,以便人类专家评估机器的选择。另一种流行的技术则是将更易理解的数学方法应用到数据子集中,以了解整个数据集的处理过程。

在伦敦,来自摩尔菲尔德眼科医院和DeepMind团队也致力于提供更深入的解释。他们的系统通过深度学习对病人的视网膜进行分类,成功识别出需要紧急转诊的病例。该模型为每种诊断提供了几种可能的解释,并显示了它如何标记患者眼睛的各个部分。

多伦多SickKids研究所遗传与基因组生物学高级科学家安娜·戈尔登伯格(Anna Goldenberg)认为,将深度学习引入临床的关键在于“建立最佳系统,然后分析其行为”。

即使计算机科学家找到一种方法来展示深度学习工具的工作原理,医生最终仍需决定这些解释是否充分。医生不仅关心模型的实际准确性,还需要了解系统在现实世界中的表现。

例如,当医生试图发现小肿瘤或心脏骤停的早期迹象时,“误报”并不那么麻烦,但“漏报”则是个大问题。然而,如果误报率过高,医生可能根本不会使用该系统。戈尔登伯格表示:“医生不需要确切地了解系统的工作原理,但他们需要了解与自己相比,系统将如何做出决策。因此,他们会提出一些反对系统的案例,并根据系统的表现来决定是否可以信任它。”

专家表示,深度学习研究应从分析大量现有医疗记录开始。例如,戈尔登伯格的心脏骤停模型下一步可能运行实验,即“我们可以让系统运行,获取实时输入,但不发送任何反馈给临床医生,以了解实际与系统预测之间的差异”。

“在我们过多地批评AI之前,不妨看看其他系统或工具的表现,很多工具也充满了误报或漏报的情况。而且其工作原理医生们也从未真正了解过。”哈佛医学院的生物信息学家兼医师艾萨克·科恩(Isaac Kohane)认为。

科恩表示,由于AI才刚刚投入实际应用,因此它还没有像其他一些技术那样经历严格的审查。“而且,由于它看起来与血液测试或影像学测试不同,医疗保健系统或监管机构尚未找到正确的方法来确保它们是安全的。”

科恩最担心的是没有人真正知道新模型的效果如何。“随着时间的推移,我们应该更加关注这些项目的误报率和漏报率,”他补充道,“这样即使医生不完全了解背后的原理,它们也足够可靠。”

评估模型性能仍然需要大量的工作。《柳叶刀数字医疗》杂志在2019年发布的一项研究分析了69项关于医学深度学习工具的研究,发现这些模型的表现与医疗专业人员相当。

利普顿表示,这样的研究也可能忽略了许多重要但巧妙的问题,并且往往建立在不稳固的假设上。一个主要问题是:模型的准确性只有基于数据才有意义。实际上,有些情况下甚至没有可用的历史数据。

鉴于深度学习日益增长的力量及其引发的担忧,医学界如何看待这项技术?

加州拉荷亚市斯克里普斯研究所主任埃里克·托波尔(Eric Topol)表示,“如果未来的实验能够证明这些模型的有效性,那么就有理由将其用于临床实践,与医生合作,即使医生不知道这些模型为何有效。”

“但是,每当医生依赖机器时,就会产生抵触情绪,因为医生习惯于控制一切。如果一台机器可以做得和医生一样好,甚至更好,人们就会产生偏见。而压倒性的证据是应对这种负面偏见的一种方式。”

雷曼认为,“黑箱”这个词本身就带有消极色彩。虽然临床医生可能不了解这些工具如何做出每个决策,但如果这些工具能够被证明是有效的,它们本身就可以教会我们新的解释。我们必须学会以不同的方式思考。

雷曼指出,当今医学放弃了电子健康记录、试管和X光机中的大量数据。如果我们能够开始提取这些丰富的数据,并对患者的状况做出更好的预测,我们将彻底改变医疗保健的形式。

摩尔菲尔德眼科医院数字创新主任彼得·托马斯(Peter Thomas)表示,对于那些很少或没有直接就医渠道的人来说,影响将最为深远。Moorfields眼科诊断工具可以帮助医生关注那些最需要帮助的病人。

变革即将到来。巴齐莱表示,在诸如麻省总医院乳腺X光分析等任务中,“深度学习系统的表现已经优于人类”。

当前的模型确实非常复杂,能够捕捉到极为精细的视觉特征,以至于人类肉眼难以理解。但是,仅仅因为人眼的局限性,我们就应该放弃使用这些系统吗?

巴齐莱认为,一旦深度学习系统能够清晰地解释其工作原理,可解释性将不再是问题。但为防止其使用,或许又会出现新的理由。

    本文来源:图灵汇
责任编辑: : 刘小刚
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
范畴合适机器医疗学习
    下一篇