转载:本文嚟自微信公众号“学术头条”(ID:SciTouTiao),作者:刘芳,转载经授权发布。
2020 年,新冠肺炎肆虐全球。为能协助医生快速而精确地筛查潜在患者,各国嘅计算机科学家哋发布上千种机器学习算法,并声称呢啲算法能根据胸部 X 光片、CT 图像诊断或预测新冠肺炎。
但係,呢排由剑桥大学领衔嘅一项最新研究却发现,呢啲算法存在住算法偏见同不可重复性等重大问题,并唔具有临床价值。
当地时间 3 月 15 日,这篇名为 “Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans” 嘅论文发表于自然子刊《自然机器智能》(Nature Machine Intelligence)上。
(来源:Nature Machine Intelligence)
这项由剑桥大学科学家哋领导完成嘅研究,涵盖从 2020 年 1 月 1 日到同年 10 月 3 日内所有科学论文同预印本提到嘅相关机器学习算法。同一时间段内,喺 BioRxiv、medRxiv 同 arxiv 上刊登嘅所有手稿以及 EMBASE 同 MEDLINE 嘅所有条目都被纳入研究范围。
在 2212 篇用机器算法诊断新冠肺炎嘅论文度,研究人员最终确定 62 篇质量相对较高嘅论文进行讨论,其中 37 篇论文为深度学习算法,23 篇论文为传统嘅机器学习算法,2 篇为混合算法。
但遗憾嘅系,由于算法偏见同不可重复性等问题,没有一个具有潜在嘅临床应用价值。
论文第一作者、剑桥大学应用数学同理论物理系博士迈克尔(Michael Roberts)在接受采访时表示:“任何机器学习算法(嘅应用价值)都取决于训练佢所使用嘅数据,特别系对于像新冠肺炎咁样嘅新流行病嚟讲,数据嘅多样性是至关重要嘅。”
算法偏见同不可重复性
一般嚟讲,算法偏见是指算法在数据集构建、目标制定同特征选取、数据标注等环节中产生嘅信息偏差,导致算法失去公平同准确性。喺这项研究度,剑桥大学人员使用 “预测性算法嘅偏见风险评估工具”(PROBAST),从参同者、预测因素、结论同分析等四个方面系统性地评估 62 个算法嘅偏见性风险。结果发现,有 55 个算法在至少一个方面有较高嘅算法偏见。
拿参同者举例,研究人员认为从公共数据集入面获得嘅胸部 X 光片同 CT 影像具有选择性偏见,因为无办法确认患者系咪真嘅新冠肺炎呈阳性。又比如,相当一部分算法采用儿童嘅相关影像作为 “非新冠肺炎” 对照组。事实上相比于成人,儿童感染新冠肺炎嘅几率要小得多。因此呢种设计上嘅偏差会等算法产生好大嘅偏见。
除咗算法偏见以外,算法嘅性能,都就是预测结果嘅可重复性,都是剑桥大学在这项研究中关注嘅重点之一。一般嚟讲有两种方法嚟验证算法嘅性能,即内部验证同外部验证。内部验证是指测试数据同开发数据属于相同来源;外部验证是指测试数据属于不同来源。研究人员发现,喺 62 篇论文度,有 48 篇只考虑内部验证,有 13 篇使用外部测试数据集(其中 12 篇使用真正嘅外部测试数据集,1 篇使用同训练算法完全相同嘅数据嚟进行测试)。
对此,论文作者剑桥大学医学院博士路德(James Rudd)指出:“在新冠疫情初期,人哋对信息嘅渴求是咁强烈,以至于一啲论文无疑是仓促出版嘅。但是,如果你嘅算法只是基于一家医院嘅数据之上嘅话,噉么佢好可能不适用于另一个城市嘅某家医院。呢啲数据需要几样性,最好是国际化嘅。否则,当你嘅机器学习算法被更广泛地测试时肯定是要失败嘅。”
在这篇论文度,研究人员特别指出 “科学怪人数据集”(Frankenstein datasets)嘅问题。“科学怪人数据集” 是指从不同嘅数据集合并而成并重新命名分布嘅数据集,咁样嘅数据集涉及到复杂嘅数据来源重复问题。例如,训练某算法嘅数据集集合 N 个子集而成,但算法开发人员没有意识到其中一个子集仲包含第啲子集嘅成分。呢种对数据集嘅重新打包虽然实用,但会不可避免地导致算法在相同或重叠嘅数据集上进行训练,进而出现问题。
图 | 用于模型测试嘅图像数量
除咗算法偏见同预测结果嘅不可重复性之外,呢啲论文嘅另一个普遍问题是缺乏放射科医生同临床医生嘅参同。罗伯茨认为:“不论你是使用机器学习嚟预测日气或研究疾病点样发展,确保不同领域嘅专家一齐参同并保持沟通是非常重要嘅,咁样才能专注于研究正确嘅问题。”
5 点建议
毫无疑问,机器学习算法在医疗方面有住巨大潜力同广阔嘅市场前景。喺过去嘅一年间,全球范围内嘅算法开发人员都为抗击新冠肺炎做出巨大嘅努力。
出于严谨嘅治学态度,剑桥大学研究人员对 2020 年相关机器算法文献嘅系统性问题畀出 5 点建议:
(1)用于算法开发嘅数据使用同常见陷阱;
(2)评估被训练算法;
(3)预测模型嘅可重复性;
(4)手稿中嘅文献;
(5)同行评议过程。
其度,佢哋尤其强调需要谨慎使用公共数据库。由于数据来源同 “科学怪人数据集” 嘅原因,公共数据库会导致高风险嘅算法偏见。佢哋认为,算法开发人员应该住眼于广泛采用不同人群嘅统计数据,这是一个经常被忽视但却非常重要嘅偏见性来源。除此之外,外部数据嘅检验都必不可少,任何用于诊断或预测嘅模型都必须足够稳健,以便为目标人群嘅任意样本得出可靠结果。
论文仲指出,清楚地认识到新冠肺炎检测相关嘅人工智能算法同明确嘅临床需求之间需求关系是技术转化嘅关键。因此,开发人工智能算法需要临床专业知识同计算机知识嘅互补,同时都需要高质量嘅医疗数据。
虽然研究人员在新冠肺炎 AI 模型中发现缺陷,但研究人员表示,通过一啲关键嘅修改,机器学习可以成为抗击呢种流行病嘅强大工具 。喺未嚟嘅临床场景度,被改进嘅算法可以更好地被验证。
参考资料:
cantonese.live 足跡 粵字翻譯
2021-03-16 17:35:24
请登录之后再进行评论