刚过一天就被拆台LeCun公开质疑谷歌《Nature》的乳腺癌AI研究成果

2020年,医疗AI的第一个大新闻属于谷歌。

1月2日,Google Health联合公司旗下DeepMind、伦敦大学学院、剑桥大学、英国吉尔福德皇家萨里郡医院、初创公司Verily Life Sciences、斯坦福医疗中心、英国皇家马斯登医院等多个机构在《Nature》杂志上发表了一篇论文,介绍了一种新型的深度学习钼靶影像系统。

2019年,LeCun与Hinton教授以及Bengio教授三人共同获得了2019年图灵奖,将共同拿到100万美元的奖金。

但是,昨天的这条消息热度还没持续48个小时,就有大牛站出来质疑。

深度学习三巨头之一的LeCun首先站了出来。

11月11日0:00,在杭州阿里巴巴通宵驻场的管家婆ERP运维人员就一刻不停地盯着眼前的电脑屏幕,在这24小时内,管家婆云ERP系统如出现任何的卡顿或漏单现场,驻场人员都要保证第一时间内将一线的情况反馈到成都总部,而在成都总部,技术、运维和客服部门,全员保持在岗状态,在线时刻待命,通过对后台的严密监控快速应对各种突发状况,保障系统运行稳定,保障客户快速、准确下载订单,拣货、配货和发货。

我们要知道,计算机工程界常用的评价指标有两个:

当然,有人反对,也就有人支持。

网上管家婆运维总监叶飞领奖

Accuracy  (准确率):判断正确的样本数与总样本数之间的比例。计算方法为,系统正确判断为阳性与正确判断为阴性的数量之和除以总样本数量。 Precision  (精确率):系统判断为阳性的情况中正确的比例。计算方法为,系统正确的判断为阳性的数量除以系统判断为阳性的总数量。 Recall (召回率):等同于敏感度。

所以,以后对于类似的“准确率超过99%”、“超过医生水平”的话术,我们看看就好。毕竟,AI想要达到或者超过医生的水平,还有很多事情要做。

除了数据集,AI如何能够按照人类尤其是医生的思维来得出结论,其实更加重要。斯坦福大学皮肤科的 Novoa 博士也举了一个例子讨论过这个问题:

Hugh Harvey说到,虽然我们要向谷歌表示祝贺,但是不要忘了,去年纽约大学的团队就取得了更好的结果,有更多的数据验证,和更多的放射科医生进行了对比。并且,纽约大学的代码和数据都开源了。

当然,这个事儿错不在谷歌。

虽然名誉加深,不过LeCun一直以来就是一个批判者,经常会公开发表不同的意见。

上面的这些话都还算客气,不过Hugh Harvey最后一句可就不留情面了:“只是纽约大学的学者们没有PR团队来引起公众的注意罢了。”

当皮肤科医生查看一种可能是肿瘤的病变时,他们会借助一把尺子——就是你在小学时用的那种——来准确测量它的大小。皮肤科医生这样做是为了查看病灶。因此,在一组活检图像中,如果图像中有尺子,算法更可能将其判断为恶性肿瘤,因为尺子的存在与病症癌变的可能性相关。

医学是讲证据的学科,如何证明一项临床成果的先进性,实用性和稳定性,需要工程团队给出充分的理由。就“击败医生”这件事而言,在目前看来还很遥远。“窥一斑而见全豹”这样的方式,并不适用于以“循证”为特征的医学领域。

雷锋网了解到,2017年12月,吴恩达团队就宣布,利用CNN算法识别肺炎的准确率上超越了人类专业医师。紧接着,阿德莱德大学的放射科在读博士Luke Oakden-Rayner就发表文章,质疑吴恩达团队医学影像数据集的可用性问题。

LeCun在质疑什么?

而数据集、思维方式、评价指标,这些都是医疗AI绕不开的问题。

自2012年以来,网上管家婆护航团队已经拥有多年的双11护航商家保障经验。为迎接2019年双11期间客户订单量激增的考验,团队提早在9月初就制订了双十一的护航保障计划。根据客户日均订单量数据分析,对有可能参加双11大促活动的客户店铺运营情况进行调研访问,筛选出大单量客户和超大单量客户,并根据其实际情况来部署服务器,合理分配服务器带宽,响应级别提升到最高级,以保障这些客户平稳地度过双11订单高峰。

这个系统的核心亮点是,与之前的模型相比,该模型有效减少了乳腺癌被错误识别或遗漏的情况,将乳腺癌检测的假阳性率降低了5.7%,假阴性率也降低了9.4%,并号称击败了6名全日制的放射科医生。

谷歌经常会在某些领域“超越”医生。

准备率99%靠谱吗?

因此,现实中,做出一个敏感度高特异度不高,或者反之的系统是很容易的,可以轻松的调整测试样本的阳性阴性比例来优化其准确率和精确率值。

在去年ISSCC(国际固态电路会议)学术会议上发言时,这位“敢说、敢怼”的AI大牛就顺便批判了英特尔神经形态计算实验室主任Mike Davies在搞的神经形态计算,后面自然引起了一场“隔空对战”。

所以,对于谷歌能够击败击败了6名放射科医生,相信LeCun也会有自己的看法。

近十年来,作为全民网购狂欢节的双十一已经成为国内众多电商卖家的一次年度集体大考。“双十一”真正考验商家的不仅仅是急剧飙升的流量和光鲜的订单数据,更是店铺运营能力、团队合作和业务流程等各个方面。最终,所有的检验的结果只有一个,那就是快速地下载订单并及时准确地拣货发货,这当中,电商ERP软件就成为电商卖家手中不可或缺的利器。

不过,围绕这篇论文的争论却没有散去,有学者站出来公开支持LeCun,质疑这篇论文的实际价值。(后期,雷锋网(公众号:雷锋网)将对纽约大学的这篇论文进行编译和解读)

要知道,当时的ChestX-ray14 已经是最大的开放式胸透照片数据集,包含 14 种疾病的 10 万张前视图 X-ray 图像。

不幸的是,Novoa 强调,该算法不知道为什么这种相关性是有道理的,所以很容易误解为一把随机的尺子是诊断癌症的根据。

为了证明自己的观点,Luke Oakden-Rayner博士依次对“标签的准确度”、“标签的医学意义”、“标签对于图像分析的重要性”等三个问题进行了论述。

雷锋网原创文章,。详情见转载须知。

可以发现,准确率Accuracy和精确率Precision严重依赖于样本总数里阳性和阴性的配比,举个极端的案例,设计一个系统,对于所有的输入都报阳性,即敏感度为100%,特异度为0,这就是个没有实际用处的系统,那么此时取100个测试样本中,99个为阳性,1个为阴性,此时计算出的准确率为99%,精确率也是99%。

不过,作为深度学习领域的领军人物,对于人工智能的未来,LeCun的措辞一向很谨慎,“AI离我们的目标还非常远,还达不到我们想要的效果”。

而就在上文中,谷歌此前提到的“晚期乳腺癌的人工智能检测系统,可以在99%的情况下正确区分转移性癌症”,也存有疑问。

“敢说、敢怼”的批判者

在此之前,2017年,谷歌医疗AI在乳腺癌诊断中表现超过人类专业病理检验师。次年,谷歌发布一款针对晚期乳腺癌的人工智能检测系统,可以在99%的情况下正确区分转移性癌症。

巴塞罗那大学机器学习和CV领域的教授Gabriel Oliveira就表示,如果我们不能访问数据集或代码,我们应该如何重现结果或验证它?尽管如此,任何在帮助抗击癌症方面取得的进展和付出的努力都是受欢迎的,所以祝贺谷歌这个团队。

网上管家婆荣获淘宝开放平台和聚石塔”2019年双11保障卓越奖”的背后,是网上管家婆由技术、运维和客服组成的护航团队未雨绸缪和通力协作的结果。

他纠结的一个点在于,谷歌这篇论文的结果,纽约大学的团队在2019年10月就已经做过了。如果谷歌要发表这篇文章,就应该引用NYU的研究内容。

DeepMind的负责人Hassabis回复LeCun说,我们引用了这篇论文,LeCun 应该先看清结果再喷。后面LeCun也解释了,这个确实没看到。

网上管家婆作为国内领先的云服务商,深耕电商ERP领域多年,旗下的管家婆云ERP软件不仅具有“简单、好用、不贵”的特点,并以高效、稳定、安全的运维能力赢得了超过2万家电商卖家的欢迎和信赖。

网上管家婆荣获ERP类“2019年双11保障卓越奖”

拆台“知名”医疗AI论文的现象一直存在。

2019双11,在以天猫为主的各大电商平台实时销售数据不断飙升的背后,是网上管家婆团队用24小时的连续坚守和不眠不休的“护航”,竭力为客户提供高效稳定的IT运行保障服务,确保平稳度过电商大促期间出现的订单激增高峰期。截至2019年双十一当日24:00,管家婆云ERP客户双十一订单成交量达2551万单,成交额突破25.21亿元,网上管家婆团队2019双11护航任务获得圆满成功。

雷锋网查看了一下LeCun的账号,直到1月3日中午11点半,LeCun还在转发帖子,看来对这件事有着一股深深的执念。