Google Health其实是在线管理个人病历的平台(美国叫做EHR电子医疗记录),用户(Owner)是自愿的把健康资料包括处方、过敏史、医学影像和治疗历史记录等上传到这个平台,便利就是可以随时从各个医疗中心查阅和统计自己的医疗/健康记录。但是,Google Health不是首家提供这种服务的平台,微软很早推出了一个类似的HealthVault服务,以及美国在线(AOL)也有类似的个人医疗历史在线管理工具(Revolution Health)(这里微软的服务包含广告,但广告当中的记录或者搜索结果不显示人名,而Revolution Health服务的广告则基于用户年龄、性别以及上网习惯等)。同类的友商还有苹果、亚马逊等。
为什么关闭呢? 商业化压力大,仅仅是一项普通的移动互联网服务(MIS+影像识别),又因医药广告敏感而不能放松审查,导致变现不易。新的安排是Google Health团队拆分到不同部门,比如医疗记录搜索工具团队划入Google研究院,专注于AI医疗影像的团队划入到谷歌的搜索和AI部门(Google AutoML Vision)。
2018年,美国国家卫生研究院确定将人工智能纳入医学成像未来发展的重点领域,并且为图像采集、算法、数据标准化和可转化的临床决策支持系统的研究制定了基础路线。
结合Google Health的分拆事件谈谈AI医疗,尤其医学影像方向的前景。
算力的提高、深度学习架构和专家标记数据集的进步刺激了医学影像AI的发展;其中ML算法的宗旨就是为了减少临床推断所需的时间和人力成本。但在临床实践中,AI往往因为难以兼容输入资料的质量误差并且难以快速完成NN收敛,就会延误治疗;以及,这些应用系统面临的可解释性、不确定性和结果偏差等等都是挑战。
通常意义上标记的数据集基本不能满足需求。临床医学检测和诊断很复杂,结果偏差往往是受限于检测样本/片源的介质材料、年代褪色、机器厂商及其不同的物理参数等等因素,比如30年前的片源与现代片源的噪点解读就不一样,有些来自拍摄,有些来自介质(胶片/玻片/试纸/溶液),有些来自机器误差;对后续推断的结果影响就很大,尤其患者记录需要经过多家医院的协同诊疗,那么通过AI统一合并所有影像的推断结果就更不易了。因此Google Health等平台也曾经倡议“标准化的图像采集协议和临床基本事实裁决的前瞻性数据收集,是构建具有配对临床结果的大规模/多中心成像数据集的必要前提(Prospective data collection with standardized protocols for image acquisition and adjudication of clinical ground truth are essential steps towards building massive multicentre imaging datasets with paired clinical outcomes.)”,比如DICOM标准就是其中一个项目。此外,既然谈到大规模/多中心的影像数据合并,必然牵涉数据主权和隐私问题,因此Google Health也提供一些安全功能或API用来清除或者脱敏掉特定的元数据。
这里所谓的DICOM标准,就是提供一组标准语义,用来对各种医学影像设备和介质中的参数和数据做定义,以便于形成一个可以信赖的具备兼容性的数据标签体系,或是提供给ML模型所使用,或是与临床医生推断对比形成基准测试从而进一步生成专家库。举个例子,比如在CT和MRI图像扫描心脏的情景里,假如使用DICOM标签,就可以让AI模型比较容易的从DICOM元数据中直接提取扫描级的信息,包括采集帧速率、日期、MRI序列 (T1/T2)等,以及更详细的解剖学分割掩码等。总之理想情况是,不同介质/机型/年代的误差会在DICOM标准下被配平为统一标签,并直接生成专家标注数据集。
当然还存在另外一个问题,只有协议和语义标准还不够,ML模型需要训练和进一步调参成为专家库;在多中心协作医疗的体系下不可能全部数据都来源于同一个中心,多中心之间还存在复杂的安全隐私管理要求,因此联邦学习会是最直接的解决方案,可以规避很多数据共享和主权方面的阻力;唯一共享的信息是神经网络在训练过程中学习到的特征,在单位时间内,从每个机构的算法中训练学到的信息(权重)被集中起来并重新利用,这样就可以比较高效的从分布在多中心的大规模数据做集中训练,而不需要彼此传输或是分享任何医学成像数据了;比如美国一些医学中心就是联合起来通过这种方法从胸片断层扫描中检测COVID-19的特征......
另外还有一个阻力是在算法和训练成本。三甲医院的放射科医生平均每人每天阅片万张;比如心脏彩超是2D超声影像,需要从多个不同的视角拍摄,从而对心脏进行更全面的评估;以及放射学的CT和MRI扫描也是一堆二维图像,但又必须按图像顺序做分析,否则医生就可能错过器官之间沿某一轴线延续下来的关联关系。因此这些 "成像 "模式其实更类似于视频,倘若作为图像个体拆开分析,可能导致空间或时间背景的丢失。在超声、CT和MRI扫描的任务中,通过视频的NN算法相比静态2D图片算法有更好效果,但由于集成多个不同的视图平面带来了额外的维度(3D医学成像),将其纳入现有的框架就并不容易。以及,与2D图像的预训练不同,视频NN的训练计算成本要高几个数量级,且几乎没有可靠的医学影像的预训练数据集可用。另外,现在多数医学影像AI的工作机制是【关注从正常背景下诊断少数疾病特征】,都是在训练算法时分配一个简单的数字标签(疾病=1,正常=0)来区分病患结果,这与临床受训的放射科医生学习从成像扫描中诊断不同疾病的经验推理方式有很大不同;为了提供更多<医学知识>,而不是简单针对自然图像/视频的预训练,这就需要有大型的无标签医学成像数据集以及自监督预训练的模式出现,让神经网络被训练成能够从扫描数据中自我描述和理解【在各种病理和生理状态下哪些解剖结构是相互一致或非一致的,包括结合“时间-事件”的理解】,这样的模型不仅具备医学推理能力,也会提供疾病和并发症预测能力;同时也会大幅减少图像分类任务的标注数据量,降低训练成本。
最后还有一个挑战,是缺乏针对ML得出结论的可解释性,因为并不是所有准确或错误的检测结果都是从模型权重中通过可控的方法获得的;这就让AI医学影像检测结果的准确性和工作原理变得扑朔迷离了。讨论可解释性虽然看似扯远了,但对于医学诊断而言,在高度法治和要求权责追溯的社会里,AI诊断的权责风险极高,司法认定其与持牌医生享有同等诊断效力和处方权的情形不可能存在。AI仅能用于辅助检测。
实验示例:
a,使用MNIST数据集的真实标签训练的模型(上)和随机噪声训练的模型(下)进行的对比实验;通过可视化方法进行评估时,在随机噪声上训练的模型仍然生成了类似的圆形形状...
b,超声图像的视图平面检测:错误的分类(左上)和正确的分类(右上)都生成了类似的saliency_maps(下)...
注:上海交大在2020年发布过一个MedMNIST医疗图像数据集,对于促进AutoML算法在医疗图像分析领域的研究更有意义。其共包含10个开放的医疗图像数据集(数据来自多个不同的数据源,并经过预处理);与MNIST数据集类似的是,MedMNIST数据集也在轻量级28*28图像上执行分类任务,所含任务覆盖主要的医疗图像模态和多样化的数据规模({从100到100000} 和任务 {二分类/多分类、有序回归和多标签} )。
表中看出,Google AutoML Vision整体性能较好,但并不总是最优,有时甚至输给ResNet-18和ResNet-50。Auto-sklearn在大部分数据集上表现不好,看来典型的ML算法在该医疗图像数据集上性能较差。AutoKeras在大规模数据集上性能较好,在小规模数据集上表现一般。
没有哪种算法能在十个集上取得很好泛化性能,这也有助于继续探索AutoML算法在不同数据模态、任务和规模的数据集上的泛化效果。
近几年走访过国内外的几支AI医疗影像的团队,仅局部谈谈国内AI阅片方向的情况:
倘若是X光片,业内平均10万张片源,即可训练并收敛到较为准确的神经网络,进而提供成熟的应用去替代放射科医生的阅片工作。
X光片的特征粒度较粗,通常是判断骨折等类型的大尺度特征。但CT/核磁共振等影像则不同,一般用于判断细小囊肿或细胞癌变等细微特征,例如CT影像的早期肺癌筛查(即疑似肺结节癌变特征),看似AI的效率更高,筛选30名患者的9000张CT影像,需要4名放射科医生工作数小时筛查,AI只需20-30分钟;
通常每位来自三甲医院的肺结节筛查患者要产生200-300张CT影像,放射科室的医生每天大概浏览4万张片(按三甲医院每日接待200例患者来算);比如前文谈过,心脏彩超是2D超声影像,需要从多个不同的视角拍摄,从而对心脏进行更全面的评估;以及放射学的CT和MRI扫描也是一堆二维图像,但又必须按图像顺序进行分析,否则医生就可能错过器官之间沿某一轴线延续下来的关联关系。
但由于癌变筛查是“细胞级的转移和病变特征”,每个癌变脏器的病例特征至少需要200万张片源去训练,再乘以多个脏器,是否就意味着AI模型的工作成效将进一步扩大呢? 然而,这200万片源可能是跨越了15年期、来自50万人的病例、来自不同物理特性机器和不同介质材料的片源,在这一复杂语料之下,干扰项甚多,纵然获得了200万片源,也不容易收敛为精确模型;
例外是:诸如“SIEMENS或GE”这类公司可以做的更好,因为其掌握着自身生产的所有机型和介质的物理属性。施加参数纠正干扰噪声,达到准确收敛的能力是具备的。
国内某一线AI医疗影像公司,商业模式很聪明,虽然BP里仍在谈癌变筛查,但其主要营收是在X光片,X光片更容易训练,且帮助国家解决了低级城乡医疗水平的问题,比如前述的 “上山下乡提供精准读片服务并形成长尾收费,进而连接远程辅助医疗服务的故事”,有稳定收入和市场潜力…
相比较欧美,还有几个因素正在制约国内的AI医疗:
1、保险公司不给兜底,它只与公立医院存在结算关系,并基于持牌医生的书面诊断;司法取证效力;那么AI在无人工干预前提下作出的检测结果只是一个“待确认”的半成品。
2、AI的检测样本很难合法获得;我们理想中的、或是欧美正在开展的诊疗体系,是不分地域、不分机构的共享多种类型检测样本,并综合比较做出判断;但我们的医疗资源集中在行政组织下,无法满足上述条件,或只能在一家机构中满足。
3、AI没有诊断能力,即使有,也入不了电子病历EHR;欧美畅行协作医疗体系,患者可以在第三方医学检测中心获得检测结果,进而去社区医院获得初步诊断,并随后获得来自其他机构的资深医生的远程医疗会诊结果,进而在公立医院获得住院治疗;全程的检测结果、诊断、处方、病历都是在统一的系统认定下;每个环节都可以合规衔接,AI算法可以充分衔接上下文,并作为EHR中可以参考的记录。
4、技术上AI做不到,至少不能泛化;多家机构的检测结果、多种器材的检测结果、多种材质(胶片/玻片/试纸/溶液)的检测结果,无法得到行业共识性的认可,正文已经说明了原因;而欧美协作医疗体系对于这种差异的容忍度很高。
5、缺乏针对ML得出结论的可解释性,并不是所有准确或错误的检测结果都是从模型权重中获得的;那么在高度法治和要求权责追溯的社会里,AI直接做出诊断的权责风险极高,司法认定其与持牌医生享有同等诊断效力和处方权的情形不可能存在,AI只能用于辅助检测。
这再一次证明了医疗体系和医学本身的复杂性远高于其他行业,不能正确的对待医学的专业性,不能把医学的专业性放在技术手段之前,在消费领域所向无敌的互联网公司,如果还是以消费领域的C端思维做医疗,无论是谁,都做不好。
Google Health 是2010年我在美国葛兰素史克风险投资部门第一批跟踪的数字化项目,模式就是2015年之后被国内各个巨头轮番抄袭了了好几轮的个人医疗和健康信息平台(表型数据)。这个平台2012年就结束了,原因和之后国内各家失败的原因都一样,盲目崇拜C端流量,缺乏对医学常识的基本尊重,在不了解整个医疗体系的前提下,没有实质性提高医疗能力,而是希望通过平台来实现用户垄断,转移医疗体系的利益链。至于收集的数据是什么,在这个商业模式里,无足轻重。
2018年,Google 重新组建了 Google Health, 主要以工具性产品出现,也符合“马爸爸要消灭医生而被现实狠狠打脸”之后的互联网行业对医疗认知的转变,提供了包括医生辅助工具,病理图像分析等常见服务。期间 Google 试图通过和 Mayo & Ascension 等大型医疗集团的合作取得患者数据,但是因为互联网公司常见的用户隐私滥用,从而引发公众和监管机构针对其破坏HIPAA准则的争议,最后 Google 和医院端的合作终止,只能和十年前一样,转回C端,最后失败和分拆。
Google Health 的兄弟公司 Verily也没有好到哪里去,其定位于智能硬件从C端获取数据的,融资额度惊人,亏损惊人,数据质量差的惊人,2014年就开始规划,2017年开始执行的,用于取得个人健康数据的基线计划 Baseline Project(基因型+表型数据)参与者不超过一万人。整个项目还没完成就已经落后于诸如英国的 BioBank,冰岛普筛,迪拜普筛,华西罕见病普筛等药企或者专业医疗机构主导的全基因组计划 (10万-100万人),更不用说MELLODDY等主要药企间临床数据共享协议。Verily 的数据在商业上已经失去应用价值。
如果回溯上面三段话,就能看到问题都出在C端思维,也就是互联网思维,用流量补质量,用流量补专业缺失(底层设计),用流量解决一切问题。当然,再深究的原因,第一层在于伦理和数据安全,第二层是数据质量和数量,第三层是数据应用。Google Health 1.0 在第一层之前倒下,Google Health 2.0 在第一层倒下,Verily 在第二层倒下。
连数据(真正的数据)都没有 Google Health,再次关停,是一个必然。医疗领域未来前景是医疗+IT/AI,而不是IT/AI+医疗,IT/AI只是一种工具。当然,未来笑到最后的一定是数据所有者,打工的是IT/AI企业,这才是工具的本质。
先声明我不是医生,是医院的乙方,专门造医院的大猛子,已经给十几个医院打过灰。
打灰是造一个医院的第一步,所以会接触各种医院的乙方,确认各种设备的需求问题,而关于设备,影像科是一个重头,恰好AI医疗里面,影像也是重头,所以关于AI医疗,就听甲方说过很多趣闻,我讲一个有点难解的故事。
AI+影像学的公司都要找医院合作才有数据,然后有家公司同时和广东省一家医院(综合排名TOP50以内)和上海一家医院(综合排名TOP10)合作。他们最初找的广东省那家,然后用他们的数据做了一个模型,过了一年和上海这边搭上关系了,他们先把在粤省诊断标准上做的模型拿过来,上海的TOP10试了一段时间表示我们有自己的诊断标准,你们这个模型依据的诊断标准和我们的不一样,然后也不知道AI公司的产品经理咋想的,竟然和上海的TOP10争论起来。后来TOP10『以理服人』,让AI公司把自己标准加进去了,这下TOP50又不乐意了。
其实无论TOP50 还是 TOP10都绝对是当地一流的医院,除了一些罕见病和疑难杂症,两者的口碑和水平差距并不大,但是对于诊疗,两个医院都有自己的流程和标准,不同医院在影像学诊断上的差异是影响着后续的治疗的,虽然两个医院对于影像的判断有差异,但是两者都有与之适配的诊断治疗系统,所以才能成为成为当地一流全国百强。在具体细节的争论里,除了一些意气之争,同行相轻,更多我还是认为是整个医院的系统性差异,对于一些疾病,不同医院因为自己科室齐全程度不同、优势学科差异,最终治疗的方案可能是差别很大的,但是都能给治好。AI公司如何在这里统一这种差异?暂时是一个可能超出自身能力的问题。
实际上在这些年造的医院时候就很明显感受到,不同的医院,他们对于医院建设标准和需求也都有很明显差异,但是没有绝对的正确和错误,因为数据显示出来这些区域的医疗卫生水平差距没有大到黑白这样鲜明的程度。
在各类专业领域,大部分的工作方式其实比较接近决策树而非神经网络,然后一个流程往往前后有很多专业人士经手,整个工作流是若干层决策树的叠加与交叉,现在很多AI团队(不仅是医疗,包括我更熟悉的打灰),总是想切割出部分流程然后实现无人化、自动化,但和前后流程的配合存在很多问题,AI是一个更好的工具,但是目前在各种专业领域想要用好还是很难