AI医疗目前存在两种应用:
由于当前全球的迫切公共卫生形势,医疗行业从未像今天这样高度重视疫苗和药物的研发效率。《Nature》数据显示:一款新药的平均研发成本大约是26亿美元,耗时约10年,成功率不到10%。而一款新药从研发到最后上市,需要经过药物发现、临床前研究、临床研究以及审批与上市 4 个阶段,这意味着有 90% 以上的药物会在临床阶段被淘汰。也正因为此,药物研发成为了一种重资产,高风险行业。显然,新药研发就是和病毒赛跑,可是为什么总是漫长且艰难?
通常来说,药物要在生物体内对特定疾病发挥作用需要一个有效作用目标,药物学中叫做「靶点」。传统药物研发早期,通常以寻找靶点为主。一旦新靶点获得临床验证,各大公司会前赴后继扑入研发。正是因为靶点难寻,所以「叠罗汉式」研发大行其道,对一个有效靶点研究深入的公司,其估值也是高不可攀。
在这个过程中,新药研发工作者通常需要进行数以百万计的试验发现苗头化合物,主要手段是通过大规模高速筛选,在非常短时间内找出最有潜力的化合物,提高药物发现的苗头化合物几率。这类筛选被叫做高通量筛选。通常一种药品需要对5000~10000种化合物进行筛选,最后可能仅有 5 种左右进入最后研究阶段。由于工程量巨大,所以药品研发的临床前研究阶段一般需要耗时3至6年。
计算机和医疗行业一致认为,AI能够大幅度加速药物研发的全流程,而且这已经实际上成为现实。1981 年的《Discovery》杂志就曾提到“平均下来,医药公司每筛选出的8000个药用分子中,只有1款能最终问世。计算机有望能提高这个比例——化学家们再也不用整周、甚至是整月地呆在实验室,去测试那些计算机认为难以成功的分子”。这仅仅是药物发现而已,如果从全药物研发流程来看,AI产生的作用将远不止于此,比如:
从上述角度来讲,AI药物筛选,以及前段时间刷爆朋友圈的AI基因预测,是已经明确的未来的方向,也应当是AI在医疗领域最最主要的变革之一。
医生需要良好的研究和医治环境才能高效治愈病人, AI可以在很多场景中可以替代繁琐的人工,辅助医疗实践。这些场景包括医疗信息化建设,AI医疗图像识别,以及作为支柱的大规模医疗数据分析,这些正在成为AI辅助医疗市场的重要支柱。
事实上,自从2017年起,AI辅助医疗市场就风起云涌,特别是AI医疗影像。一个具体的例子就是,“北京的医院扫描量日均四五百次,CT扫描可能有上千次,但是影像科大夫也就二三十人,人均报告数可以说超出想象。“这促成了医疗影像市场在当年的火热,据数据显示,2015年-2020年上半年,医疗AI影像的融资数量接近两百起,2020年的融资额就高达112亿元。
AI医疗影像获得巨大投资有很多原因,而其中之一应当归功于计算机视觉的巨大飞跃,但是,和其他计算机视觉不同的是,AI医疗很难获得足够数据:医疗数据十分敏感,标注/去敏感成本很高,导致能直接用于训练的数据非常少。换句话说,阻挡医疗AI发展的最大障碍并不是技术,而是数据获取。
我相信其中的原因是,医疗数据的标注流程需要专业人员参与,这是存在门槛的。这导致目前的一些初创公司,医疗AI数据集可能只有几十或者几百个典型数据,这对严重依赖数据的AI算法进步影响巨大,因为这种小样本训练往往会导致整体系统在实用时产生较大偏差。为此相当多公司为此开发相应的平台,期望医生可以在行医过程中进行自动化标注,比如东软曾开发飞标医学影像标注平台加速数据标注。
医疗信息系统是东软作为平台厂商的传统强项,而飞标医学影像标注平台试图通过低侵入式方式,利用临床医疗系统数据来关联挖掘电子病历,影像报告和医疗影像数据,这样可以更加自动化完成数据标注,完成医疗数据相关生产,甚至可以结合其他平台完成医疗数据的跨院使用,通过智能医疗云平台,加速医疗自动化进展。
我们可以毫不犹豫的说,医疗科研数据已经成为目前大多数医疗AI最大的问题。但是,目前大部分的医院都有自己的储存体系,导致现在的医疗数据整体呈现碎片化,孤岛化,从而医疗数据大多质量不佳,数据缺失,模糊,当然也就无法标注,更无法直接被科研采用。
为此,在医院信息系统中通过自然语言处理,或者其他方式,在医生输入时直接处理数据,并进行结构化储存,成为目前医疗信息领域解决数据短缺最主要的解决方案,其中以东软的CareVaule智能医疗研究云平台为例。在医院信息系统中,通过电子病历规范结构化数据,并通过相应的自然语言处理自动化推荐相应的处理方案,便利此后的数据利用。
考虑到大多医生没有时间标注数据的问题,这套系统同样可以采用事后标记的方式,让专业数据标注人员完成数据标注,从而让原本的病历数据直接能够被医疗科研人员复用,不断迭代开启医疗模型训练。而经过处理,脱敏之后的数据可以上传到云端,参与智能医疗研究云的各个单位可以分享,并完成相应大数据集的构建和分析工作,解决医疗行业的数据质量,数据标注问题,加速医疗科研的不断发展。
而对于已经足够的标注数据用作训练时,智能医疗科研云也可以对某些疾病针对开始训练,从而完成相应疾病的识别,加速医疗算法研究。
毫无疑问,云架构可以给科研数据分享,并支持快速发展的公司进行数字化转型,数据标注提供便捷的服务和渠道。医院如果愿意使用公共云,可以获得比较高的计算效率,有利于节约成本,但这其实并不适合医疗这类高敏感数据场景。特别是在目前,大多数人都比较在意隐私的情况下,病人数据要严格管理流通路径。因此,虽然目前医疗机构对云计算的顾虑在逐渐消弭,对云计算的了解,任何和接纳程度都在不断提高,目前的医疗云,以及类似的金融云业务都主要以私有云业务,或者混合云业务为主,很少直接采用公有云服务。
根据移动信息化研究中心数据显示:目前 21.7% 的二级以上医院已部署了云计算应用,5.3% 的医院正在部署,8.6% 的医院正在评估,23.4% 的医院表示未来 1-2 年部署。而且,从目前的行业联盟,特别是医院联盟来看,区域化的卫生系统正在成为趋势,比如以北京医院为例 [2],其联合其他医院建立了多个区域医学中心,并与至少60余家单位形成了协同研究网络,包括20余家协同创新单位,40余家协同创新合作单位。而这些单位分布全国各地,共享科研网络,单个,传统的医院内部运行的信息化系统,并不能支撑这种网状的医院体系,共享的科研混合云平台,才能更好的支撑这类「医联体」建设。
也正因此,独立建云是医疗行业部署云计算的主要方式。而更有意思的是,为了提升AI辅助诊断系统的推理速度,东软CareVault主要采用第三代英特尔® 至强® 可扩展处理器平台的作为架构基座,同时利用芯片集成的AI加速功能,以及AVX-512指令集,相比于GPU处理器降低了总体拥有成本,有利于用户充分利用现有硬件资源,提升投资回报率。
从另一方面来说,东软CareVault智能医疗研究云也利用了英特尔提供的OpenVINO™ 工具套件,通过将深度学习模型从FP32转变为INT8数据类型,这种数据精度降级之后,通过将其转变为INT8低精度的定点运算,这种方案可以在不显著影响推理准确度的前提下,提升计算速度,并降低功耗。
此外,在第三代英特尔®至强®可扩展处理器里,英特尔进一步为OpenVINO™ 提供了更深层次的优化,可以支持bfloat16数据类型,这样可以在原本的服务器CPU平台上获得预计至少1.9倍的性能提升和高达2.2倍的虚拟机提升。
在合作测试中,东软CareVault以及英特尔合作,将第二代英特尔® 至强® 可扩展处理器与 第三代英特尔® 至强® 可扩展处理器进行了对比测试(如图 2)。 数据显示,在同时将 FP32 转换成 INT8 的场景下,第三代 英特尔® 至强® 可扩展处理器能够将推理速度(吞吐量,FPS) 提升 49%。
从总体来看,基于第三代英特尔®至强®可扩展平台的CareVault智能分析云平台可以帮助用户获得三大优势:
大多数医院的混合云转型,往往也是徐徐渐进的,通常采用「逐步替换」的策略,即先将亟需共享的业务云化,此后再去考虑云化核心业务,因此将目前急需共享数据支持的科研系统,通过云化方式共享脱敏后的数据,再通过加速共享模型训练,可以提供弹性和平滑的业务扩展,比如,如果医院需要基因测序,临时需要大量的计算资源,那么在本地资源不足的情况下,也有望通过远端云服务(不至于AI云服务)进行加速,临时征调共有计算资源。
总之,混合云将大概率成为中国医院云化选择,相信在未来,AI与云服务的结合可以给医疗带来更多空间,帮助建设更好的现代医疗体系。
PS. 各位观众姥爷如果想要体验OpenVINO™ ,可以参考Intel提供的以下测试链接进行参考。
测试分为三步,首先选择Intel AI加速演示,远程服务器会自动进入测试流程,通过选择同样两台配置,但是分别采用FP32和INT8数据类型的服务器,点击运行按钮之后可以在界面上直接开启对相应图片的推理速度测试。从原理上来看比较明显,数据精度降低而整体芯片处理速度不变的情况下,单位时间计算的数据量变小,自然会带来极大的推理速率提升,从测试结果来看,这带来的推理速度提升十分明显,大约是原本的三倍左右,也就是说当FP32模型完成第五轮训练时,INT8模型已经接近第15轮,(具体测试可以看下方的小视频,当然我其实更好奇的是准确度有多少损失)。
https://www.zhihu.com/video/1425975830858506240[1] Zeng W, Guo L, Xu S, et al. High-throughput screening technology in industrial biotechnology [J]. Trends in Biotechnology, 2020, 38(8): 888-906.
[2] 数字化“抗疫” 北京医院做对了什么?. 腾讯新闻