百科问答小站 logo
百科问答小站 font logo



目前 AI 在疾病的诊断和治疗上,有哪些成功的应用? 第1页

  

user avatar   tiancaomei 网友的相关建议: 
      

AI医疗目前存在两种应用:

  • AI指导医疗,比如药物研发,疫苗设计,
  • 以及AI辅助医疗,比如医疗影像识别,自动化医院管理等。

AI药物研发

由于当前全球的迫切公共卫生形势,医疗行业从未像今天这样高度重视疫苗和药物的研发效率。《Nature》数据显示:一款新药的平均研发成本大约是26亿美元,耗时约10年,成功率不到10%。而一款新药从研发到最后上市,需要经过药物发现、临床前研究、临床研究以及审批与上市 4 个阶段,这意味着有 90% 以上的药物会在临床阶段被淘汰。也正因为此,药物研发成为了一种重资产,高风险行业。显然,新药研发就是和病毒赛跑,可是为什么总是漫长且艰难?



通常来说,药物要在生物体内对特定疾病发挥作用需要一个有效作用目标,药物学中叫做「靶点」。传统药物研发早期,通常以寻找靶点为主。一旦新靶点获得临床验证,各大公司会前赴后继扑入研发。正是因为靶点难寻,所以「叠罗汉式」研发大行其道,对一个有效靶点研究深入的公司,其估值也是高不可攀。

在这个过程中,新药研发工作者通常需要进行数以百万计的试验发现苗头化合物,主要手段是通过大规模高速筛选,在非常短时间内找出最有潜力的化合物,提高药物发现的苗头化合物几率。这类筛选被叫做高通量筛选。通常一种药品需要对5000~10000种化合物进行筛选,最后可能仅有 5 种左右进入最后研究阶段。由于工程量巨大,所以药品研发的临床前研究阶段一般需要耗时3至6年。

计算机和医疗行业一致认为,AI能够大幅度加速药物研发的全流程,而且这已经实际上成为现实。1981 年的《Discovery》杂志就曾提到“平均下来,医药公司每筛选出的8000个药用分子中,只有1款能最终问世。计算机有望能提高这个比例——化学家们再也不用整周、甚至是整月地呆在实验室,去测试那些计算机认为难以成功的分子”。这仅仅是药物发现而已,如果从全药物研发流程来看,AI产生的作用将远不止于此,比如:

  1. 研发前期。研究人员可以通过机器学习,利用化学规则扩展构建大量虚拟化合物,借助人工智能、NLP、知识图谱等技术可在海量信息中提取出能够推动药物研发的知识,进行聚类分析,帮助提出新的可以被验证的假说,从而加速药物研发的过程。
  2. 药物发现阶段。AI 新药研发可应用聚焦于靶点的发现、验证,以及候选药物分子的筛选优化。现在的一些机器学习平台已经学会识别重要的化学基团如氢键、芳香烃和单键碳,以及分析化合物构效关系,识别医药化学中的基础模块,用于新药发现和评估新药风险。此外,针对候选药物提取、合成、纯化等工艺优化,人工神经网络可解决依靠传统数理方法建模难以解决的多变量优化问题,例如 ANN 等非常适合处理配方设计时复杂的多元非线性关系。
  3. 临床试验期间。涉及临床试验设计、患者招募和大规模临床数据处理工作。其中,招募合适的志愿者一直是制药公司面临的难题之一,在时间就是金钱的药物研发过程中,除了招募的直接成本,由于延长时间造成的间接成本也不容忽视。在实际过程中,大多数临床试验不得不大幅延长其时间表,因为在原定时间内很难发现足够数量的患者。对此,借助大数据和人工智能技术可精准挖掘目标患者,快速实现患者招募。

从上述角度来讲,AI药物筛选,以及前段时间刷爆朋友圈的AI基因预测,是已经明确的未来的方向,也应当是AI在医疗领域最最主要的变革之一。

AI辅助医疗

医生需要良好的研究和医治环境才能高效治愈病人, AI可以在很多场景中可以替代繁琐的人工,辅助医疗实践。这些场景包括医疗信息化建设,AI医疗图像识别,以及作为支柱的大规模医疗数据分析,这些正在成为AI辅助医疗市场的重要支柱。

事实上,自从2017年起,AI辅助医疗市场就风起云涌,特别是AI医疗影像。一个具体的例子就是,“北京的医院扫描量日均四五百次,CT扫描可能有上千次,但是影像科大夫也就二三十人,人均报告数可以说超出想象。“这促成了医疗影像市场在当年的火热,据数据显示,2015年-2020年上半年,医疗AI影像的融资数量接近两百起,2020年的融资额就高达112亿元。


AI医疗影像获得巨大投资有很多原因,而其中之一应当归功于计算机视觉的巨大飞跃,但是,和其他计算机视觉不同的是,AI医疗很难获得足够数据:医疗数据十分敏感,标注/去敏感成本很高,导致能直接用于训练的数据非常少。换句话说,阻挡医疗AI发展的最大障碍并不是技术,而是数据获取。

我相信其中的原因是,医疗数据的标注流程需要专业人员参与,这是存在门槛的。这导致目前的一些初创公司,医疗AI数据集可能只有几十或者几百个典型数据,这对严重依赖数据的AI算法进步影响巨大,因为这种小样本训练往往会导致整体系统在实用时产生较大偏差。为此相当多公司为此开发相应的平台,期望医生可以在行医过程中进行自动化标注,比如东软曾开发飞标医学影像标注平台加速数据标注。

医疗信息系统是东软作为平台厂商的传统强项,而飞标医学影像标注平台试图通过低侵入式方式,利用临床医疗系统数据来关联挖掘电子病历,影像报告和医疗影像数据,这样可以更加自动化完成数据标注,完成医疗数据相关生产,甚至可以结合其他平台完成医疗数据的跨院使用,通过智能医疗云平台,加速医疗自动化进展。

医疗科研数据

我们可以毫不犹豫的说,医疗科研数据已经成为目前大多数医疗AI最大的问题。但是,目前大部分的医院都有自己的储存体系,导致现在的医疗数据整体呈现碎片化,孤岛化,从而医疗数据大多质量不佳,数据缺失,模糊,当然也就无法标注,更无法直接被科研采用。

为此,在医院信息系统中通过自然语言处理,或者其他方式,在医生输入时直接处理数据,并进行结构化储存,成为目前医疗信息领域解决数据短缺最主要的解决方案,其中以东软的CareVaule智能医疗研究云平台为例。在医院信息系统中,通过电子病历规范结构化数据,并通过相应的自然语言处理自动化推荐相应的处理方案,便利此后的数据利用。

考虑到大多医生没有时间标注数据的问题,这套系统同样可以采用事后标记的方式,让专业数据标注人员完成数据标注,从而让原本的病历数据直接能够被医疗科研人员复用,不断迭代开启医疗模型训练。而经过处理,脱敏之后的数据可以上传到云端,参与智能医疗研究云的各个单位可以分享,并完成相应大数据集的构建和分析工作,解决医疗行业的数据质量,数据标注问题,加速医疗科研的不断发展。

而对于已经足够的标注数据用作训练时,智能医疗科研云也可以对某些疾病针对开始训练,从而完成相应疾病的识别,加速医疗算法研究。

科研云实现方案

毫无疑问,云架构可以给科研数据分享,并支持快速发展的公司进行数字化转型,数据标注提供便捷的服务和渠道。医院如果愿意使用公共云,可以获得比较高的计算效率,有利于节约成本,但这其实并不适合医疗这类高敏感数据场景。特别是在目前,大多数人都比较在意隐私的情况下,病人数据要严格管理流通路径。因此,虽然目前医疗机构对云计算的顾虑在逐渐消弭,对云计算的了解,任何和接纳程度都在不断提高,目前的医疗云,以及类似的金融云业务都主要以私有云业务,或者混合云业务为主,很少直接采用公有云服务。

根据移动信息化研究中心数据显示:目前 21.7% 的二级以上医院已部署了云计算应用,5.3% 的医院正在部署,8.6% 的医院正在评估,23.4% 的医院表示未来 1-2 年部署。而且,从目前的行业联盟,特别是医院联盟来看,区域化的卫生系统正在成为趋势,比如以北京医院为例 [2],其联合其他医院建立了多个区域医学中心,并与至少60余家单位形成了协同研究网络,包括20余家协同创新单位,40余家协同创新合作单位。而这些单位分布全国各地,共享科研网络,单个,传统的医院内部运行的信息化系统,并不能支撑这种网状的医院体系,共享的科研混合云平台,才能更好的支撑这类「医联体」建设。

也正因此,独立建云是医疗行业部署云计算的主要方式。而更有意思的是,为了提升AI辅助诊断系统的推理速度,东软CareVault主要采用第三代英特尔® 至强® 可扩展处理器平台的作为架构基座,同时利用芯片集成的AI加速功能,以及AVX-512指令集,相比于GPU处理器降低了总体拥有成本,有利于用户充分利用现有硬件资源,提升投资回报率。

从另一方面来说,东软CareVault智能医疗研究云也利用了英特尔提供的OpenVINO™ 工具套件,通过将深度学习模型从FP32转变为INT8数据类型,这种数据精度降级之后,通过将其转变为INT8低精度的定点运算,这种方案可以在不显著影响推理准确度的前提下,提升计算速度,并降低功耗。

此外,在第三代英特尔®至强®可扩展处理器里,英特尔进一步为OpenVINO™ 提供了更深层次的优化,可以支持bfloat16数据类型,这样可以在原本的服务器CPU平台上获得预计至少1.9倍的性能提升和高达2.2倍的虚拟机提升。

在合作测试中,东软CareVault以及英特尔合作,将第二代英特尔® 至强® 可扩展处理器与 第三代英特尔® 至强® 可扩展处理器进行了对比测试(如图 2)。 数据显示,在同时将 FP32 转换成 INT8 的场景下,第三代 英特尔® 至强® 可扩展处理器能够将推理速度(吞吐量,FPS) 提升 49%。

从总体来看,基于第三代英特尔®至强®可扩展平台的CareVault智能分析云平台可以帮助用户获得三大优势:

  • 大幅提升 AI 辅助诊断效率:第三代英特尔® 至强® 可扩展处 理器以及其支持的高效 INT8 转换可显著加快深度学习推理速度,帮助医疗机构提升 AI 辅助诊断效率、在单位时间内处 理更多业务。
  • 有效降低总体拥有成本(TCO):通过该平台提供的软硬件组合,用户能够在确保强大性能的前提下,降低在 GPU 服务 器上消耗的昂贵成本。同时,这也有助于用户充分利用现有的硬件资源,提升投资回报。
  • 快速转换与应用:当将东软集团 PIS 应用从 FP32 转换成 INT8 时,用户只需很少的代码更改,就可以在几天之内无缝完成转换,能够有效避免平台迁移可能带来的业务停顿、成本提升等风险。

大多数医院的混合云转型,往往也是徐徐渐进的,通常采用「逐步替换」的策略,即先将亟需共享的业务云化,此后再去考虑云化核心业务,因此将目前急需共享数据支持的科研系统,通过云化方式共享脱敏后的数据,再通过加速共享模型训练,可以提供弹性和平滑的业务扩展,比如,如果医院需要基因测序,临时需要大量的计算资源,那么在本地资源不足的情况下,也有望通过远端云服务(不至于AI云服务)进行加速,临时征调共有计算资源。

总之,混合云将大概率成为中国医院云化选择,相信在未来,AI与云服务的结合可以给医疗带来更多空间,帮助建设更好的现代医疗体系。


PS. 各位观众姥爷如果想要体验OpenVINO™ ,可以参考Intel提供的以下测试链接进行参考。

测试分为三步,首先选择Intel AI加速演示,远程服务器会自动进入测试流程,通过选择同样两台配置,但是分别采用FP32和INT8数据类型的服务器,点击运行按钮之后可以在界面上直接开启对相应图片的推理速度测试。从原理上来看比较明显,数据精度降低而整体芯片处理速度不变的情况下,单位时间计算的数据量变小,自然会带来极大的推理速率提升,从测试结果来看,这带来的推理速度提升十分明显,大约是原本的三倍左右,也就是说当FP32模型完成第五轮训练时,INT8模型已经接近第15轮,(具体测试可以看下方的小视频,当然我其实更好奇的是准确度有多少损失)。

https://www.zhihu.com/video/1425975830858506240

[1] Zeng W, Guo L, Xu S, et al. High-throughput screening technology in industrial biotechnology [J]. Trends in Biotechnology, 2020, 38(8): 888-906.

[2] 数字化“抗疫” 北京医院做对了什么?. 腾讯新闻




  

相关话题

  2020 年过去了,人工智能领域都有哪些突破? 
  为什么人工智能用 Python? 
  如何评价深度学习之父Hinton发布的Capsule论文? 
  人工智能会是泡沫吗? 
  未来十年,AI 将可能与哪些产业结合应用?产生怎样的价值? 
  如何评价 CVPR 2020的论文接收结果?有哪些亮点论文? 
  如何评价 BERT 模型? 
  为什么香农要将信息熵公式要定义成 -Σp·log₂(p) 或 -∫p·log₂(p)dp? 
  如何评价基于游戏毁灭战士(Doom)的AI死亡竞赛大赛结果? 
  如何评价浪潮发布的2457亿参数源1.0智能大模型?与GPT-3相比如何?处于AI模型领域什么水平? 

前一个讨论
人的痛苦源于什么?如何才能不痛苦?
下一个讨论
为什么softmax很少会出现[0.5,0.5]?





© 2024-11-24 - tinynew.org. All Rights Reserved.
© 2024-11-24 - tinynew.org. 保留所有权利