西奈山科学家创建了一个基于人工智能的自动化系统,可以学习从电子健康记录中读取患者数据
在这里,该系统从近200万患者(蓝点)的数据库中识别出痴呆病例(紫色点)
信用:格林克斯堡实验室,西奈山,北
Y
,N
Y
在发表在《模式》杂志上的一篇文章中,西奈山伊坎医学院的科学家描述了一种新的、自动化的、基于人工智能的算法的创建,该算法可以学习从电子健康记录中读取患者数据
在一次并行的比较中,他们表明他们的方法,称为Phe2vec (FEE-to-vek),准确地识别了患有某些疾病的患者,与传统的“黄金标准”方法一样,后者需要更多的体力劳动来开发和执行
“电子存储在患者病历中的数据数量和类型持续激增
解开这个复杂的数据网络可能是非常繁重的,从而减缓了临床研究的进展。”
格利克斯伯格博士
D
,遗传学和基因组学助理教授,西奈山哈索·普拉特纳数字健康研究所(HPIMS)成员,该研究的资深作者
“在这项研究中,我们创造了一种通过机器学习从电子健康记录中挖掘数据的新方法,该方法比行业标准更快、劳动强度更低
我们希望这将是一个有价值的工具,促进临床信息学的进一步研究,减少偏见
" 这项研究由杰西卡·K领导
德·弗雷塔斯博士的研究生
格莱斯伯格实验室
目前,科学家依靠一套既定的计算机程序或算法来挖掘医疗记录中的新信息
这些算法的开发和存储由一个名为表型知识库的系统管理
尽管该系统在正确识别患者诊断方面非常有效,但开发算法的过程可能非常耗时且不灵活
为了研究一种疾病,研究人员首先必须梳理大量的医疗记录,寻找与这种疾病有独特联系的数据,如某些实验室测试或处方
然后,他们编写算法,引导计算机搜索那些具有疾病特异性数据的患者,这些数据构成了“表型”
反过来,由计算机识别的患者名单需要由研究人员手工反复检查
每次研究人员想要研究一种新的疾病,他们必须从头开始重新开始这个过程
在这项研究中,研究人员尝试了一种不同的方法——计算机自己学习如何识别疾病表型,从而节省研究人员的时间和精力
这种新的Phe2vec方法是基于研究小组已经进行的研究
Riccardo Miotto博士说:“以前,我们表明无监督的机器学习可能是挖掘电子健康记录的高效策略。”
D
,前HPIMS助理教授,该研究的资深作者
“我们方法的潜在优势在于,它从数据本身学习疾病的表现
因此,机器做了许多专家通常会做的工作,从健康记录中定义最能描述特定疾病的数据元素组合
" 本质上,一台计算机被编程为搜索数百万份电子健康记录,并学习如何找到数据和疾病之间的联系
这种编程依赖于“嵌入”算法,这种算法以前是由其他研究人员(如语言学家)开发的,用于研究各种语言的单词网络
其中一个算法,叫做word2vec,特别有效
然后,计算机被编程,使用它所学到的知识来识别近200万患者的诊断,这些患者的数据存储在西奈山卫生系统中
最后,研究人员比较了新旧系统的有效性
对于测试的十种疾病中的九种,他们发现新的Phe2vec系统在从电子健康记录中正确识别诊断方面与黄金标准表型过程一样有效,或者表现略好
一些疾病的例子包括痴呆症、多发性硬化症和镰状细胞性贫血
“总的来说,我们的结果是令人鼓舞的,并表明Phe2vec是一种有希望的技术,用于电子健康记录数据中疾病的大规模表型,”Dr
格利克斯伯格说
“随着进一步的测试和完善,我们希望它可以用于临床信息学研究的许多初始步骤的自动化,从而使科学家能够将精力集中在预测建模等下游分析上
"
来源:由phyica.com整理转载自PH,转载请保留出处和链接!