医学领域大数据科研平台应用依靠它实现

2020
05/09

+
分享
评论
陆慧菁 杨广黔等 /  中国数字医学
A-
A+
大数据科研平台在数据抽取、统计及分析等方面,大数据科研平台架构设计 我院大数据科研平台的建立是以智能医学数据中台为核心。

通过建立大数据科研平台,提高临床科研的效率及质量,并促进研究成果有效转化。根据广州医科大学附属第二医院实际情况,建立以智能医学数据中台为核心的大数据科研平台,通过专病库建立、描述性统计分析、统计挖掘、单病种分析及疾病预测等,优化科研流程,提升科研质量,实现科研成果的临床应用。目前,广州医科大学附属第二医院大数据科研平台已累积经过规范化处理的住院患者252 047人次,门诊患者10 272 948人次,覆盖病历文 书、医嘱、检验检查报告、课题随访数据等在内的37种文档类型,辅助医生建立疾病研究人群200多个、研究课题10余项。与传统人工操作相比,大数据科研平台在数据抽取、统计及分析等方面,均有着明显优势,在疾病预测等临床应用方面也显示出广阔前景。 

 概述 

广州医科大学附属第二医院(以 下简称“广医二院”),是一所集 医、教、研于一体的大型综合三甲医院,目前开放床位约2 500张,年门诊量可达300万人次左右。自1993年开始信息化建设以来,已逐步完成对HIS、EMR、LIS、PACS等业务系统的覆盖,并于2017年搭建了医院集成 平台和数据中心(HDR),实现了从系统建设到平台建设的转变,在满足数据实时共享、调用的同时,也为海量数据的科研应用打下坚实基础。但由于我院数据中心是以支撑医生日常诊疗业务为主要目的,关注的更多是患者个体信息,而非面向群体分析,因此也就无法满足临床科研对于疾病数 据横线整合及深度挖掘的需求。鉴于此,在HDR基础上部署了大数据科研平台,旨在利用该平台在数据获取、统计分析及隐私保护等方面的优势,促进科研效率及质量的提升。

大数据科研平台架构设计 

我院大数据科研平台的建立是以智能医学数据中台为核心,利用自然语言处理、机器学习等大数据及人工智能技术,对海量数据进行集成、计算、存储和加工,形成以标准数据 存储的大数据资产层,在此基础上,满足智能建库、描述性统计分析、统 计挖掘、单病种分析以及疾病智能预测等不同阶段和场景下的科研服务需求。平台架构如图1所示。 

图1  大数据科研平台系统架构

从上图可以看出,平台首先从 医院数据中心(HIS、LIS、PACS、 EMR等)和外部课题数据库中抽取出科研所需数据,继而利用中台完善的数据处理及建模功能,对多源异构数据进行整合、治理及关联分析,构建包括疾病模型、症状模型、知识图谱、时间序列等在内的一系列算法模型,辅助实现智能建库、统计分析、数据挖掘、疾病预测等科研应用。 

数据整合

数据整合是大数据科研的重要基础。除临床业务系统外,还须融入基因组学、患者随访、课题组等其他来源数据,以确保科研结论的可靠性和准确性。通过对不同来源数据的收集、整理和清洗,平台最终将形成一个新的数据源,实现数据的集成和共享。

数据治理

数据治理是保障数据完整性、精准度、一致性及准确性的必要手段,包括标准化建设、数据处理、数据质控及数据转化等。 

数据标准化。 医学术语表达的差异性,往往会造成同一实体存在多种表达形式。对研究数据进行标准化的目的,就是为了保证数据集内部的一致性。因此,需要把同一实体的不同 表达形式映射到同一实体名字上,以消除语义鸿沟。目前,遵照CDISC、 ISO11179、HL7、21 CFR PART 11、GCP等相关标准,已建立多种医学术语标准化体系,包括:疾病术语标准化、药品术语标准化、症状体征术语标准化,以及检验、检查术语标准化等。 

自然语言处理。多源异构数据要实现数据集的融合,结构化是必不可少的过程,同时也是后期建立数据模型和算法的基础。利用自然语言处理技术,可对原始数据进行解析,识别出文本中实体、属性和关系等信息,再进一步转换成结构化数据。 

以主诉“高处摔伤致右肘部疼痛伴活动受限8小时”为例。首先找到数据的实体及对应实体的标注,包括:症状、器官、时间、诱因;然后根据不同实体间的关系,进行相应语义关系标注。如活动受限与疼痛的关系是伴随症状,疼痛与右肘的关系是症状发生部位,疼痛诱因是摔伤等(图2)。

图2  自然语言处理示例

而对于PACS系统产生的检查类文本数据,系统则采用了三级量化方式对其进行信息抽取,不仅保证重要临床变量能够被提取出来,还通过量化 精简了抽取结果的结构。目前,针对检查报告的结果类指标,平台已生成 170多个相关模型,大大提高了检查数据的使用效率和价值。 

数据清洗及质控。数据经过标准化和结构化处理后,实现了表达形式上的转换和一致性。而为保证数据符合规范性、完整性、准确性等质量要求,还需进行数据清洗及质控处理,以免在科研 过程中产生不良分析结果。 

数据转化。对存在的数据异常、错误或逻辑冲突等问题,通过对数据一致性治理、残缺数据治理、重复数据 治理及数据可计算化治理等,即可实现对问题数据的纠正和修复。 

数据分析 

治理后的数据,通过语义分析模型及医疗知识图谱等,可建立起疾病、症状、体征等不同实体间的关系,并暴露出人为不易发现的数据间潜在关联性,为临床研究提供更 加广阔的空间。 

数据安全与去隐私化

在完成上述数据采集、处理流程的同时,如何保护患者隐私及数据安全,也是必须考虑的问题。通过HIPAA法规,平台制定了数据脱敏规则及方法,数据加密和权限管理等,确保科研数据的传输安全及患者隐私数据安全。 

数据应用 

基于智能医学数据中台提供的大数据资源,平台一方面可以辅助医生高效完成从智能建立疾病库到自动进行数据统计挖掘的全部科研流程;另一方面,还可以利用单病种分析、智能预测引擎等,快速实现科研成果的有效转化,提高临床诊疗水平。

平台功能特点 

智能建库

针对科研人员关注的某 种疾病人群,平台支持其通过专病库方式,搭建从疾病发生、发展到临床 结局的全过程诊疗模型。建立方式包括平台创建和人工导入两种,前者可直接从智能医学数据中台选择特定人群并选取所需科研变量进行创建;后者则支持用户将自己的Excel数据集导入平台,建立个性化疾病数据库。 

在这个过程中,针对人工导入数据可能存在格式不标准、质量不可控等问题,平台须对其做二次处理,以实现与原有数据的兼容。包括:首先,根据数据不同分类,将其与专病库数据模型做匹配;在此基础上,遵照平台质控规则及体系,核查数据真实质量情况;最后,对于问题数据,运用平台数据治理规则,进行缺失值替换、格式转换等处理,完成对导入数据的清洗和标准化。

自2016年起至今,我院陆续开始建设单病种专病库,目前已覆盖包括 “脑梗塞、乳腺癌、冠心病、过敏性鼻炎”等在内的10余种疾病。其中,过敏性鼻炎已纳入7 362个病例数据,为临床研究提供了丰富的样本基础。 

描述性统计分析

确定科研变量后,用户可基于所需的全部变量生成自定义图表,即为描述性统计,包括柱形图、环形图、直方图、并排直方图、散点图、关系图等11种不同类型的图表。用户可根据不同病种的特点及具体科研需求,个性化定制数据的可视化展现形式,以更加清晰地了解变量间的关联,明确科研方向。 

以图3为例,可以看到,当科研人员选择不同的变量类型时,系统会自动显示可用图表(高亮)与非可用 图表(置灰);同时,对于数值型 变量,可以自由切换展示计数(重复)、计数(非重复)、平均值等统计量,非数值型变量可以切换计数(重复)、计数(非重复)统计。 

图3  个性化统计分析示例

统计挖掘 

为深入挖掘影响疾病发生、发展的相关因素,平台支持利用线性回归或二元logistic回归等统计方法对专病库人群进行多维度分析,并支持对单因素分析和逐步回归的全过程数据及图表进行可视化展示。如分析高脂 血症与性别、年龄的关系等(图4)。 

图4  高脂血症与性别及年龄的相关性分析

疾病预测

如上所述,通过大数据 科研平台的分析挖掘工具,科研人员可以从临床数据中发现更多关联信息,并将其转化为知识补充到医学知识库中,继而通过医学逻辑推理引擎服务于临床,为解决医学难题提供新思路,如准确预测疾病风险等级,实现医疗过程智能化、精准化及个性化等。 

基于平台建立的专病库,研究者可通过影响因素分析、主成分分析、决策树等数据挖掘算法,从中提取出重点疾病特征,并利用机器学习技术进行模型训练,得到疾病预测规则纳入知识库中。在临床中遇到同类情况时,即可触发该规则,辅助医生对患者相关疾病危险因素进行预测分析,达到提高 和改善临床诊疗效果的目的。 

单病种分析

单病种分析是基于重点疾病库和自定义疾病库,对某一特定病种进行病种管理及相关特征的分析。通过对重点疾病进行影响因素分析、预测分析、干预分析等,可以帮助医生更加直观地了解该疾病的发生、发展规律。

平台应用效果 

截至目前,我院大数据科研平台已累积经过规范化处理的住院患者 252 047人次,门诊患者10 272 948人 次,覆盖包括病历文书、医嘱、检验 检查报告、课题随访数据等在内的37 种文档类型,总量达41 396 940份。平台开放变量4 000余维,其中经过自然语言处理的变量占80%。同时,已开通医生使用账号340余个,辅助医生 建立疾病研究人群200多个,研究课题 10余项,累计登录次数达2 500余次。通过表1的数据可知,与传统人工操作相比,在数据抽取、应用及科研效率等方面,均有明显提升(表1)。

表1  传统人工模式与大数据科研平台对比

讨论 

对患者数据的深度学习,可以综 合提炼、挖掘丰富历史病例数据中的信 息,为疾病诊断、重要症状、指标异常 等各种临床结果的预测提供支撑。 

目前,我院已建成包含30余种 疾病类型、12个分析主题的近百个模 型知识库,可用来对疾病的再手术、 再入院、并发症以及生存期等进行预 测分析,并针对疾病不同干预方式做 出疗效评价。未来,还将逐步探索以 模型知识进行疾病危险程度评估和手 术预警等,使科研成果更好地服务临床,扩大临床效益。 

本文转载自其他网站,不代表健康界观点和立场。如有内容和图片的著作权异议,请及时联系我们(邮箱:guikequan@hmkx.cn

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

相关文章

推荐课程


精彩视频

您的申请提交成功

确定 取消
×

打赏作者

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×
打赏

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!