基于临床大数据的肺癌专病数据库建设有何优势?
中国数字医学陈嘉旖、陶蓉
电子病历系统与科研病历数据结构挑战
医院作为一家呼吸系统疾病的三甲专科医院,在肺癌的综合诊疗领域特色鲜明。“十三五”期间,医院肺癌门诊、住院、手术人次大幅增长,肺部恶性肿瘤手术病例数、构成比稳居全上海第一,CMI值、三四级手术比例、腔镜比例持续上升,服务能力和效率显著增强。近10年中国8大肺癌领域最重要的临床试验中,医院牵头2项,结果被多个国际诊疗指南引用。医院自2019年开始规划肺癌专病数据库项目,核心目标是将医院大量临床数据,尤其是电子病历数据转化为医学科研数据基础。
在国内一般语境中“电子病历系统”是指狭义电子病历系统,即在医生工作站负责生成门急诊住院病历病程记录的信息系统。经过将近20年发展,此类信息系统大多采用了不同定制改造XML文件格式存储数据。由此电子病历数据和影像报告系统对报告内容的存储一并被称作医院信息系统中的“非结构化”数据。电子病历系统用非结构化数据存储在保持临床描述灵活性和数据存储层次准确性上取得良好的平衡,在HL7的CDA临床文档标准中也采纳了这种存储格式。
而在医学科研领域,出于支持观测指标定量分析的目的,要求进入科研的病历数据全部转化为结构化格式存储。初期最常用的办法就是通过研究人员阅读临床病历,提取有用信息填写CRF表格的方式完成临床病历数据向医学科研病历数据的转化。然而,随着医学科研项目的增多,以及宝贵临床病例数据在疾病领域多项目共用的需求,医疗机构开始建立独立于具体科研项目之外的疾病数据库,完成科研病例数据的采集和积累。
这样一来,如何跨越2个完全不同的数据结构,从庞大的电子病历文档库中抽取有研究意义的临床科研病例数据补充入科研病例数据库,成了医学研究人员留给信息化人员的挑战。
肺癌专病数据库数据模型设计
临床部门根据长期医学科研项目经验和相关疾病诊疗标准,确认了包括1 378个字段的24个数据表构建了肺癌专病数据集。见图1。
图1 肺癌专病数据库数据构成
在24个数据表中包括了患者基本信息、医嘱、诊断、就诊信息、检验报告这样来源明确、数据源头为结构化数据的数据领域,这部分数据仅占整个专病数据库所需处理数据字段总量的35.5%。更多的字段来自非结构化数据源头的数据领域,其中11个数据表主要来自电子病历系统包括病程记录、出院记录、个人史、既往史、家族史、生命体征、体格检查、月经婚育史、主诉现病史,这部分数据表包含了255个字段;还有5个数据表来自检查报告系统包括病理报告、分子免疫标志物、辅助检查、专科检查和综合检查类,355个字段;3个数据表来自治疗数据包括放射治疗、手术治疗和肿瘤药物治疗,280个字段。
经过和医院信息系统数据内容逐一核对,发现1 378个字段中的1 056个字段有明确的单一来源,例如医嘱的用药名称来自HIS医嘱表,检验报告指标项目名称来自LIS报告表。与此同时,由于业务系统存在数据冗余、多头录入或者数据集成的情况,有319个字段存在需要从2个以上系统中获取数据,比对有效性之后再做取舍。例如手术表中的手术名称、术前术后诊断等字段就需要对比HIS、手术麻醉、病案多个业务系统数据库才能确认最终进入专病数据库的数据内容。
从临床病历数据向肺癌专病科研数据库转换
临床病历数据向专病数据库完成抽取转换的时候需要分步骤解决3层数据问题。见图2。
图2 专病数据分层处理
首先,需要解决业务系统数据库表结构识别,字段内容识别和标准数据字典转化工作,这一步数据处理可以通过传统ETL技术完成。在此阶段完成后,部分对照关系明确,前期结构化采集的数据可以写入专病数据库。肺癌专病数据库的1 379个字段中440个字段是单一来源直接映射字段,298个字段是多来源映射字段。因此,在完成ETL步骤通过数据质控之后,53.6%的专病数据库字段可以完成数据抽取填充。这部分可以通过映射完成转换数据,主要包括患者人口学信息、就诊记录、检验报告、医嘱记录,以及检查报告、手术记录、治疗记录中的时间、项目名称、执行科室等字段。
其次,需要通过结构化算法从自然语言文本中抽取和转化一部分数据,这部分工作需要用NLP算法工具实现。专病数据库中有457个字段是在这一阶段处理得到的,占总字段比例33.2%。这部分数据也是专病数据库数据处理的重点内容,其中包括来自EMR系统的主诉症状、手术史、家族史;来自RIS系统的肿瘤部位、最大直径;来自病理系统的肿瘤病理学分型、病理分化程度等数据字段。
最后一部分数据处理逻辑更加复杂需要加载临床规则工具,利用多源头数据逻辑计算得出。这部分字段包括ASA分级、体重指数、就诊年龄、ICU住院天数等项目。肺癌专病数据库中有165个字段需要通过临床规则基于其他字段数据和指标完成抽取和填充。
从2020年4月开始经过3个月数据接入和处理操作,完成了对医院信息系统内2014—2020年全量诊疗数据的筛选和抽取,在肿瘤专病数据库中生成14万份肺癌病例。
图3 专病数据库数据生产流程
完成历史数据初始化加工之后,通过大数据平台在临床信息系统和专病数据库系统之间建立了持续的增量数据加工通道。数据加工通道的前端通过业务数据库同步备份机制,实现业务系统数据T+1进入大数据平台。经过完整数据加工质控流程之后,实现科研专病数据库数据每周定期更新。见图3。
专病数据库建立之后,利用清洗质控后的专病病例数据,临床医生可以通过体征、用药、症状、检验检查结果、手术、诊断分型等多维度字段快速检索分组历史病历数据。并且对分组病历设定观测指标值做分析计算。平台本身提供了针对观测值的常用统计分析工具,临床科研人员可用在图形化界面上通过简单拖拽完成观测指标的描述性分析、相关性分析等可视化分析,降低了临床科研人员使用统计分析工具的时间成本和学习成本。
图4 真实世界数据探查
在知识探查方面专病数据库工具利用自己的计算能力,提供了基于真实世界数据的疾病知识图谱,见图4,在可视化界面中展示诊断、症状、用药、检查、手术之间的相关性分析,并且支持用户在可视化界面中持续下钻数据关系,为临床人员快速找到科研灵感提供数据支持。
伴随问题和改进方法
专病数据库建立后,顺利打通了以电子病历为核心的医院临床数据向科研数据库补充的通道,同时也逐渐暴露出一些问题。
首先暴露出的是医院电子病历、检查报告系统的数据规范性和完整性问题。由于临床科室病理书写中病历模板不够统一,病历录入中结构化程度不高,病历书写内容较为随意,造成病历数据录入不规范,不完整全面的问题。科研专病数据库受限于“巧妇难为无米之炊”,由于部分数据不完整而影响了整个病例研究的可用性。在系统建设后期,通过数据加工中的数据质量分析报告,逐渐发现总结数据源头质量问题,通过规范临床信息系统前端录入模版,建立了数据质量改进流程。
其次发现医院随访数据管理的短板。前期一直游离在医院信息系统总体规划之外的科研随访数据,在此次专病数据库建设中暴露出了系统散乱、数据来源不一的问题。随访数据作为临床数据的补充,是专病数据库数据内容的重要来源,因此,医院应规划建立统一的科研随访平台,规范随访流程和随访数据管理。
结论
医院肺癌专病数据库的建设将高效推动医院在肺癌领域的科学研究和临床工作。建设规范化、标准化、规模化的肺癌专病数据库,可以进一步提升肺癌临床研究的能力,加速成果转化。未来可望通过在区域乃至全国范围内推广肺癌专病数据库标准,对肺癌疾病的医疗数据进行规范集成、深度挖掘、综合利用,为后续开展真实世界、干预性多中心研究筑基。