临床科研大数据管理:3个挑战,4项对策

2020
11/19

+
分享
评论
朱明宇 /  中国数字医学
A-
A+

随着大数据与人工智能技术的快速发展,对医疗数据的分析、建模、挖掘、智能化应用,已经成为医疗信息化的发展方向。

随着医疗信息化的发展,医疗机构积累了大量的临床诊疗数据。当前已有研究人员利用自然语言处理技术处理非结构化文本,构建病历智能分析系统的研究。而如何有效地利用临床数据,更好地服务于临床研究和循证医学,实现其资源价值,已经越来越为管理者所关注。

国务院办公厅印发《科学数据管理办法》也指出要加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好地为国家科技创新、经济社会发展和国家安全提供支持。吴宇皓等人已经利用医疗大数据分析管理系统,建立20个专业科研数据库,完成科研查询200余项次,加快了临床科研进展。王雪萍等人基于医疗大数据设计了临床科研平台,有效地提高了数据的利用率、分析的准确性、降低了科研难度、促进了医疗科研成果的发表。

随着真实世界研究的兴起,我国也有众多医院利用医疗大数据来完成评价医疗实践过程、治疗模式、病人迁徙、疾病特征、患者依从性、疗效评价、患者预后、资源消耗等方面的真实世界研究。随着大数据与人工智能技术的快速发展,对医疗数据的分析、建模、挖掘、智能化应用,已经成为医疗信息化的发展方向。本研究将从大数据下科研需求与挑战、基于大数据的科研管理与实践方面进行阐述。

图片来源:图虫创意

大数据下科研需求与挑战

郑州大学附属儿童医院临床业务系统已相对完善,建立了集成平台和临床数据中心、运营数据中心,积累了大量的诊疗数据。这些诊疗数据包含临床研究三要素(研究对象、研究因素和效应指标)的全部内容,为临床研究提供了大量的选题空间。临床科研大数据在分析和挖掘上虽然有较好的机遇和前景,但也存在大量文本非结构化、数据质量偏低、诊疗与科研数据不统一等困难和挑战。

诊疗数据不完整,与科研数据不统一。诊疗数据来源于医疗实践,与临床研究要求的数据还存在一定差距。如回顾性研究因不同数据系统标准不一,无法分析影响疾病结局的风险因素。前瞻性研究会由于原始研究方案不够严谨造成数据缺失;此外,病例随访难也会导致数据缺失,给数据采集带来很大的困难。在运用单病种数据库进行疾病发生率调查的总结、疾病特征的总结、风险因素分析、诊疗方法及效果的评定时,由于数据缺乏标准,再加上海量数据的采集以及数据监管等,给数据收集和分析带来很大的困难。

数据质量欠佳,有效利用程度低。随着医院信息化系统的运行,积累了海量的病历数据,但也存在许多的数据不规范、错误、缺失等问题,例如针对同一种疾病“2型糖尿病”,医生可有“T2DM”“Type 2 DM”“非胰岛素依赖型糖尿病”等多种描述;针对阴性症状的描述,则可能有“否认某症状”“无某症状”“某症状(-)”“未发现某症状”等多种描述。科研数据分析是通过变量与变量之间的关系分析来回答研究假说,需要所有被分析的数据是结构化的。由于存在大量非结构化资料,给临床研究分析挖掘带来困难。

患者隐私无法保护,数据标准不统一。不同医院、个人对病种、治疗方法、治疗结局所使用的定义和专业术语不同,使得临床数据缺乏统一的标准,导致研究人员在数据采集和分析时无从插手。同时由于中文医学语言的模糊性和随意性,以及语法、语义结构的多样性,抽取病历文本的变量颗粒度、数据多维度、过程自动化、结果重用性等方面还存在严重不足。传统的ETL方法和数据挖掘技术,通过数据抽取转化、清洗分析等过程,一定程度上提高了病历数据质量,但患者的隐私数据无法去除,不利于对患者的保护。

临床科研大数据管理

合理、有效地利用临床科研大数据不仅能解决科研工作中遇到的难题,还能有效提高诊断准确性、改善治疗效果等。医疗大数据的管理需明确各方职责分工,具体应当体现“谁拥有、谁负责”“谁开放、谁受益”。因此,如何管理和应用临床科研大数据、提高数据质量和标准化是重中之重。

数据标准与质量管理。为提高临床数据质量,则必须对原有临床数据中心中海量的非结构化和不标准、低质量的数据进行整合治理。临床数据中尤其是主诉、现病史、既往史、手术记录和检查报告、心超报告、病理报告、病程记录等临床科研信息丰富,但病历文本中医生书写语言的模糊性和随意性以及语法、语义结构的多样性,给临床科研目标变量的提取带来困难。医院需要设定模板实现数据的规范采集,同时为了数据更好地利用,还需要制定单病种数据集,采集科研所需数据。

数据采集与完整性管理。在进行临床科研过程中,必须要对患者的全病程数据进行采集,保证单一患者纵向数据的完整性。在此则需要以患者为中心,实现各学科临床数据的汇集(如小儿心内科与心外科的数据汇集)。同时考虑到前瞻性科研的需要,需结合随访平台,采集患者报告结局(ePRO),进一步补全丰富科研数据库。

数据共享与利用管理。为保证数据的长期保存和有效利用,需要加强数据积累和科室间、课题组之间的开放共享。最好的结果是实现不同课题组针对同一份数据的不同层面,得出不同的研究成果。

为提高对数据的利用率,针对大量的非结构化文本的问题,需要使用自然语言处理等人工智能技术对文本进行自动化地后结构化、标准化和归一化处理,解决院内历史文本数据的非结构化和非标准化问题,提高对临床数据的利用率,从而满足科研变量提取的需要。

数据安全与隐私管理。权限管理可根据发起人、临床监督员、研究员、临床协调员、统计师等不同角色,由PI项目发起人管理团队,并分配功能权限。不同角色用户对CRF表单的操作权限、数据访问权限也有所不同。

同时,临床数据涉及患者姓名、身份证号码、手机号码、家庭住址等隐私信息,科研人员需在保护患者隐私为前提下进行科研。可使用加*号等手段进行数据脱敏处理,去除患者隐私信息,规范这样的安全管理行为,体现出对临床数据知识产权的尊重。

总结

医疗行业的临床大数据只有利用有效的工具和手段,从数据治理管理、数据完整性管理、数据利用率管理、数据权限管理等多个角度和方向进行数据治理与管理工作,提高临床大数据质量,才能为临床研究的利用奠定基础。(来源:朱明宇 郑州大学附属儿童医院 中国数字医学)

本文转载自其他网站,不代表健康界观点和立场。如有内容和图片的著作权异议,请及时联系我们(邮箱:nanxingjun@hmkx.cn
关键词:
大数据,临床管理,AI医疗,NLP自然语言处理

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

相关文章

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏作者

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×
打赏

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!