利用百度地图开放平台处理患者地址信息数据

2021
09/28

+
分享
评论
顾炜 罗正伟 / 中国数字医学
A-
A+

从地址输入提示服务和地址解析聚合服务与集成平台的整合、网络结构部署、应用场景等几个方面阐述了具体的实现方式及应用效果。

以百度地图开放平台为例,介绍了使用地址解析聚合服务将非结构化地址数据解析成结构化地址数据的方法,并且应用在患者地址信息数据清洗,同时,介绍了使用地址输入提示服务进行快速的地址录入,以及该服务在患者信息登记中的应用。从地址输入提示服务和地址解析聚合服务与集成平台的整合、网络结构部署、应用场景等几个方面阐述了具体的实现方式及应用效果。

在医疗大数据的浪潮下,很多医院都建立了自己的临床数据中心(Clinical Data Resposiry,CDR),临床数据中心是医院内各种医疗过程及其相关数据的聚合和集中。为使各系统能够通过患者全局数据库中的唯一ID,进行跨系统信息检索与共享,需对全局患者信息库中数据按匹配算法进行清洗合并,建立患者信息唯一索引与各系统的数据建立关联。建立这种关联的系统便是患者主索引,它承担着患者身份信息登记、更新、匹配、识别等职能,能够通过自定义的算法将同一患者在不同时期,采用不同个人信息登记的就诊的信息关联在一起。地址信息作为患者个人信息的重要组成部分,在患者的身份识别中扮演着重要角色,早期的患者各种地址信息(如户籍地址、常住地址、单位地址等)采用手动录入的形式登记到系统,不规范和结构化程度低的地址信息对患者的身份识别和匹配工作造成了很大的困难,由于数据量巨大,采用人工的方式去修正也存在巨大的工作量,同时,准确性也很难保证。近来年,由于自然语言处理(Natural Language Processing,NLP)技术的兴起,同时诸如百度之类的互联网企业开放了各种基于互联网的地址处理服务,便尝试借助这些服务,对患者信息中的地址数据进行结构化处理并应用,取得了非常好的成效。

1.患者地址信息处理的现状

患者地址登记现状

目前的患者基本信息从HIS(医院信息系统)挂号时由挂号收费员进行登记,由于窗口业务繁忙,登记患者的详细地址不但耗时,而且极易由于各种外部原因而发生登记错误的情况,为了缩短挂号登记的时间,很多患者的地址信息只登记了乡镇或者小区,对于楼栋号、单元号和门牌号采用简单的数字和连字符表示,甚至没有填写,造成地址内容缺失,结构化程度低,精度低。

目前地址匹配采用的算法及其缺陷

非结构化的地址数据作为一种字符型的数据,在对患者主索引中的患者信息进行匹配时,一般采用字符串相似度匹配算法对两个患者的地址信息相似度进行匹配,得到相似度值后再乘以地址属性所占整个匹配规则的权重,最终得到地址信息相似度的得分。目前采用较多的字符串相似度匹配算法为编辑距离算法,编辑距离,又称Levenshtein距离(莱文斯坦距离,也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。可以看出,编辑距离算法仅仅从文本形式上计算两个字符串的相似度,而不能够从字符内涵上计算两个字符串的相似度。比如通过编辑距离算法,“镇江市第一人民医院”和“江苏大学附属人民医院”两个字符串的相似度不为1,但就患者的地址信息而言,这两个字符串表示的是同一个地址,可见,采用传统的字符串相似度匹配算法无法进行字符串的内涵匹配,对于这种同一地址多种名称的情况无法进行精确的识别。

2.地址输入提示服务和地址解析聚合服务的优势和作用

概述

患者地址信息作为医院进行联系患者、随访等业务的重要信息,其精度关系到医院医疗服务的质量,在公共卫生领域,联系地址也是重要的信息之一,即便采用《GB/T 2260-2007 中华人民共和国行政区划代码》建立联动选择的录入机制,也只能精确到区县一级,剩余街道(乡镇)、社区(村)、小区楼栋号等信息需要手动录入,对窗口登记的可操作性较低,地址录入的效率也不高。同样,对非结构化的患者历史地址数据的处理需要类似自然语言处理等高级技术,医院作为主要提供医疗健康的服务的机构,没有能力去收集所有地址信息并建立数据库供自己的信息系统使用,也无法采购或者研发自然语言处理引擎去处理历史地址数据,而互联网企业依托其强大技术和业务优势,已经建立了一套完整的覆盖全国的地址信息库,并且这些库也在不断更新,同时,互联网企业将这些数据以服务和SDK的形式进行分发和向外提供,仅需要简单的申请和授权即可使用。

地址输入提示服务的作用

匹配用户输入内容,提供输入提示功能。用户可通过该服务,匹配用户输入关键词的地点推荐列表。

地址解析聚合的作用

结合自然语言理解能力,可以对地址信息按照文本信息、空间位置信息等因子进行区域化聚合。同时也可解析并提取地址中核心结构,如行政区划(省、市、区、乡镇)、街道、POI,以及地址中的联系人,联系方式等信息,并对地址进行一定的补全和纠错。包含两种模式,聚合模式——将地址按照基础地物进行分类聚合,结合百度地图领先的地图地理信息解析能力以及百度NLP自然语言能力,对地址信息进行结构化理解,并结合基础地图单位进行位置聚合。目前可聚合的单位为:省、市、区县、乡镇街道、道路、路段、末端地点(POI或AOI);标准化模式——结构化解析并提取复杂地址中的核心内容,包含人名、联系方式、行政区划结构(省、市、区县、乡镇街道)、POI信息。

3.地址输入提示服务和地址解析聚合服务的集成方式

整体架构设计

百度地图Web服务API为开发者提供http/https接口,即开发者通过http/https形式发起检索请求,获取返回json或xml格式的检索数据。用户可以基于此开发JavaScript、C#、C++、Java等语言的地图应用。

因医院的应用基本基于集成平台进行构建,我们对百度地图Web服务API进行了二次封装,并接入集成平台。其架构图如下图所示:

其中,患者信息登记为客户端应用,包括了窗口、自助机及移动端三种,患者信息登记通过ESB集成平台的统一地址处理服务调用地址输入提示服务,实现地址信息的精确录入。中间层ESB集成平台定义了标准的统一地址处理服务接口,除了对百度地图的地址服务进行封装以外,还可以扩展集成其它地图开放平台的地址服务,如腾讯、高德等,ESB集成平台的引入提高了接口的复用能力,降低了系统间的耦合度。最后一层为实际地址服务,具体调用方法可以参见其官方的接口文档。

服务的物理架构

目前医院网络架构采用的是安全隔离网闸、前置机、防火墙3位一体的方式实现安全融合架构 。患者主索引等应用系统部署在医院的内部,无法直接访问互联网。为解决安装防火墙后外网服务器不能访问内网服务器的问题,设置1个安全与非安全系统之间的缓冲区(DMZ) ,对百度地址服务的Web API进行封装后的服务便部署在该区域的服务器上。

4.应用地址服务对地址信息进行处理

地址输入提示服务在患者信息登记中的应用

地址输入提示服务提供了关键字检索地址信息的功能,同时可以设定在指定的城市进行检索,关键字除了支持文字,也支持汉语拼音及其首拼,一般在城市的精度可以达到小区的楼栋,在农村的精度为自然村,选定指定的地址后,只需要录入单元号和门牌号即可完成填写,其返回机构化的地址数据包括了省市区三级行政区划代码,可以将这部分数据进行保存以后期使用,同时,精确到门牌号的地址也满足了诸如病案质量控制和很多数据上报的需要。

地址输入提示服务调用时序图

我们对地址输入提示服务提示的内容,进行了组合处理,使结果更加友好,其应用效果如下图所示:

地址输入提示服务应用效果

地址解析聚合的集成场景

地址解析聚合服务提供了将非结构化的地址文本解析成结构化地址的功能,并能够对地址做一定的纠错和补充。我们将该服务应用在历史患者地址信息的数据清洗上,采用异步任务的方式,将解析后的结构化地址进行回写,供后续使用。

对于无法解析的地址,将进行标记,后期由人工进行干预处理。经前期对部分样本数据进行分析,发现大部分地址信息均能够解析,部分不能够解析的地址由于登记时缺失了城市名称,比如仅登记了小区名、楼栋和门牌号(因医院本地患者占大多数,所以登记时省略了城市名称),这部分数据加上城市限定后也能够正常解析。

地址解析聚合服务调用时序图

结束语

患者地址数据作为患者主索引系统识别和匹配患者身份信息的重要依据,其精确程度影响了患者主索引识别患者身份信息的能力。相对于出生日期、性别、身份证号等这些客观的数据,地址作为字符较多的文本,一直是患者身份信息识别和数据处理中的难点和痛点。随着互联网的飞速发展,以前需要海量数据或计算才能实现的功能,现在只需要配置和调用服务即可。本文以百度地图开放平台的地址输入提示服务和地址解析聚合服务为例,简单介绍了其在患者信息登记和历史患者信息清洗中的应用,为患者地址信息的识别和处理提供借鉴。

本文转载自其他网站,不代表健康界观点和立场。如有内容和图片的著作权异议,请及时联系我们(邮箱:nanxingjun@hmkx.cn
关键词:
信息数据,患者平台,医疗数据

人点赞

收藏

人收藏

打赏

打赏

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

相关文章

推荐课程


社群

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏作者

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×
打赏

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!