治理数据先从了解它开始（上）

2017

10/05

高轶

A-

A+

本篇主要围绕“标准”来说，但这些“标准”今天却面临着尴尬的局面，如何能够让“标准”先“标准”？

二十年前，从上大学的那天起我就开始和数据打交道，确切地说，应该是和统计学方法打交道，我们学习了很多种方法去验证或者证明两组或者多组数据是否存在着差别等。工作时间越长，这些统计学方法能记得住的已经不多了，但是却越来越对原始数据感兴趣，确切地说是越来越对原始数据的质量感兴趣。

近期参加了许多关于大数据的会议，在学习知识的同时也开阔了眼界，但是回头看看医疗数据的现状，我突然有些担心。因为在私下交流的时候，我听到和看到的是很多做BI的企业、做HRP的企业或者做大数据分析的企业，在项目实施的过程中主要精力都放在了对数据的清洗上。

那么，医院中的数据或者现有的医疗数据真的存在那么多的瑕疵吗？它到底是个什么样子呢？我试着和大家一起来看一看那些被图表掩盖起来的真实。

那些被美丽图表掩盖起来的真实
很多医院的系统里都会有患者来源分布图，用以让医院管理者从一个角度来了解医院患者的构成。做得好一点的，会在一张中国地图上用不同颜色区分各地区就诊患者的比例，并由省到市到区县逐层展现。以住院患者为例（毕竟能够实现门诊实名就医的医院还是一少部分），根据2016 年版《住院病案首页数据质量管理与控制指标》，要求出生地（省、市、县）、籍贯、现住址（省、市、县、街道）、户口地址（省、市、县、街道）均为必填项，且在医院均全部填写（非空）的情况下，大家一定会说这个患者来源分布图应该按现住址来统计和展现。
但真实情况并非如此，患者建档或者实名登记的时候都是半自动化的，毕竟从身份证上，我们只能获取到出生地和户口所在地的数据，其他数据均需要手工完成录入。假设手工录入数据的正确率是100%，那么又有多少医院的现住址是采用在国家统计局《统计用区划和城乡划分代码》中进行选择代码（12位）进行保存，而不是以长文本的形式进行保存的呢？其实，我相信很多医院都会使用出生地而非现住址作为条件来统计患者来源，毕竟身份证号的前六位是准确的。那么这样做对真实性有多少影响大家心中有数，毕竟对大学生、在职长期驻外、异地安置、灵活就业等多类型的人员来说，数据都是不准确的，我们只能祈祷医院少收点这些类型的患者让这些错误可以变成误差。

你以为你以为的就是你以为的吗？

刚才我们提到了“身份证号前六位还是准确的”，确实对于大多数患者来说，身份证号还是相当准确的，其前六位表示编码对象常住户口所在县(市、旗、区)的行政区划代码，按GB/T2260的规定执行。看了这个编码规则我们理所当然地认为：如果医院有一个数据字典，建立了行政区划代码和其名称的关系，那么我们就可以反映出户口所在地的名称。但是真的是这样吗？首先GB/T2260在1980年12月底出台后，经过了多次修订，其中GB/T2260-84是我国第一代居民身份证办理时应用的行政区划。而一般医院上线HIS的时间基本都在90年代中后期，所以当时就算我们有一个行政区划字典，也一定不是1984年版的，那么我们是否可以假设，当我们使用HIS的那天起，我们就根本无法用身份证号的前六位全部还原出准确的户籍所在地名称呢？这时候我们只能一点点地放弃我们所要求的精度逐渐地由六位变成四位，再由四位变成两位。

其实今天主要是在围绕着“标准”来说的，但这些“标准”今天却面临着尴尬的局面，比如：国际标准水土不服、国家标准少有更新、行业标准推广缓慢、企业标准涵盖局限、区域标准差异较大。如何能够让“标准”先“标准”起来，还要靠大家的共同努力才能完成。