医疗健康大数据分析应用思路(二)

2022
11/20

+
分享
评论
缪伟
A-
A+

为保证预期数据质量可控,一般采用影响因素随机分布、观察因素对比分布的前瞻性对照研究方法。对起效慢、发生率低、影响因素多的观察因素,常常扩大研究样本数量,形成多组对照队列持续观察研究(随访)。

近几年,接触的医疗健康大数据,偷闲回顾感悟,梳理成“医疗健康大数据分析应用思路”。

二、大数据分类

不同维度大数据分类结果各异,在此我们将大数据类型按照“原始数据表达、数据生产记录、数据存储结构、数据处理过程、数据处理结果、数据时间维度等维度进行分类。

(一)原始数据表达分类

大数据是传统数据迭代升级的产物。大数据不可避免的拥有传统数据的基本属性。

1.标量数据。用于表达物理数量,只具有数值大小,而没有方向。这些量之间的运算遵循一般的代数法则。用通俗的说法,标量是只有大小,没有方向的量。物理学中标量指在坐标变换下保持不变的物理量。标量增加方向则成为矢量。

医学健康数据极少单纯的标量数据,但为了方便比较,同类标量比较时,仅仅以其标量进行比较,简化操作。

2.矢量数据。数学、物理学等多学科中的基本概念,指一个同时具有大小和方向的几何对象(线性)。线段长度表示矢量大小,箭头方向表示矢量方向。矢量也常称为向量,有方向的数量。物理学中的位移、速度、力、动量等都是矢量。

医学健康数据大多是矢量数据,同时具备大小和方向的属性。如:体温、重量、体积、长度、速度等。

3.色阶数据。表示图像亮度强弱的数据,即色彩指数。在数字图像处理中指灰度分辨率。色阶指亮度,和颜色无关,最亮的只有白色,最不亮的只有黑色。数字、文字、图案的视觉记录依赖色阶描绘,解读视觉记录。

色阶数据很少独立存在,多配合文字、图案以黑白色彩的极值存在。在医学图片、医学视频的人工智能识别中,结合成像技术得以凸显细化色阶的重要性。

4.图形数据。以图形表示对象的特征含义。图形基本单元即图元,有点、线、面等标量数据,图元位置赋予几何坐标等矢量数据形成图形基础模块即图段,多个图段组合成相应的图形,赋予相关色阶(颜色)数据描述后构成彩图。连续图形、图像成为视频。

我们分析的放射影像、超声影像、三维图像等就是图形数据。而相应的数字、文字,则是以特定的图案形成数字、文字,以代表其中约定的含义。

5.声光电数据。声波是由物体(声源)振动产生一种机械波,通过空气等介质传播,人耳可听到频率一般在20-20000赫兹之间;光是人眼可见电磁波谱,光源以物质内部带电粒子加速运动产生光辐射,人眼所能接受光的波长一般在380~760nm之间;电信号指电压、电流、电磁波加载的信号数据,数学上表示为时间的函数。由于电信号容易接收、转换、传送、控制,所以应用广泛。

我们分析的心脏、呼吸、胎心、血流、肠鸣音等听诊数据属于声波数据;我们分析身体组织器官颜色与病症的关系、视力纠正等属于光波与色阶数据;我们分析的心电、脑电、肌电、神经传导等属于电信号数据。

6.计量单位。各种物理量都有量度单位,度量衡是计量物体长短、容积、轻重的单位,物理学上以时间、长度、质量、温度、电流强度、发光强度、物质的量这7个物理单位为基本量,它们的单位名称依次为:秒、米、千克、开尔文、安培、坎德拉、摩尔。

任何生命体都是有质量的物体,都与外界能量交换。各种物理量的量度单位同样适用于医疗健康领域。

7.计数单位。即数字计量单位,常用十进制计数法。计数单位包含整数和小数两部分。计算机采用二进制、十六进制计数法,部分领域有十二进制、二十进制、六十进制等计数法,较大的数用幂的形式记数法。当某个数因其他数变化而变化不确定则采用函数计数法。

8.数据算法。当两个或更多的数据之间有关联关系,采用相应的公式、逻辑等规则可推导出其他数据,这类规则就称为“算法”。加减乘除法四则运算是最基本的算术算法,大于小于等于是最基本的逻辑算法。计算机算法可分为基本算法、数据结构算法、数论与代数算法、计算几何算法、图论算法、动态规划以及数值分析、加密算法、排序算法、检索算法、随机化算法、并行算法、厄米变形模型、随机森林算法等等。为防范大数据不良应用,国家网信办、工信部、公安部、市场总局出台《互联网信息服务算法推荐管理规定》。

(二)数据生产记录分类

1.数值类数据:描述组织器官、药品器械等的体温、重量、体积、长度、速度、能力等量化属性,以及服务计费、药械数量、患者评分等量化属性,均属于数值类数据。可以说,标量数据和矢量数据都可以归类为数字类数据即数字计量单位同类可直接四则运算,是日常分析统计常用指标、核心字段。邮编、身份证号码、卡号之类也属于数值类数据,但用于维度编码的标识,不适用四则运算,仅作为维度存在。

计算机具有数值识别与计算误差小、速度快、容量大、复杂公式程序化等优势。前提应当有数据清洗归档的标准化数据库,以及逻辑清晰、可执行的算法程序。现阶段生产记录的数值类数据重在记录保存查阅,未考虑大数据分析,存在各机构的数据记录单位、精准度、表述方式、极限值、数据库表位置等差异,大数据分析前需要清洗、归档、标化;小部分医疗信息系统承建商开始在生产记录阶段标化数据库与数据值,自带或方便今后进行大数据分析;未来很长一段时期,由于现阶段的医疗信息系统承建商存在,标化数据库系统与非标数据库系统共存,需要在标化数据库基础上建设类似数据转化接口,自动、智能适应标化与非标数据采集。

数值类数据是医疗健康大数据中体量最小、种类单纯、含义清晰,最容易分析的种类。

2.文本类数据:人们常用语言描述事务特性,转换为文字记录形成文本类数据。这类数据不是量化值,不能直接四则运算。但通过对该文字字段进行标准化处理再进行字符匹配,应用“是、否、含”等逻辑关系,可实现相同与不相同字符的对比分析。

文字识别技术相对成熟,使得既往书写病历转化电子文档成为可能。WORD版本的HIS病历通过关键词检索分段,可实现相关病症、疗法、成效的基本分类。结构化电子病历数据颗粒小,用词统一规范,在病例统计分析上具有优势。结构化水平总体嘉和美康>海泰>曼荼罗等。科大讯飞等电子病历语音输入化解了WORD版本书写压力,但结构化水平有待提升。

文本类数据是医疗健康大数据中体量不大,但内容最广、含义最杂、分析难度较大的种类。

3.图形类数据:文本数据利用图元和色阶极值形成的简单图案,间接表达象形文字和拼音文字约定的含义,是图形类数据简约的表现形式,图形信息真实明了;平面几何、立体三维、动态四维等利用复杂图案形式,表达经过抽象思维归纳的物体特性,是图形类数据抽象的表现形式,图形信息概括性强,其真实性受描述者认知制约;照片、影像借助光影技术、射线成像,表达物体直接的形态特性、透射特性,是图形类数据直观的表现形式。

心电、呼吸曲线、肌张力等本身是电信号、容积、力量等数据,在显示器、容器、重力表等直观显示,为便于记录和查阅,转换为特定的专业图案。因此,分析此类图形数据时,除了分析图形自有参数外,要理解图形生成的背后逻辑,避免刻舟求剑。组织器官损害照片、X光照片、pet-ct照片、胃肠减影、超声影像等本身是可见光成像、X射线成像、正电子放射成像、凸显器官成像、超声成像等数据,在显示器、计数器、屏幕等直观显示,为便于记录和查阅,转换为特定格式的专业照片、视频。基因图谱也是通过技术手段显影,推导基因特性。因此,分析此类图形数据时,除了分析图形自有色阶、图形参数外,要理解色阶图形生成的背后原理和成像流程,避免脱离实际围绕单纯色阶、图形下结论。

图形类数据是医疗健康大数据中品类不多,但体量最大、精度要求最高、较难分析的种类。

4.维度类数据。计量单位既是各种物理量的量度,也代表各种物理的不同维度。相同维度对比反映物理量数量上的差异,以及量变带来的等级、质量差异。不同维度不便直接对比反映,但数据集合后的结果,脱离计量单位的制约,集合、转换后可以对比分析。

最常见的维度单位是时间类数据,用于描述事件发生的时间,在业务统计或分析中非常重要。在系统设计时常作为数据库数据的主索引、初始编码组成部分,引导数据清洗、归档。

(三)数据存储结构分类:

1.结构化数据。指数据结构可解构、分解、细化,数据颗粒之间在存在逻辑关系,可采用表结构编码定位,精确分类分布与汇聚合成,可用关系数据库方式记录的数据。

2.半结构化数据。指数据结构虽可解构、分解,但细化程度有限,数据颗粒较大,采用表结构编码索引维度单一或有限,简约分类分布,与关系数据库严格的结构和关系有一定差异。如访问日志记录数据等。

3.非结构化数据。指语音、图片、视频等数据结构整体难以解构、格式专业难以互通的数据。这类数据一般按照特定应用格式进行编码,数据量非常大,且不能简单地转换成结构化数据。

4.三类数据开发路径。具有数值属性的标量、矢量数据通过计量单位、计数单位的标化容易形成结构化数据,快速成为大数据开发的数据源;

半结构化数据除了少量的数值可直接结构化转换后进行大数据分析外,通过其中的关键词、特征色阶、特征图形的检索、分类,可转换为具有数值属性的结构化数据,提升大数据分析能力;

非结构化数据分析有困难是相对于结构化数据而言,事实上,非结构化数据同样具有内在联系逻辑、结构基础,只是比较复杂和深层,不够直白、不够粗浅。如果将其不同类型数据分开,分门别类计算,将混合弯曲数据微分,甪直捋顺分段计算,表层与深层数据分开,先深再浅递进计算,大而杂的非结构化数据变成小而纯小数据结构化半结构化数据,大数据分析变成可能。另一种非机构化大数据分析思路,是越过常规大数据显示的图形数据形态,直接接入声光电信号,对声光电信号进行分析,由于摆脱了图形数据生成带来的图形变形、信号丢失,让大数据分析难度明显降低。在这一过程,可汇总的并联式分布式计算、多维度的串联式递进算法,需要Hadoop等大数据平台支撑。

(四)数据处理过程分类

1.原始数据。也称一级数据,指业务系统应用计算机技术在生产服务过程中自然产生并记录数据,这类数据没有做过任何额外的加工处理,对后续大数据分析而言就是原始数据。

此类原始数据经历了传感器采集、信息系统记录,受采集系统限制,已经经过初加工,其真实性、完整性、精准度会与客观世界的真实数据有一定差异。当大数据分析遇到“百思不得其解”的难题时候,要留心数据采集是否有误,从而导致结论偏差、逻辑矛盾。

生产服务系统的原始数据库切记不能直接开展大数据分析,正确的做法是复制(镜像)到大数据分析体系的原始数据库中,作为未作任何修改的初始原始数据数,以备在再转录、处理。这就是各大医院建设“临床数据中心”的原因。大数据分析处理将产生大量衍生数据,无论过程数据还是结论数据,都不应导入、更改原始数据。这一要求将导致大数据分析的存储压力巨大,需要原始数据数倍乃至十几倍的存储空间。

2.衍生数据。也称二级数据、三级数据,指采用各类清洗、归类、算法工具对原始数据进行加工处理后产生的数据,包括各种归档数据,如标化库、数据集、汇总表、宽表等;分析过程,如标化规则、舍弃数据、数据转换等;分析结果,如统计报表、专题报告、动态图显等。

衍生数据是大数据分析的必然过程,只有通过清洗、分类、标化、归档,建立适应各具体开发需求的数据库,才方便高效、准确的进行下一步数据开发利用;标化归档的数据,在数据挖掘分析前,需要对数据细项特征进行分类标记,借助标记实现数据类型转换、等级分类、阈值判断、特征外显,让数据挖掘有明确的靶标、分析工具有适合数据可输入,从而实现数据分析应用。

当某个领域数据梳理过程与分析过程日趋成熟后,可借助软件程序、算法工具,为某个领域定制个性化数据集市、优化算法工具,实现数据梳理与分析模块化、智能化,进一步提高大数据分析效率。由此带来不同分析目的的个性化冗余的数据,需要大幅提高存储与算力给予保障,用空间换时间。

(五)数据处理结果分类

身体与事物一样,孕育、发生、成长、衰退、消亡,每个结果都有发展过程,每个过程都会发展出结果。人们总是期望结果符合预期,选择性的优化(干扰)事物发展过程的影响因素。大数据分析应用目的在于提升优化(干扰)事物发展的能力和水平。

1.结果数据。事物有很多特征,根据事物内在、尤其是外在特征,对不同事物进行分类分级。部分特征稳定,部分不稳定。稳定的、主要的特征常作为事物的标志性指标,如名称、类别、等级等。而不稳定的变化特征做为变量参数,用不等阶段的变量参数描述事物的结果状态。因此,结果类数据又称为状态类数据。

回顾性研究、现状研究围绕结果数据进行,推测可能存在的内在规律。而前瞻性研究则按照前期推测可能存在的内在规律,通过设定实验环境和参数,观察未来成果数据是否得到验证。

2.过程数据。事物的发展变化受内外因素相互作用,以主导地位的影响因素为主线,相关因素关联互动,日积月累,量变到质变,这一次次相互作用、相互影响留下的记录数据称为过程数据。因与新生事件有关,又称为事件类数据。

事物内外因素的成分、比例,相互影响正向、方向作用关系等过程数据,是分析事件起因的重要线索和依据。大数据分析就是为了应用适合算法工具,去找出纷杂的过程数据中隐含的内在规律。

3.混合数据。混合数据在此指包含阶段性结果的过程数据,其本质是过程数据。将混合数据单列表述的原因在于有些事物发生过程缓慢、持久,如儿童生长发育过程,过程数据记录中不断出现阶段性特征结果,同时持续演变发展。

混合数据包含的影响因素逻辑关系、阶段性结果评价、数据持续生长等特征,要求数据仓库建模与其相适应,满足数据仓库保存各类过程与结果数据的需求。既能保存稳定的阶段性结果数据、状态数据,也能保存变化的过程数据、事件数据,还能按照需求适时扩容。

(六)数据时间维度分类

医疗健康领域常用时间维度将研究方法分为回顾性研究、现状研究、前瞻性研究三类。对应的将各类数据分为历史数据、现状数据、预期数据。

1.历史数据。指生产服务单元已经完成,业务系统产生并记录的数据。在医疗机构,病案室归档的病历、影像科归档的影像、实验室留存的结果等,都是历史数据。

历史数据分析研究属于回顾性研究,与现状研究一样,都属于观察描述、现象分析研究。重在对比发现历史数据差异、事物特征,分析(推导)可能存在的机理。常用于现状分析发现苗头线索的进一步归纳、验证。限于历史数据采集技术的滞后性,多用于宏观、整体数据分析。

2.现状数据。指生产服务单元正在进行,业务系统产生并记录的数据。在医疗机构,疾病诊疗过程尚未完结的科室病历、药剂科待发药处方等,都是现状数据。

现状数据分析研究属于现状研究,与回顾性研究一样,都属于观察描述、现象分析研究。重在对比发现现状数据差异、事物特征。常用于遴选苗头线索、为下一步研究提供方向,或发现现状事物与预设规则比对(实验),检出变差值进行提示。现状研究具有当前最新的数据采集技术,具有先进性,既适用于宏观、整体数据分析,也适用于微观数据分析。

3.预期数据。指采用特定创新而不确定的生产或试验方式,业务或试验系统产生并记录的数据。在医疗机构,新药研发的临床验证试验,新型手术方案的临床试验、实验室开展的动物药理、环境等干预试验等,获取的都是预期数据。

预期数据既有可能证实预先设计方案,达到预期目的;也有可能出现相反数据结果,对预先设计方案进行证伪;更有可能产生无法取得数据、数据缺乏完整性、数据缺乏逻辑性等情况。为保证预期数据质量可控,一般采用影响因素随机分布、观察因素对比分布的前瞻性对照研究方法。对起效慢、发生率低、影响因素多的观察因素,常常扩大研究样本数量,形成多组对照队列持续观察研究(随访)。我国现有病例对照研究最大队列达五万对的有三家,华科、复旦、福医。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
大数据,数据库,医疗,健康

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交