医疗健康大数据分析应用思路(三)

2022
11/22

+
分享
评论
缪伟
A-
A+

借助计算机算力和编程语言的优势,典型数据梳理出的数学模型、逻辑关系可用于构建人工智能模型,逐步实现大数据采集、大数据汇聚、大数据标化、大数据分析的智能化。

近几年接触的医疗健康大数据,偷闲回顾感悟,梳理成“医疗健康大数据分析应用思路”。

三、大数据分析方法

1、大数据采集。指大数据分析前对生产服务系统各类数据的收集、获取的过程。大数据特性决定了数据来源应尽可能完整、全面,大数据采集是实现这一目标的基础工程。数据确权、数据安全、数据隐私、业务系统等是影响大数据采集的重要因素,制约大数据采集方式与路径,影响采集成效。大数据采集方式可分为四类。

(1)数据接口传输模式。数据生产服务机构认可采集、汇聚要求,具备安全互通的网络渠道,将生产业务系统数据通过接口方式上传至指定数据中心。机构和集团内部数据中心的数据采集基本采用这一方式,获得政府授权或指定汇聚的数据中心大多采用这一方式采集数据。这一方式数据采集及时、动态,数据接口赋予转换、审核功能时,可在采集过程实施数据按预定格式分类,简化后续清洗、标化的压力。

政府授权或指定汇聚的数据中心,在采集医疗健康整体大数据时适合采用这一方式。

(2)数据拷贝转移模式。数据生产服务机构认可采集、汇聚要求,不具备安全互通的网络渠道,或数据量过大,传输时间过长,将生产业务系统数据拷贝至移动存储设备,如移动盘、硬盘、磁盘阵列等,转移到指定数据中心进行复制。机构和集团内部异地无网络分支机构,以及获得临时授权的数据中心,大多采用这一方式采集数据。这一方式数据采集相对之后、静态,基本不具备数据转换、审核功能。

临时授权的专项数据中心,在采集医疗健康专科专病专技大数据时适合采用这一方式。

(3)数据检索抓取模式。数据生产服务机构认可或不认可采集、汇聚要求,但具备互通的网络渠道,经个人或机构用户授权,对其名下发生的生产服务数据进行检索提取,或第三方机构利用网络爬虫等检索工具,自行检索抓取数据。检索抓取模式的用户或第三方自主性强,但数据完整性较接口传输模式、拷贝转移模式差。

授权的互联网医疗健康监管平台,在采集医疗健康违法违规数据时适合采用这一方式。

4)数据分析提取模式。数据生产服务机构出于数据确权、数据安全、数据隐私考虑,不提供原始数据采集模式,但接受合作的第三方以分析算法介入,认可数据分析的二级数据共享。合作的第三方采集二级数据开展大数据分析应用。这一做法也叫“联邦学习”。联邦学习理论上保护隐私、数据安全,但数据安全、隐私安全等级由自主可控降低到依赖合作方自律。同时,受预先植入算法相对固化的制约,提取的二级数据可分析应用范围受限。

该模式仅适合生产服务系统数据结构相同或相似,采集不触及法律政策规定的电子政务、生物安全、个人隐私等数据。政府授权或指定汇聚的数据无需采用这一方式。

2、大数据汇聚。指大数据通过各种方式采集,汇总到数据中心统一管理,以便后续处理、分析的过程。大数据汇聚后意味数据采集过程已完成,数据确权使用、数据安全防护、数据隐私保护等权益与责任已转移到数据中心。根据医疗健康业务生产服务系统存在的种类与厂商差异,汇聚数据存在的数据种类与存储方式差异,大数据汇聚存储可分为二类。

1)原始系统汇聚存储模式为方便汇聚数据的调阅、解构,将生产服务系统在数据中心重新部署一次,汇聚的数据存储结构仍然沿用原始模式,最大限度保留数据的原始状态。

这种方式上马快、接口无需改造、数据失真与丢失风险小。适合数据中心数据量较小、早期建设阶段,通过搭建原始业务系统熟悉数据结构与类型,为后续建设标准库打下基础。这种方式增加了二次建库的压力,不适用分布式储存、数据仓与数据湖建设。

2)标准建库汇聚存储模式为方便汇聚数据分类存储、结构与排列趋于标准化,统一定义数据库表各项目含义,将汇聚数据的各个数据项按照统一的数据库表分类入库,分布式存储,并赋予时间索引、个人索引、机构索引、数据特征等维度标识。

这种方式数据调阅快、需要接口改造、数据审核存在失真与丢失风险。适合数据中心中后期阶段的建设,已经熟悉原始业务系统数据结构与类型,进行分布式储存、数据仓与数据湖建设。统一、标准的数据库具体选型、编程方式,结合医疗健康大数据特征选择。

3、大数据标化。指根据分析要求对抽取部分数据的数值、单位、字段、色阶、方向等参数,按照设定标准统一表述形式,以便后续分析、挖掘的过程。数据标注是对数据特征进行外显、数字化的重要形式。医疗健康大数据标化可分为四个步骤。

(1)数据抽取归类。指根据分析要求,按照一定维度、参数,抽取同类型数据用于比较分析。如:开展某药物肝损伤研究,抽取一定范围内服用该药物的人的肝功能检测报告,对照正常值,或对比未服用该药物的人的肝功能检测报告,进行分析比较。这两类人的肝功能检测报告数据就是同类型数据,被抽取归类,做进一步处理。

(2)数据清洗完善。指根据分析要求,对抽取数据的合规性、合理性、逻辑性进行审核评估,剔除“非法”数值、缺失关键项数值,补充数据的完整性。如:开展某药物肝损伤研究,抽取检测报告发现不属于肝功能检测、缺失肝功能指标,缺乏的个人基础信息、疾病信息、用药信息,对错误数据予以清洗,可补充部分予以完善。

(3)数据标化归档。指根据分析要求,对抽取数据的数值表述方式、计量单位、字段含义、色阶范围、取值方向等参数,按照设定标准统一表述。如:药物浓度,既有使用毫摩尔的,也有使用微克升的,统一计量单位后,数值随之转换。

(4)数据标注备用。指根据分析要求,对抽取数据的特征采用特定的数字、符号、等级进行标识、凸显,将数据特征转化为可计算的数字化形式。如:单纯体重无法对比分析,体重数据结合身高转标注为严重超重、中度超重、轻度超重、正常、轻度消瘦、中度消瘦、严重消瘦,结合饮食、运动、用药、工作负荷等可进行综合分析。

4、大数据分析。指根据分析要求,对标化数据的数值、单位、字段、色阶、方向等参数,按照设定的算法、逻辑进行对比分析,挖掘数据之间的差异、数据深层的特征。此处的算法包含对数值的四则运算、代数算法、函数算法、统计学算法等,以及色阶、图形、方向的描绘与比对。常规分析结果可直接展示与应用,典型数据梳理出的数学模型、逻辑关系可用于构建人工智能模型。

(1)数据特征描述分析。指标化的单组数据直接用数学算法计算,得到数据的数学、统计学的基本特征。如:算术平均数、中位数、最大值、最小值、离散度、数据形态等。在评测某一地区或群体青壮年男性生殖能力时,对精子数量、形态、活力的描述,就是采用数据特征描述分析法,对计量数据、定性数据、半定性数据(等级数据)进行描述分析。

(2)数据差异对比分析。指对标化的同类不同组数据的数值,采用T检验、方差分析等统计学算法对其差异进行对比分析,判断数据之间的差异来自总体内部差异还是不同总体之间的差异,推断数据之间是否存在本质特征差异。非同类数据不宜直接比较差异。临床检验的正常值、判断值,就是基于前期大数据分析得出总体特征,与后续单次数据比较,判断单次检验结果正常与否、符合与否。如:新冠病毒核酸检测判别值ct值:35。

(3)数据协同关联分析。指对两组或多组不同类型数据之间是否存在自变量与因变量的协同关系进行分析,包含相关分析和回归分析。协同关联关系并不意味因变量和自变量确定有因果关系,也可能是多因素之间的偶合、传导关系。但通过建立回归模型,有助于探究事物之间内在联系,引导人们利用其关联关系“趋利避害”。如:研究发现食入盐份数量与高血压正相关,高血压患者推荐少盐饮食。

(4)数据趋势预测分析。指利用当前和历史数据的演化规律,对未来数据变化趋势进行预测和判断。预测分析既可以是数据本身延续变化的预测,也可以是自变量数据变化预示因变量数据关联变化的可能性预测和判断。如:根据青少年生长发育规律,结合父母身高可以粗略预测子女身高范围,再结合第一次发育期增高可以较为准确预测子女成年身高。

(5)数据可视化分析。指根据人们视觉感知的优势地位,借助于图形化手段,直观展示数据分析结果和数据特征。除了常用的散点图、折线图、柱状图、条形图等二维图形,以及二维视频外,三维图形、三维动画也越来越多的用于有形物体形态数据的描述分析和对比分析。数据可视化既可以单纯展示结果,也可以直观对比分析,符合人们感知习惯。

5、大数据智能。借助计算机算力和编程语言的优势,典型数据梳理出的数学模型、逻辑关系可用于构建人工智能模型,逐步实现大数据采集、大数据汇聚、大数据标化、大数据分析的智能化,结合行业特点形成适应各个行业大数据智能分析应用模式,脱离原始的人工采集数据、汇聚数据、标化数据、分析数据的初级阶段。大数据分析应用的高效、精准、深入的特征得以体现。

6、大数据应用。大数据特征描述、差异对比、关联分析、趋势预测、可视化等分析手段,人工智能应用,对社会与自然的宏观大数据,身体与物质的微观大数据,都有用武之地。按照购买服务对象分类,医疗健康大数据应用包含政府及其部门应用场景、医疗卫生机构应用场景、健康相关行业应用场景、居民健康管理应用场景等。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
数据中心,大数据,医疗,思路,分析,采集,算法

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交