医疗健康大数据分析应用思路(一)
近几年,接触的医疗健康大数据,偷闲回顾感悟,梳理成“医疗健康大数据分析应用思路”。
一、大数据概念
(一)大数据是什么:
大数据是计算机网络技术应用记录的各类海量数据集;未被采集的数据不算。如:现金流通未被各类电子账户记录的数据(金税四期后算),传统战争中少量和残缺的情报数据,深海、地心、太空等人类尚未涉足的数据。
(二)大数据特征是什么:
2012年,美国高德纳咨询公司提出大数据特征3V说:体量大(Volume)、种类多(Varity)、存取快(Velocity);
2012年,《大数据时代》作者提出大数据特征4V说:体量大(Volume)、种类多(Varity)、存取快(Velocity)、价值大(value);
2013年,美国IBM公司提出大数据特征5V说:体量大(Volume)、种类多(Varity)、存取快(Velocity)、价值大(value)、准确性高(Veracity)。
(三)个人观点:
1.可获取特征:体量可知、种类可数、存取快速的三个特征,隐含“可获取特征”,只是在IT氛围中,默认都可调取,没有将其单列;否则,就不会有上述三个特征。Gain(获得)、obtain(得到)、achieve(取到),三个单词没有一个V开头,不便排比句,也是被忽视的原因之一。
2. 准确性特征:大数据来源纷杂,获取方式各异,噪音很多,脏数据无处不在。计算机记录的准确性无法纠正采集来源的不准确性,即使记录准确,依然无法确认其客观性。所以,准确性并不高。这也许就是为什么IBM公司强调计算机记录准确性的特点并不被大家认同的原因。
(四)官方定义:《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)定义:“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合”。
(五)对比发现:官方采纳了4V说,舍弃“准确性高”特征。但同样未强调是计算机技术应用产物。
这里为什么强调大数据是计算机网络技术应用的产物?结合大数据可获取的特征!对应“数字化、网络化、智能化”三个阶段去理解。
(六)医疗健康大数据是什么:医疗健康领域计算机网络技术应用记录的各类海量数据集。各类纸质病案记录算不算?算,可识别转换为电子数据,可获取!
同理,无法被采集的数据不算。如:大脑记忆的生理数据,碱基对对应的组织器官发育数据(基因图谱已经破解,但碱基对信息尚未完全破解);人类器官衰老机制数据。有待可采集纳入研究范畴。
(七)医疗健康大数据特征是什么:
1.基本定义的:“容量大、类型多、存取速度快、应用价值高为主要特征的数据集合”;
2.个人观点的:“可获取的计算机技术应用记录的数据集合”;
3.行业特殊性:“隐私保护、生物安全、网络安全、数据安全”;
(八)综合表述:医疗健康大数据是医疗健康领域计算机网络技术应用记录的各类海量数据集,具有“可获取、容量大、类型多、存取速度快、应用价值高”等特征,因其行业特殊性,又有“隐私保护、生物安全、网络安全、数据安全”的要求。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读