机器学习能利用常规临床数据改善心血管风险预测吗?

2021
06/22

+
分享
评论
米勒之声
A-
A+

随着医疗保健系统中计算能力的提高,利用机器学习在临床实践中提高疾病风险预测将被广泛应用。

研究背景

      心血管疾病(CVD)仍是全球范围内引起死亡的主要原因。2012年,1750万人死于心血管疾病,其中740万人死于冠心病,670万人死于中风[1]。美国心脏协会/美国心脏病学院(ACC/AHA)根据既定的危险因素,如高血压、胆固醇、年龄、吸烟和糖尿病,评估心血管疾病的风险。这些危险因素已作为特征纳入大多数CVD风险预测工具(ACC/AHA[2],QRISK2[3],Framingham[4],Reynolds[5])。但我们依然无法准确预测患者面临的心血管疾病风险并作出相应的预防性治疗。

      我们对以上预测CVD的模型进行分析,即假设每个风险因素与CVD结果呈线性关系[7]。这些模型可能会过度简化复杂的关系,其中包括大量危险因素之间的非线性关系。因此我们需要探索更好的方法去综合考虑多种风险因素,并确定风险因素与结果之间的微妙关系。

      机器学习(ML)利用“大数据”进行模式识别和计算学习为标准预测模型提供了一种可以解决以上局限性的方法。这依赖于计算机通过最小化预测和观察结果之间的误差来学习变量之间所有复杂和非线性的相互作用[8]。另外,ML还可能识别到从其他变量中推断的潜在变量。

      到目前为止,还没有大规模的研究应用机器学习通过常规的临床数据对一般人群做预后评估。本研究的目的是确定高精度机器学习算法,并评估机器学习是否能提高大规模普通初级保健人群心血管风险预测的准确性。

研究方法

      该项前瞻性队列研究,入选378,256名30-84岁没有有心血管疾病史、遗传的脂质代谢紊乱、服用降脂药物的英国家庭医疗患者的8个核心基线变量(性别、年龄、吸烟状况、收缩压、血压治疗、总胆固醇、HDL和糖尿病)[2],将四种机器学习算法(随机森林、Logistic回归、梯度增强机、神经网络)与已建立的算法(美国心脏病学院指南)进行比较,预测10年(2005.01.01-2015.01.01)间的第一次心血管事件。预测准确性按“接收机工作曲线”(AUC)下的面积进行评估;敏感性、特异性、 阳性预测值(PPV)、阴性预测值(NPV)预测 7.5%心血管风险(启动他汀类药物的阈值)。

      8个核心变量用于导出基线风险预测模型,使用2013年ACC/AHA评估CVD风险指南中公布的方程[2]。另外的9个连续变量中,存在缺失数据,同时假设某些临床变量的缺失(如,体重指数和实验室结果)可能表明这些患者的相关性下降。考虑到初级保健医疗中正常BMI值的记录不足[23],我们将创建虚拟变量以指示这些连续变量值是否丢失。另外对于人口分类变量、汤森剥夺指数和种族,在分析中给出了一个单独的“未知”类别。总共有30个变量(不包括缺失值的虚拟变量)在基线之前的机器学习模型中进行了分析(Table1)。

 

算法与统计分析

机器学习算法

      为了比较机器学习风险算法,我们随机抽取CPRD队列中75%的病例作为“训练”队列,用于CVD风险算法的导出,剩下的 25%作为“验证”队列,用于对算法加以应用和测试。使用了四种常用的机器学习算法:Logistic 回归[25]、 随机森林[26]、梯度增强机[27]和神经网络[28]。另外RStudio 算法(http://CRAN.R-project.org/packageKaret)用于神经网络,H2O(http://www.h2o.ai)用于其余算法。每个模型的超参数是通过网格搜索和训练队列两个折叠交叉验证来确定。

统计分析

      本研究提供了研究人群的描述性特征,分别包括分类变量和连续变量的数量(%)和平均值(SD)。从训练队列中开发的机器学习预测算法的性能,通过计算Harrell的c-statistic[29]来评估验证队列,计算接收机工作特性曲线(AUC)下总面积,c-statistic使用jack-knife程序计算标准误差和95%置信区间[30]。此外,根据ACC/AHA指南[2]建议的启动降脂治疗的10年CVD 风险为>7.5%的阈值,采用二元分类分析来比较验证队列中观察到和预期预测的病例和非病例。该过程提供了敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV).用STATA13MP4对算法性能进行了统计分析。

研究结果

数据提取

      本研究中,200万患者中共有383592名患者符合资格标准。排除5336例编码错误患者(即血压/胆固醇的非数值条目)和极端观察☞(>自平均值的 5倍SD),分析队列由 378256名患者组成。然后,将该队列随机分成295267名患者的75%样本,以训练机器学习算法和82989名患者的剩余样本用以进行验证(Fig 1)。

     在整个队列中,378,256 名患者10 间,有 24,970 例(6.6%)的心血管疾病病例。CVD 病例中女性明显少于男性(42%F,52%M),而非 CVD 病例中女性仅略多于男性(52%F,48%M)。心血管疾病患者的平均基线年龄为 65.3 岁,而非 心血管疾病患者的平均基线年龄为 57.3 岁(p<0.001)。CVD 和非 CVD 患者的进一步特征见 Table2。

       Table2中列出了机器学习模型的输入变量,变量重要性由 ACC/AHA基线模型的系数效应大小和机器学习Logistic回归确定。随机森林和梯度增强机器模型,基于决策树,将变量的选择频率的变量重要性排序为决策节点,而神经网络则使用模型内变量的整体加权。CVD预测算法的前 10 个危险因素见Table3。

       按性别分层的ACC/AHA算法中的标准危险因素是年龄、总胆固醇、高密度脂蛋白胆固醇、吸烟、血压和糖尿病。ACC/AHA模型中的几个危险因素(年龄、性别、吸烟)是所有四种机器学习算法的顶级危险因素。糖尿病,在许多CVD算法中是显著的因素,然而在机器学习模型中不被列为顶级危险因素(尽管HbA1c被作为随机森林模型中的代理)。机器学习发现了一些之前的风险预测工具没有发现的其他新的危险因素,包括医疗条件,如COPD和严重精神疾病,处方口服皮质类固醇,以及生物标志物,如甘油三酯水平。随机森林和梯度增强机在危险因素选择和排名中最相似,在排名顺序和BMI替代收缩压方面存在一些差异。逻辑回归和神经网络优先考虑医疗条件,如心房颤动,慢性肾脏疾病和类风湿关节炎,超过了生物特征危险因素。神经网络也将年龄作为一个加权较少危险因素,包括“体重指数缺失”作为 CVD 的保护危险因素。

      根据判别工具(AUC 统计量)表示所有模型的预测准确度见Table4。

     ACC/AHA风险模型作为比较的基线(AUC 0.728,95%CI 0.723-0.735)。与基线模型相比,所有被测试的机器学习算法在识别能力在统计学上显示有显著的改进(从随机森林算法增加 1.7% 到神经网络增加3.6%)ACC/AHA基线模型从7404例病例中正确预测了4643例,敏感性为62.7%,PPV为17.1%。随机森林算法在基线模型的基础上预测CVD病例净增191例,灵敏度提高到65.3%,PPV提高到17.8%,而 Logistic回归预测CVD 病例净增324例(灵敏度 67.1%;PPV18.3%)。梯度增强机和神经网络表现最好,分别正确增加预测了354例(灵敏度 67.5%;PPV18.4%)和355例 CVD(灵敏度67.5%;PPV18.4%)。ACC/AHA 基线模型正确从75585个非病例中预测了53106个非病例,结果特异性为70.3%,NPV 为 95.1%。与基线 ACC/AHA 模型相比,随机森林算法的预测的非病例例数净增加191例,神经网络增加355例。

研究结论

      机器学习显著的提高了对心血管风险预测的准确性,与已建立的AHA/ACC 风险预测算法相比,我们发现所有测试的机器学习算法都能更好地识别将会发展为CVD 和不发展为CVD 的个体。与既定的风险预测方法不同,所使用的机器学习方法不限于一组小的风险因素,并纳入了更多预先存在的医疗条件。神经网络表现最好,预测准确度提高了3.6%。

优势与局限性

      本研究首次将机器学习用于患者电子病历中常规数据调查,证实了机器学习能更好的预测大规模一般人群CVD风险。这项研究使用的一系列机器学习算法表明基于决策树的模型彼此相似,梯度增强机的性能优于随机森林。神经网络和Logistic回归更重视分类变量和CVD相关的医疗条件,对每组具有相似特征的患者进行聚类。这可能有助于进一步探索不同的预测风险因素,以及新的风险预测方法和算法的发展趋势。另外在常规CVD风险预测工具忽略了缺失值或无反应的重要性[2-5]。本研究表明,缺失值,特别是对于常规生物特征变量,如BMI,是CVD的独立预测因子。

      不得不承认的是机器学习算法,特别是神经网络的“黑匣子”性质可能很难解释。这是指风险因素变量如何相互作用及其对结果的独立影响的内在复杂性。然而,数据可视化方法的改进提高了对这些模型的理解,说明了风险因素[35]之间网络连接的重要性(参见Fig.2中可视化神经网络模型的示例)。

      另外我们还认识到,随着潜在风险因素的数量增加,模型的复杂性可能导致过度拟合,产生难以置信的结果。我们通过主动和适当地选择预训练、超参数选择和正则化[36]来解决这一问题。虽然我们已经使用一个独立的数据集交叉验证了机器学习算法的性能,这是一种常用的方法,用于开发已建立的心血管风险算法应用于临床实践[2-5,34,37],但必须承认,jack-knife程序可能会产生更准确的结果,如基因组或蛋白质组数据集[38,39]所示。此外,这些已建立的用于临床实践的风险预测算法已经从二进制分类框架中开发出来,这通常会导致数据集的不平衡。集合学习已被证明是构建平衡数据集以提高预测性能[40]的解决方案。这些方法在临床数据集中开发风险预测模型还不常见,但它们的效用应在今后的研究中加以探讨。

总结

      随着医疗保健系统中计算能力的提高,利用机器学习在临床实践中提高疾病风险预测将被广泛应用[7]。与已建立的风险预测方法相比,本研究表明,机器学习算法能更好地预测心血管疾病病例,增加预测病例的绝对数量,同时成功地排除了非CVD病例。

参考文献


向上滑动阅览


1. World Health Organization. Global Status Report on Noncommunicable Diseases. Geneva, Switzerland: World Health Organization, 2014.

2. Goff DC, Lloyd-Jones DM, Bennett G, Coady S, D’Agostino RB, Gibbons R, et al. 2013 ACC/AHA Guideline on the Assessment of Cardiovascular Risk: A Report of the American College of Cardiology/ American Heart Association Task Force on Practice Guidelines. Circulation 2013; 135(11): 1–50.

3. Hippisley-Cox J, Coupland C, Vinogradova Y, Robson J, Minhas R, Sheikh A, et al. Predicting cardiovascular risk in England and Wales: prospective derivation and validation of QRISK2. BMJ 2008; 336 (7659): 1475–82. https://doi.org/10.1136/bmj.39609.449676.25 PMID: 18573856

4. D’Agostino RB, Vasan RS, Pencina MJ, Wolf PA, Cobain M, Massaro JM, et al. General Cardiovascular Risk Profile for Use in Primary Care: The Framingham Heart Study. Circulation 2008; 117(6): 743–53. https://doi.org/10.1161/CIRCULATIONAHA.107.699579 PMID: 18212285

5.Ridker P, Buring JE, Rifai N, Cook NR. Development and validation of improved algorithms for the assessment of global cardiovascular risk in women: The reynolds risk score. JAMA 2007; 297(6): 611– 9. https://doi.org/10.1001/jama.297.6.611 PMID: 17299196

6. Ridker PM, Danielson E, Fonseca FAH, Genest J, Gotto AM, Kastelein JJP, et al. Rosuvastatin to Prevent Vascular Events in Men and Women with Elevated C-Reactive Protein. New England Journal of Medicine 2008; 359(21): 2195–207. https://doi.org/10.1056/NEJMoa0807646 PMID: 18997196

7. Obermeyer Z, Emanuel EJ. Predicting the Future—Big Data, Machine Learning, and Clinical Medicine. The New England journal of medicine 2016; 375(13): 1216–9. https://doi.org/10.1056/NEJMp1606181 PMID: 27682033 8. Dreiseitl S, Ohno-Machado L. Logistic regression and artificial neural network classification models: a methodology review. Journal of Biomedical Informatics 2002; 35(5–6): 352–9. PMID: 12968784

9. Berglund E, Lytsy P, Westerling R. Adherence to and beliefs in lipid-lowering medical treatments: A structural equation modeling approach including the necessity-concern framework. Patient Education and Counseling 2013; 91(1): 105–12. https://doi.org/10.1016/j.pec.2012.11.001 PMID: 23218590

10. Herrett E, Thomas SL, Schoonen WM, Smeeth L, Hall AJ. Validation and validity of diagnoses in the General Practice Research Database: a systematic review. British journal of clinical pharmacology 2010; 69(1): 4–14. https://doi.org/10.1111/j.1365-2125.2009.03537.x PMID: 20078607

11.Eeg-Olofsson K, Cederholm J, Nilsson PM, Zethelius B, Svensson AM, Gudbjornsdottir S, et al. New aspects of HbA1c as a risk factor for cardiovascular diseases in type 2 diabetes: an observational study from the Swedish National Diabetes Register (NDR). Journal of internal medicine 2010; 268(5): 471– 82. https://doi.org/10.1111/j.1365-2796.2010.02265.x PMID: 20804517

12. Emerging Risk Factors Collaboration. C-Reactive Protein, Fibrinogen, and Cardiovascular Disease Prediction. New England Journal of Medicine 2012; 367(14): 1310–20. https://doi.org/10.1056/ NEJMoa1107477 PMID: 23034020

13. Jardine AG, Gaston RS, Fellstrom BC, Holdaas H. Prevention of cardiovascular disease in adult recipients of kidney transplants. The Lancet; 378(9800): 1419–27.

14. Mason JE, Starke RD, Van Kirk JE. Gamma-glutamyl transferase: a novel cardiovascular risk biomarker. Preventive cardiology 2010; 13(1): 36–41. https://doi.org/10.1111/j.1751-7141.2009.00054.x PMID: 20021625

15. Mullerova H, Agusti A, Erqou S, Mapel DW. Cardiovascular comorbidity in COPD: systematic literature review. Chest 2013; 144(4): 1163–78. https://doi.org/10.1378/chest.12-2847 PMID: 23722528

16. Osborn DP, Hardoon S, Omar RZ, Holt RI, King M, Larsen J, et al. Cardiovascular risk prediction models for people with severe mental illness: results from the prediction and management of cardiovascular risk in people with severe mental illnesses (PRIMROSE) research program. JAMA psychiatry 2015; 72 (2): 143–51. https://doi.org/10.1001/jamapsychiatry.2014.2133 PMID: 25536289

17. Ray WA, Chung CP, Murray KT, Hall K, Stein CM. Atypical Antipsychotic Drugs and the Risk of Sudden Cardiac Death. New England Journal of Medicine 2009; 360(3): 225–35. https://doi.org/10.1056/ NEJMoa0806994 PMID: 19144938

18. Sin DD, Wu L, Man SF. The relationship between reduced lung function and cardiovascular mortality: a population-based study and a systematic review of the literature. Chest 2005; 127(6): 1952–9. https:// doi.org/10.1378/chest.127.6.1952 PMID: 15947307

19. Souverein PC, Berard A, Van Staa TP, Cooper C, Egberts ACG, Leufkens HGM, et al. Use of oral glucocorticoids and risk of cardiovascular and cerebrovascular disease in a population based case–control study. Heart 2004; 90(8): 859–65. https://doi.org/10.1136/hrt.2003.020180 PMID: 15253953

20. Wannamethee SG, Shaper AG, Perry IJ. Serum creatinine concentration and risk of cardiovascular disease: a possible marker for increased risk of stroke. Stroke; a journal of cerebral circulation 1997; 28 (3): 557–63.

21. Weng SF, Kai J, Guha IN, Qureshi N. The value of aspartate aminotransferase and alanine aminotransferase in cardiovascular disease risk assessment. Open Heart 2015; 2(e000272): 1–10.

22. Batista GEAPA, Monard MC. An analysis of four missing data treatment methods for supervised learning. Applied Artificial Intelligence 2003; 17(5–6): 519–33.

23. Bhaskaran K, Forbes HJ, Douglas I, Leon DA, Smeeth L. Representativeness and optimal use of body mass index (BMI) in the UK Clinical Practice Research Datalink (CPRD). BMJ Open 2013; 3(e003389): 1–8.

24. Assmann G, Cullen P, Schulte H. Simple Scoring Scheme for Calculating the Risk of Acute Coronary Events Based on the 10-Year Follow-Up of the Prospective Cardiovascular Mu¨nster (PROCAM) Study. Circulation 2002; 105(3): 310–5. PMID: 11804985

25. Hosmer DW, Lemeshow S, Sturdivant RX. Applied Logistic Regression, 3rd Edition. New Jersey, USA: John Wiley & Sons; 2013.

26. Breiman L. Random Forests. Machine Learning 2001; 45(1): 5–32.

27. Friedman J. Greedy boosting approximation: a gradient boosting machine. The Annals of Statistics 2001; 29(5): 1189–232.

28. Hagan M, Demuth H, Beale M, De Jesus O. Neural Network Design, 2nd Edition. Boston: PWS Publishers; 2014.

29. Newson R. Comparing the predictive power of survival models using Harrell’s c or Somers’ D. The Stata Journal 2010; 10(3): 339–58.

30. Newson R. Confidence intervals for rank statistics: Somers’ D and extensions. The Stata Journal 2006; 6(3): 309–34.

31. The Emerging Risk Factors Collaboration. C-Reactive Protein, Fibrinogen, and Cardiovascular Disease Prediction. New England Journal of Medicine 2012; 367(14): 1310–20. https://doi.org/10.1056/ NEJMoa1107477 PMID: 23034020

32. Waljee AK, Higgins PDR, Singal AG. A Primer on Predictive Models. Clinical and Translational Gastroenterology 2014; 5(1): e44.

33. Dybowski R, Gant V, Weller P, Chang R. Prediction of outcome in critically ill patients using artificial neural network synthesised by genetic algorithm. The Lancet 1996; 347(9009): 1146–50.

34.Voss R, Cullen P, Schulte H, Assmann G. Prediction of risk of coronary events in middle-aged men in the Prospective Cardiovascular Mu¨nster Study (PROCAM) using neural networks. International Journal of Epidemiology 2002; 31(6): 1253–62. PMID: 12540731

35. Olden J, Jackson D. Illuminating the "black box": a randomization approach for understanding variable contributions in artificial neural networks. Ecological Modelling 2002; 2002(154): 135–50.

36. Bengio Y. Practical Recommendations for Gradient-Based Training of Deep Architectures. In: Montavon G, Orr GB, Mu¨ller K-R, eds. Neural Networks: Tricks of the Trade: Second Edition. Berlin, Heidelberg: Springer Berlin Heidelberg; 2012: 437–78.

37. Woodward M, Brindle P, Tunstall-Pedoe H. Adding social deprivation and family history to cardiovascular risk assessment: the ASSIGN score from the Scottish Heart Health Extended Cohort (SHHEC). Heart 2007; 93(2): 172–6. https://doi.org/10.1136/hrt.2006.108167 PMID: 17090561

38. Chen J, Long R, Wang XL, Liu B, Chou KC. dRHP-PseRA: detecting remote homology proteins using profile-based pseudo protein sequence and rank aggregation. Sci Rep 2016; 6(32333): 1–7.

39. Liu B, Long R, Chou KC. iDHS-EL: identifying DNase I hypersensitive sites by fusing three different modes of pseudo nucleotide composition into an ensemble learning framework. Bioinformatics 2016; 32(16): 2411–8. https://doi.org/10.1093/bioinformatics/btw186 PMID: 27153623 40. Liu B, Wang S, Dong Q, Li S, Liu X. Identification of DNA-binding proteins by combining auto-cross covariance transformation and ensemble learning. IEEE Trans Nanobioscience 2016; 15(4): 328–44.

41. Kennedy EH, Wiitala WL, Hayward RA, Sussman JB. Improved cardiovascular risk prediction using nonparametric regression and electronic health record data. Medical care 2013; 51(3): 251–8. https:// doi.org/10.1097/MLR.0b013e31827da594 PMID: 23269109

42. National Institute for Health and Care Excellence. Cardiovascular disease: risk assessment and reduction, including lipid modification. London, UK: National Institute for Health and Care Excellence, 2016.

43. NHS England Board. Personalised Medicine Strategy. London, UK: National Health Service England (NHS England), 2015.

44. Precision Medicine Intiative (PMI) Working Group. The Precision Medicine Initiative Cohort Program— Building a Research Foundation for the 21st Century Medicine. Washington D.C.: National Institutes of Health (NIH), 2015


 

文献来源

Weng, S. F., Reps, J., Kai, J., Garibaldi, J. M., & Qureshi, N. (2017). Can machine-learning improve cardiovascular risk prediction using routine clinical data? PLOS ONE, 12(4), e0174944. doi:10.1371/journal.pone.0174944


转载来源:南方医麻醉科

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
机器学习,危险因素,心血管,常规,风险,数据

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 医生交流群 加入
  • 医院运营群 加入
  • 医技交流群 加入
  • 护士交流群 加入
  • 大健康行业交流群 加入

精彩视频

您的申请提交成功

确定 取消
剩余5
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!