【神麻人智】 超声心动图收缩功能和舒张功能的自动判读:一项多队列研究

2022
08/12

+
分享
评论
古麻今醉
A-
A+

在这项四个独立队列验证的大规模研究中发现,基于深度学习的端到端工作流程可以自动对超声心动图视图和多普勒模式进行分类,并评估心脏收缩和舒张功能。

8311660259990882

背景

心力衰竭是世界范围内的重大公共卫生问题。早期诊断和治疗可以预防疾病进展并减轻医疗卫生系统的负担。超声心动图被认为是诊断心衰时评估心脏结构和功能的首选方法。尽管超声心动图是一项无创、安全、易被接受的检查,但需要经过培训的专家来判读,限制了应用的可及性。深度学习的进步使医学影像的自动化分析成为可能。既往已尝试对超声心动图自动判读进行研究,但只关注于超声切面视图识别,或者收缩功能的量化,或者对检查异常的患者未进行外部验证。事实上,超过一半的心衰患者为“射血分数中间值”或“射血分数保留”的心衰。舒张功能的评估对心脏疾病状态至关重要。因此,能评估收缩和舒张功能参数的全自动工作流程具有重要临床意义。为了满足这一需求,作者团队开发了一个完全自动化的基于深度学习的工作流程,通过超声心动图来估计心脏收缩和舒张功能的参数。首先,根据最常用心脏切面对超声心动图视频进行分类。然后,使用基于卷积神经网络(convolutional neural networks,CNNs)的自动注释器来量化心腔容积、左心室收缩功能(射血分数)和舒张功能(E/e’比值)。最后,使用自动化工作流生成所需的输出,并在独立样本、性别平衡和种族多样化的队列中与人为测量结果进行比较。

方法

研究设计和数据集

作者团队使用来自转化研究和心血管试验亚洲网络(ATTRaCT)的数据,在新加坡科学、技术和研究局(A*STAR)下属的重点研究院(生物信息研究所、高性能计算研究所和信息通信研究所)建立了基于自动化深度学习的工作流程原型。ATTRaCT平台的数据源于11个亚洲国家/地区。训练集使用了1076名患者的总共1145份超声心动图。测试集来自406名患者的406份超声心动图。样本大小基于可用的数据。然后,在三个外部数据集对自动测量的可靠性进行了验证。测试集和验证集数据没有重叠。三个外部数据集分别是来自加拿大阿尔伯塔心力衰竭病因与分析研究团队(Alberta Heart Failure Etiology and Analysis Research Team; HEART;n=1029)和台湾一项真实世界研究数据集(n=31241),这两个队列包括患有心力衰竭的参与者和未患有心力衰竭的参与者。第三个为美国EchoNet-Dynamic数据集(n=10030),该数据集包括LVEF的真实测量结果,用于验证左心室射血分数(LVEF)的自动测量。上述队列的基线特征参考原文附录。

基于视频的用于视图分类和标注的深度学习模型

人工执行超声心动图测量的工作流程包括:(1)识别正确的二维或多普勒模态视图;(2)在二维视图上手动分割和标注心腔轮廓,或在多普勒模态视图上标注特定测量指标;(3)参考性别和年龄标准值,判断测量结果是否在正常范围。基于深度学习的工作流程通过快速分析患者超声心动图的DICOM(医学数字成像和通信)标准文件,从视图分类、标注、测量、到生成心脏结构和功能的结果,实现整个流程的自动化。无需人工干预。

工作流程的第一阶段是将图像和视图分类:二维视频,二维视频和彩色多普勒,脉冲组织多普勒成像(pulsed wave tissue Doppler imaging,PWTDI)、M模式、脉冲多普勒和连续波多普勒。然后通过二维视频和多普勒模式的两个独立的工作流程解析视频。在第二阶段,对二维视频和多普勒模式进行预处理,并按视图分类。二维视频被分类为心尖4腔(A4C)视图、心尖2腔(A2C)视图、胸骨旁长轴(PLAX)视图或其他视图。多普勒模式分类为PWTDI(外侧、内侧和三尖瓣反流峰速度[tricuspid regurgitation peak velocity, TRV])、M型(TRV和其他视图)、脉冲波(二尖瓣和其他视图)、连续波(TRV、主动脉流出道速度等视图)。通过将回波扇区裁剪为紧密的正方形,或将速度轨迹裁剪为紧密的矩形,对DICOM图像进行预处理。将心电图转换为描记图,以确定心动周期P、R和T阶段(如果存在)。

二维视频通过两种不同分类器的一个进行分类。第一个分类器是有监督的CNN,由四个卷积层、一个密集层和一个softmax输出层组成。该模型使用分类交叉熵损失函数进行训练。第二个分类器是无监督深度聚类CNN的修改版本,使用均方误差和Kullback-Leibler损失函数进行训练。多普勒模态视图分类器由回声/速度轨迹图像和分类真实值(ground truth)标签训练的CNN模型的集合组成,使用分类交叉熵损失函数和softmax输出层。用1145份超声心动图的55487张图像来训练模型。

对二维视频和多普勒模式的分类视图进行标注。经验丰富的超声医师标注了20828张可用图像,以供训练。机器学习采用组合的CNN标注二维视频和多普勒模式。图像分割基于sigmoid输出层的Unet架构,并使用组合的二元交叉熵和Dice损失函数进行训练。对于A2C和A4C视图,对左心室和左心房的心内膜边界进行标注。对于PLAX视图,确定线性测量值。对于多普勒模式,进行速度跟踪和视图特定标注。基于帧级标注,生成视频级容积曲线以识别收缩期和舒张期。收缩末期、舒张末期和峰值位置通过自动分析相应心电图(如果存在)来确认。然后,在视频上实时投影帧级标注。

过滤器和置信度评分

一份超声心动图通常包含相同视图的多个视频,一个视频具有多个帧。因此,对于外部验证集,我们使用置信度评分来识别最佳视图质量的视频和帧,并使用决策规则来识别最佳测量质量的自动测量。低质量的视频不纳入分析。视图质量基于视图分类器CNN SoftMax层的最高输出概率。测量质量基于几项检查,包括标注轨迹的形状和位置,收缩期和舒张期与心电图之间的一致性,以及自动测量值在生理范围内。

异常值识别与人工测量变异性比较

三名独立的超声专家重新分析了加拿大数据集中每项测量的前15个异常值(即,人工和自动测量之间最不一致的超声心动图),以确定自动和人工测量之间不匹配的原因。在评估之后,超声医师从两种测量中选择接近自己测量的更优值。超声医师也对图像的质量或患者是否存在房颤做出评判。

研究团队还进行了一项前瞻性研究,比较自动测量和人工测量的变异性。两位独立的资深超声专家重新测量了来自ATTRaCT (n=115)和阿尔伯塔 (n=27) 研究的142份超声心动图。这些图像未用于工作流程的训练。他们随机对图像测量心室收缩末期容积(LVESV)、左心室舒张末期容积(LVEDV)、LVEF、左心房收缩末期容积(LAESV)、E波、E '侧和E '内侧,对原始人工测量,自动测量和彼此测量结果设盲。利用个体等效系数(individual equivalence coefcient,IEC)将这两次人工测量和原始人工测量的变异性与自动测量和三次人工测量的变异性进行比较。

统计分析

计算比较了自动与人工测量的平均绝对误差(MAE)、均方根误差、中位数绝对和相对(百分比)偏差以及Pearson相关系数r。对于内部测试集,给出了测量的准确性,它是指在二维视频或多普勒测量在相应类别中正确分类的比例。由于射血分数维持心力衰竭的表型异质性,进行了事后交互分析,以检验年龄、性别或体重指数(BMI)是否改变了自动和手动超声心动图参数的相关性。Dice相似性系数用于比较心腔的自动和手动标注。由第50、75和95的百分位数计算绝对偏差和百分位偏差,比较自动测量和手动测量。在前瞻性研究中,我们使用参考标度IEC评估了自动测量和人工测量的互换性。如果自动测量和人工测量具有相同的患者内变异,则IEC的预期值为0,如果自动测量具有较低的变异,则IEC的预期值小于0,反之,则预期值大于0。为预测收缩功能障碍(LVEF<40%)或E/e’比率至少为13或e’外侧小于10 cm/s的患者,绘制受试者工作特征曲线下面积(AUC)。在事后分析中,还比较了房颤患者与非房颤患者的工作流程的测量表现。使用Python(版本2.8)开发深度学习工作流程;使用R(版本3.4.1)进行自动测量的测试和验证。

结果

利用ATTRaCT数据开发和训练了超声心动图自动化工作流程后,评估了内部测试集,并在外部独立的数据集进行验证。

在测试集中,CNNs能区分二维视频和多普勒模式的不同视图,准确率从PWTDI(e′内侧)的91.1%到PLAX切面的98.9%。CNNs能够分割心腔,左心房和左心室的平均Dice相似性系数范围为93.0%至94.3%。自动测量与人工测量的相关性范围从E波r= 0.88 (MAE 7.4 cm/s) 到LVESV r= 0.95 (MAE 10.2 mL)(表1)。

表1. 真实值与自动测量值的相关系数

  55521660259990989

对于最具临床意义的参数,自动测量与手动测量的相关性分别为: LVEF,r= 0.89 (MAE 5.5%);e’外侧,r= 0.92 (MAE 0.7 cm/s);E/ e’比值,r= 0.90 (MAE 1.7)(表1,图2)。用于识别收缩功能障碍LVEF<40%的AUC为0.96(95%CI,0.92~0.99),e’外侧速度小于10 cm/s的AUC为0.95(0.88~0.99),E/ e'值为13或更高的AUC为0·96 (0·92~0·99)(图3)。在事后交互分析中,真实值E/e’比率和自动测量E/e’值的相关性不受年龄、BMI或性别得影响。

18181660259991365

图2. 回归线散点图。LVEF (A),e’外侧(B),E/ e’比值(C)。

45581660259991614

图3. 自动测量识别心力衰竭患者的受试者工作特征曲线下面积(AUC)。识别LVEF小于40% (A), e’外侧小于10cm /s (B), E/ e’比值大于或等于13 (C)。

继而在三个外部数据集对该工作流程进行验证。在来自加拿大的队列中,0~2.0%的二维视频和多普勒模式的视图质量较低,1.3%~10.9%的测量质量较低。自动测量和手动测量之间的相关性从e’内测r=0.67(MAE 1.0cm/s)到LVESV的r=0.91(MAE 16.5mL)。自动测量与手动测量其他指标的相关性为:LVEF,r= 0.75 (MAE 8.6%);e’外侧,r= 0.78 (MAE 1.2 cm/s);E/ e’比值,r= 0.75 (MAE 2.2) (表1,图2)。根据自动测量,LVEF<40%的AUC为0.91(0.88~0.94),e’外侧速度小于10 cm/s的AUC为0.88(0.84~0.92),E/ e'比值为13或更高的AUC为0·91 (0·88~0·94) (图3)。

在来自台湾的数据集中,0~2.9%的二维视频和多普勒模式的视图质量较低,1.3%~28.1%的测量质量较低。自动测量和手动测量之间的相关性范围从LAESV的r=0.62(MAE 9.2mL)到e’外侧的r=0.88(MAE 1.6 cm/s)。其他指标相关性为:LVEF,r= 0.75 (MAE 10.2%);e’外侧,r= 0.87 (MAE 1.6 cm/s);E/ e’比值,r= 0.79 (MAE 1.8) (表1,图2)。LVEF<40%的AUC为0.90(0.89~0.90),e’外侧速度小于10 cm/s的AUC为0.94(0.93~0.95),E/ e'比值为13或更高的AUC为0·91 (0·89~0·93) (图3)。

在加拿大和台湾的队列中,房颤患者的MAE高于非房颤患者。然而,加拿大队列中房颤患者的LVESV、LVEDV、LVEF、LAESV和E/ e'比值的r值,台湾队列中房颤患者的LVESV和LVEDV的r值,与非房颤患者相比类似或更高。

在美国EchoNet-Dynamic数据集中验证了LVEF测量值。确定了6476个A4C视图用于测量LVEF。其中,6306个(97.4%)为高质量视图,6286(97.1%)具有高质量测量,因此评估了6286个视图。自动测量和手动测量的相关性为r=0.76(MAE 6.5%)。LVEF低于40%的AUC为0.92(0.91~0.94)。

在加拿大数据集中每个测量的前15个异常值中,三位独立的超声医师更倾向于自动测量,而不是原始人工测量。临床专家认为LVEF的原始人工测量优于自动测量时,视频质量通常较差。优选E波的人工测量而不是自动测量时,患者通常处于房颤状态。

在亚洲(ATTRaCT)和加拿大数据集的超声心动图自动测量与专家人体测量的前瞻性验证中,所有测量的IEC均小于0,表明自动测量与人工测量可互换。自动测量的参考标度值与人工测量的标度值相似。

结论

在这项四个独立队列验证的大规模研究中发现,基于深度学习的端到端工作流程可以自动对超声心动图视图和多普勒模式进行分类,并评估心脏收缩和舒张功能。在来自不同国家、医疗保健系统的不同队列中对工作流程的外部验证表明,自动化测量在具有不同种族背景的男性、女性和真实世界临床患者中具有普遍适用性。研究还表明,自动测量的变异性低于由超声专家人工测量的变异性。

评述

利用机器学习对超声心动图图像进行自动识别和结构/功能参数测量具有重要临床意义和广泛应用前景。既往利用深度学习来自动标注超声心动图的尝试主要集中在视图分类和LVEF评估,测量参数少且无多普勒模态测量。大多数研究都没有外部验证。该研究利用ATTRaCT数据库的超声心动图二维和多普勒模式视图,基于卷积神经网络建立自动化的对视图进行分类、标注和测量心脏收缩/舒张功能的工作流程,不仅对ATTRaCT内部数据进行测试,而且还在来自不同国家的三个独立数据库中进行了外部验证。研究表明该工作流程的测量结果与人工测量结果有高度相关性,诊断心力衰竭(LVEF<40%,e’外侧<10cm /s ,E/ e’比值≥13)的AUC均接近或超过0.9,且具有普适性。在前瞻性研究中,研究人员发现该工作流程测量结果的变异性较超声专家人工测量的变异性更低。这些结果提示,新的深度学习算法有可能增强或替代人工标注和测量超声心动图的重复性任务,可能大规模部署用于超声心动图的自动检测。特别是随着手持式超声设备的开发,对超声心动图提供人工智能软件支持有利于在缺乏超声专家和资源稀缺的环境中得到应用。

这项工作存在一些缺点。首先,提出的工作流程在超声医师的专业标注基础上进行训练,因此该工作流程只能分析和标注高质量图像的超声心动图。训练和验证都是根据专家的人工测量进行的,没有将自动测量与更客观的测量标准(例如侵入性血流动力学或磁共振成像)进行比较。因此,自动测量准确性反映的是专家测量结果。在外部验证中,选取的队列具有可用的测量结果,可能会在外部验证中引入偏差。尽管质量不合格的超声心动图数量有限,仍需要进一步的工作来确定如何分析低质量视频,或者如何在上游使用机器学习指导高质量图像的采集。

总之,研究团队提出了一种完全自动化的基于深度学习的工作流程,以自动测量超声心动图的心脏容积,LVEF和E/ e’比值等指标,为机器学习解释超声心动图从而提供全自动解决方案的可能性向前迈出了重要一步,相信不久的将来会应用于支持临床医生提高工作效率,改善临床诊治。

编译:王贝贝

审校:徐铭

文献来源:Tromp J, Seekings PJ, Hung CL, et al. Automated interpretation of systolic and diastolic function on the echocardiogram: a multicohort study. Lancet Digit Health. 2022 Jan;4(1):e46-e54.

声明:古麻今醉公众号为舒医汇旗下,古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。

不感兴趣

看过了

取消

本文由“健康号”用户上传、授权发布,以上内容(含文字、图片、视频)不代表健康界立场。“健康号”系信息发布平台,仅提供信息存储服务,如有转载、侵权等任何问题,请联系健康界(jkh@hmkx.cn)处理。
关键词:
自动,超声,测量,视频,视图

人点赞

收藏

人收藏

打赏

打赏

不感兴趣

看过了

取消

我有话说

0条评论

0/500

评论字数超出限制

表情
评论

为你推荐

推荐课程


社群

  • 第九季擂台赛官方群 加入
  • 手术室精益管理联盟 加入
  • 健康界VIP专属优惠 加入
  • 健康界药学专业社群 加入
  • 医健企业伴飞计划 加入

精彩视频

您的申请提交成功

确定 取消
5秒后自动关闭

您已认证成功

您已认证成功,可享专属会员优惠,买1年送3个月!
开通会员,资料、课程、直播、报告等海量内容免费看!

忽略 去看看
×

打赏金额

认可我就打赏我~

1元 5元 10元 20元 50元 其它

打赏

打赏作者

认可我就打赏我~

×

扫描二维码

立即打赏给Ta吧!

温馨提示:仅支持微信支付!

已收到您的咨询诉求 我们会尽快联系您

添加微信客服 快速领取解决方案 您还可以去留言您想解决的问题
去留言
立即提交