显微镜数字化成像技术在临床检验医学中的应用
◤ 深度学习(卷积神经网络)介绍和人工智能训练
01、数字化的意义: 样本玻片数字化后,最令人向往的前景是计算机辅助诊断 (计数、检测、分类) ,特别是近年来深度学习的长足发展,使这一愿景逐渐变为实现。在病理领域,深度学习算法已经解决了很多问题,最常见的如免疫组化PD-L1、HER2定量检测 [9] 样本H&E染色后色差去除;样本中的细胞核及细胞的分割,定量IHC染色等级;组织内功能结构的识别,如血管、淋巴节等;甚至对肿瘤组织进行区域的识别、亚型判定、分级、生存期预测、突变预测和治疗响应 (图5) [10] 。
图5 深度学习在不同肿瘤领域的研究数量,中心深色区为FDA审核项目,中间过度区为室间评估,外围淡色区为内部评估[10]
由于细胞病理和血液病理领域缺乏高效的扫描工具,因此利用深度学习来自动分析样本的研究相对滞后。直到最近才有德国学者组织了形态学专家组,从945例骨髓涂片样本中提取了171374个细胞作为“标准数据”进行训练。骨髓涂片数字化是用40X油镜扫描,IMX250芯片相机采样,分辨率为0.09μm/像素 [11] 。
训练结果显示对细胞分类计数准确性最高的类别是嗜酸细胞和原始粒细胞,准确率达到91%,识别准确率较低的幼稚淋巴细胞为57% (图6-图7) 。
图6171374个骨髓细胞被分为21类,分类结果由多位形态学专家交叉确认
图7使用RESNET50训练,平均准确率在80%左右
02、卷积神经网络的通俗理解: 计算机对图像的描述或比较必须是数字式的,例如要比较两个线段的长度,只需要一个参数:长度,便可得出结论。如果将三角形与圆形区分,计算机需要多个参数:面积、高频 (折角变化) 等。当处理复杂 (有众多特征) 二维图像时,深度学习将使用n个特征提取器 (滤波器、卷积运算) 提取特征。特征提取交叉循环 (神经网络) ,一个二维图将被提取几千个特征值,相当于多参数的流式细胞仪,一个细胞被标记了几千种抗体测量。如果将几千个参数形成坐标,不同属性的细胞会形成群体。如图8中显示,深度学习将一个二维图用不同的测量方式测量后变成一个高维空间的点,然后对这些点作聚类运算,如果原始图像有相同属性 (标注时归为一类) ,算法将在这个高维空间下寻找一个最佳的观察角度 (设门) ,将其与其他类别相区分。这个坐标系下的观察角度就是一个AI训练模型。
图8UMAP算法将2048维降至二维显示细胞分群结果 [11]
(1)不同功能的深度学习网络: 深度学习AI算法经过多年的发展,识别分类的准确率不断攀升,各种高效的分类、分割、检测或特殊任务的网络不断涌现。以下列举一部分Bionovation系统中集成的深度学习网络。
(2)分类网络: ResNet系列。2015年,微软亚洲研究院提出ResNet网络,以3.75%的top-5的错误率获得当时的ILSCRC大赛冠军。ResNet进一步分析了网络深度对性能的影响,并以其独特的残差结构 (Residual Unit) 大大地加深了网络的深度,可以提供152层的网络。此外, 使用残差网络结构还能够加速网络的训练速度,使网络更快收敛 (图9) [12] 。
图9不同深度的ResNet网络结构
(3)检测网络: Yolo是You Only Look Once的缩写,是一种端到端的检测网络,也是目前最优秀的检测网络之一。它 将复杂的检测逻辑转化为回归问题,从而简化了计算流程,因此Yolo网络在检测速度上具有明显的优势。 Bionovation产品对Yolo网络进行了适应性开发,其中Yolov4-tiny网络在单块NVIDIA RTX 2080的峰值检测速度可达到300FPS。
(4)分割网络: Vgg_segmet是结合现有深度学习网络和具体需求自行设计的分割网络结构。在Vgg_segmet中使用vgg16深度学习网络来进行图片特征提取,然后结合自行设计的,针对分割需求的网络层,组合成Vgg_segmet分割网络。当前的Vgg_segmet分割网络在分割的颗粒度上和精确性上都能达到比较好的效果。
03、深度学习训练与使用的硬件基础:
•(1)1962年,Hubel和Wiesel,猫的视觉系统研究;(2)1975年,Kunihiko Fukishima(福岛邦彦),Cognitron ;(3)1980年,Kunihiko Fukishima(福岛邦彦),Neocognitron ;(4)1989年,Lecun,《Generalization and Network Design Strategies》、《Backpropagation Applied to Handwritten Zip Code》;(5)1998年,Lecun,《Gradient-Based Learning Applied to Document Recognition》,LeNet-5的提出;(6)2006年,Jake Bouvrie,Notes on Convolutional Neural Networks 2012年,Alex,《Imagenet classification with deep convolutional neural networks》[13]。
虽然关于卷积神经网络的算法思路在上世纪已经完成,但直到GPU (图形运算卡) 的并行运算性能大幅提高并可大规模使用后,深度学习才真正普及。图像在计算机层面是一个二维数组,对图像的处理就是对每个数值进行计算,2000X2000个像素图像共有4百万个数值需要计算,CPU并不能很好地执行并行运算,因为每个数值运算都要占用一次CPU的逻辑核 (线程) 。目前通常使用的CPU为8核16线程,一次只能处理16个数值。GPU则相反,提供多达5000~15000个逻辑单元CUDA核,其设计目的就是高速处理像素。
TOPS是Tera Operations Per Second的缩写,1TOPS代表处理器每秒钟可进行一万亿次 (10¹²) 操作,表六为不同GPU的算力。英特尔最新I9 18核处理器的算力约1TOPS。
Bionovation扫描仪最多可 配置两台GPU工作站,一台与扫描仪连接,在样本扫描时AI可实时处理图像,另一台工作站提供大容量数据存储和扫描后AI分析服务,可支持50人以上同时阅片并运行AI程序。 每台GPU工作站最多可配4块GPU,如RTX3070、3080或3090。
04、区域实验室自标注自训练解决方案: 深度学习的本质是把数据标注专家的分类方式教给计算机来执行,所以必然会带有主观性。形态学分类虽然有教科书提供的最基本的分类原则,但由于各实验室间样本制备、观察工具等差异,不同实验室对样本判定结果的重复性与准确性很难维持在一个稳定水平。但在实验室内,无论从样本制备状态还是阅片习惯上,长时间内是趋于稳定的,这就使在实验室内运用深度学习来进行辅助检测成为了可能。
05、Bionovation的AI方案设计为:
「 个独立的形态学专家使用数字化玻片框选细胞并分类计数,完成第一个样本的报告。
「 形态学专家可以将第一例样本的报告数据传给AI训练,AI训练后 (小样本训练) ,给出第二例样本的分类报告,然后专家只需在AI结果上对第二例样本结果进行调整,工作量将小于作出第一例报告。
「 循环往复后,预计AI最终与形态学专家的符合度在80~95%之间,即可降低80%以上的工作负荷。
个人化的AI将快速提高形态学专家的阅片水平,因为报告数据全部存储,如果行业有新标准或进展可以随时调整。 标注数据在高年资专家指导下纠错更新,最终可达到个人报告的高度重复性,实验室内报告达到一定的统一性。 进一步地,在实验室间统一样本处理流程后,室间报告也可以达到互认。
【参考文献】
[9]Introduction to Digital Image Analysis in Wholeslide Imaging: A White Paper from the Digital Pathology Association[J].J Pathol Inform ,2019, 1:9 DOI: 10.4103/jpi.jpi_82_18.
[10]Deep learning in cancer pathology: a new generation of clinical biomarkers[J].Br J Cancer ,2021,124:686-696; DOI:10.1038/s41416-020-01122-x.
[11]Highly accurate differentiation of bone marrow cell morphologies using deep neural networks on a large image data set,blood 18 NOVEMBER 2021 | VOLUME 138, NUMBER 20.DOI: 10.1182/blood.2020010568.
[12]RESNET介绍原文链接:https://blog.csdn.net/LIT_Elric/article/details/93468115.
[13]CNN(卷积神经网络)最早是哪一年提出,是如何发展的?- 知乎 (zhihu.com) https://www.zhihu.com/question/47705441.
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读