计算机在医疗诊断上的应用

2021

01/25

湛庐文化

A-

A+

本文内容摘自《深度医疗》，作者埃里克·托普

在线工具是一种潜在的可以帮助医生的工具。尽管我们已经听闻一些关于通过网络搜索帮助做出困难诊断的奇闻逸事，但这种简单的症状查找尚未被证实是一种准确的诊断方法。

最早被医生和现在的患者使用的症状检查器之一，是伊莎贝尔症状检查程序（Isabel Symptom Checker），它涵盖了6000 多种疾病。在为一名五六十岁的北美男性患者进行诊断时，当输入“咳嗽”和“发热”后，程序提示“可能的”诊断有流感、肺癌、急性阑尾炎、肺水肿、回归热、非典型肺炎和肺栓塞。除了流感和非典型肺炎之外，几乎所有这些诊断都很容易被排除，因为该患者的症状与这些疾病毫不相关。

2015 年，《英国医学杂志》（British Medical Journal）发表的一项研究中，对23例症状检查进行评估时，在信息输入到系统后，诊断的正确率仅为 34%。尽管结果不佳，但近年来用于检查症状的移动应用程序数量激增。它们虽然都纳入了人工智能的方法，但是还未被证明具有模拟医生诊断的准确性，因此我们不应该把这些当作金标准。设计此类应用程序的初创公司也开始收集症状列表之外的信息，询问患者一系列问题，如患者的健康史。反复问诊可以减少误差，提高准确性。其中，一款名为 Buoy Health 的应用程序，采用了超过 1.8 万份临床医学出版物、1700 种医疗症状描述，以及超过 500 万名患者提供的数据。

然而，通过一系列症状可以做出正确诊断的观点似乎过于简单。当我们倾听患者主诉时，症状很明显不是存在或不存在这种二元的；相反，症状是微妙的、带有主观色彩的。如一位主动脉夹层患者可能不会将自身的感觉描述为“胸痛”；心脏病发作时，患者可以伸出紧握的拳头（列文氏征），表示自己有一种压迫感而不是疼痛，也可能是一种烧灼感，患者感觉不到压力或疼痛。更复杂的是，对于这些诊断应用程序来说，症状是主观的，患者如何通过口述、面部表情和肢体语言等传达信息至关重要，而这些通过几个词往往难以捕捉到。

计算机还可以帮助获得第二诊断意见，有助于提高正确诊断的概率。在梅奥诊所（Mayo Clinic）的一项研究中，研究人员对近 300 名连续转诊的患者进行了调查，结果发现，只有 12% 的患者的第二诊断意见与转诊医生的诊断一致。更糟糕的是，第二诊断意见通常无法实现，部分原因在于额外费用的产生、诊断预约困难，甚至找不到相关的医学专家。尽管我们还在面对面会诊与通过远程让更多医生参与诊疗意见之间权衡利弊，但远程医疗确实让更多医生参与诊断的过程变得更容易。

20 世纪末、21世纪初的几年中，我在克利夫兰诊所工作时，我们启动了一项名为“我的咨询”（MyConsult）的在线服务。现在，这项服务已经提供了数万种不同的第二诊断意见，但其中许多意见与最初的诊断结果产生了分歧。

医生希望能与同事一起众包数据，寻求诊断上的帮助，以提高诊断的准确率。虽然不完全是“第二系统思维”，但这种方法利用了来自多位专家的反思性输入和经验。近年来，市场上出现了一些针对医生的智能手机应用程序，包括Figure One、HealthTap 和 DocCHIRP。其中 Figure One 就非常受欢迎，医生可以通过共享医学影像，让同行协助快速诊断。我所在的斯克利普斯团队最近在Medscape Consult（医景咨询）平台上发布了数据，Medscape Consult 是一款美国当前使用最广泛的医生众包应用程序。在启动之后两年内，该应用程序就拥有了稳步增长的 3.7 万名医生用户，覆盖了 200 多个国家和许多专业领域，且寻求的帮助能快速得到答复。有趣的是，用户的平均年龄超过 60 岁。

而 HumanDx（人类诊断项目）则是一个基于网络和移动应用程序的平台，已有来自 40 个国家的 6 000 多名医生和实习医生使用。在一项针对 200 多名医生和计算机算法诊断检查结果对比的研究中，医生的诊断准确率为 84%，而计算机算法的准确率仅为 51%。无论对于医生还是人工智能来说，这一结果都有些令人沮丧，但在许多组织的支持下，如美国医学协会、美国医学专科委员会及其他顶级医学委员会，领导者们希望集医生与机器学习的智慧于一体来提高诊断的准确率。

内科医生尚塔努·农迪（Shantanu Nundy）分享的一则逸事让我们看到了希望。农迪曾参与会诊过一位 30 多岁的女性患者，该患者身体僵硬，关节疼痛。他对该患者是不是类风湿关节炎不太确定，于是他在 HumanDx 上发布了如下信息：

女性，35 岁，双手疼痛及关节僵硬 6 个月，怀疑是类风湿性关节炎。他还上传了患者发炎的手的照片。几小时内，数名风湿病学家确认了诊断的正确性。到 2022年，HumanDx 计划至少招募 10 万名医生，并使用人工智能工具和医生众包结合的方式，加入自然语言处理算法技术，将关键数据定向发送给合适的专家。

另一种通过众包来改善诊断模型的方式则是结合了公众科学。CrowdMed 公司开发了一个平台，在医生和外行人之间建立了一种经济激励的竞争关系，让他们来破解疑难杂症。

接纳非临床医生一同参与诊断的方法很新颖，而且已经产生了让人意想不到的结果：该公司的创始人兼首席执行官贾里德·海曼（Jared Heyman）告诉我，外行人诊断的准确率有时甚至比参与的医生还高。我们在斯克利普斯研究所的团队还没有机会检查他们的数据及确认最终诊断的准确率。但是，一旦得到证实，我们可能会解释为：外行人通常有更多的时间对病例进行深入研究，从而在复杂的病例中找到正确答案，这充分体现出“慢工出细活”以及深度尽职调查的价值。

推荐阅读：