【神麻人智】使用脊柱疾病患者的智能手机语音记录进行日常疼痛预测
背景:在神经外科实践中,疼痛评估在很大程度上仍然是主观的,但机器学习的出现为客观疼痛评估提供了可能。
目的:使用一组诊断为神经性脊柱疾病的患者的智能手机语音记录来预测每日疼痛水平。
方法:经机构伦理委员会批准,通过普通神经外科门诊招募脊柱疾病患者。通过Beiwe智能手机应用程序定期进行家庭疼痛调查和语音录音。从语音记录中提取Praat音频特征,用作KNN机器学习模型的输入。使用从0到10分的疼痛评分评估轻度至重度疼痛,以获得更好的疼痛分辨能力。
结果:共纳入60名患者,并使用384个观察值来训练和测试预测模型。使用KNN预测模型,在将疼痛强度分级为重度和轻度时,准确率达到71%,阳性预测值为0.71。该模型预测重度疼痛的精确度为0.71,轻度疼痛的精确度为0.70。对重度疼痛的回忆是0.74,对轻度疼痛的回忆是0.67。总体F1得分为0.73。
结论:我们的研究使用 KNN模型来模拟从脊柱疾病患者的智能手机收集的语音特征与疼痛水平之间的关系。所提出的模型是神经外科临床实践中客观疼痛评估发展的垫脚石。
关键词:数字表型、语音分析、患者报告的结果测量、脊柱手术、机器学习、智能手机
脊柱疾病引起的疼痛会使患者活动能力下降,是脊柱手术的主要驱动因素。然而,疼痛的主观性质使其评估和治疗具有挑战性。目前神经外科临床实践中,疼痛评估的金标准包括使用数字评定量表(NRS)和视觉模拟量表等方法;NRS是一个患者自己对疼痛程度评估的从0到10的数字评分。尽管这些方法被证明是简单的疼痛评估方法,但它们通常需要患者亲自到诊所就诊,并且依赖于患者的回忆。
作为对诊所就诊和患者回忆的补充,最近出现了通过智能手机和平板电脑等现代数字设备进行的远程健康监测,为预防和护理管理提供信息。基于智能手机的患者监测为临床医生提供了监测居家患者健康的可能性。“数字表型”是由Onnela创造并在Onnela等人中报道的一个术语,一种通过从智能手机等移动设备连续收集数据来量化患者每时每刻表型的技术。最近的研究发现,通过智能手机全球定位系统(GPS)数据测量脊柱疾病患者的活动能力和疼痛之间存在相关性。因此,数字表型数据似乎具有巨大的潜力来跟踪和评估疼痛,可以减少患者亲自前往诊所就诊。尽管疼痛是一种包含主观因素的感觉,但数字表型分析方法可以更好地控制患者感知的波动。
先前的研究表明,疼痛可以改变某些患者的语言。此外,语言已被证明可以为诊断抑郁症,精神分裂症和阿尔茨海默病提供异常大脑活动的证据。因此,语音数据可能是代表疼痛的数字生物学标志,以补充当前的疼痛评估方法。
在神经外科研究中,机器学习方法的适用性在过去几年中大幅增加。机器学习技术能够根据旁大数据集来创建模型进行多种应用,非常适用于数字表型数据分析,然而,在临床环境中实施疼痛预测等应用仍存在重大挑战。本研究的目的是创建一个机器学习模型,使用通过智能手机应用程序收集的数字表型语音数据来预测脊柱疾病患者当天的疼痛水平。
方法
患者登记
本研究经我院伦理委员会批准(方案编号 2016P000095),并获得患者同意参与本研究。本研究的患者于2017年6月至2019年7月期间在我院神经外科入组。本研究的纳入标准为到神经外科就诊的脊柱疾病患者。阿片类药物滥用史和接受过多次脊柱手术的患者被排除在队列之外。并非所有患者在研究前或研究期间都接受了手术,入组的患者包括仅术前参与、仅术后参与以及术前和术后均参与。由于每个数据点都是独立处理的,因此未定义基于随访时间长度的纳入标准。参与的患者被要求下载并安装 Beiwe 智能手机应用程序。下载Beiwe应用程序但未录制语音样本的患者被排除在研究之外。
本研究的两个数据来源是疼痛调查和语音记录。语音和疼痛数据收集的时间由智能手机应用程序预先确定,无需作者输入。疼痛调查是在当地时间每天下午5点通过智能手机通知提示进行的。疼痛调查使用NRS疼痛量表进行。调查文本写道:“请用0到10的等级给你过去24小时内的疼痛打分;其中0表示完全没有疼痛,10表示可以想象到的最严重的疼痛。”语音录音每周一在当地时间周一下午5点通过Beiwe应用程序的智能手机通知进行提示。患者被要求大声朗读查尔斯狄更斯的“两个城市的故事”的第一段。这段话在所有患者和每个语音记录的时间点上进行了标准化。本研究未分析自由回答,例如患者感受的口头表达。数据收集一直持续到应用程序被删除,所有数据都存储在一个安全的数据库中。本研究中使用的数据不公开。
数据预处理
由于患者并非总是完成疼痛调查,并且每周仅提示一次语音录音,因此语音录音和疼痛调查根据完成时间进行匹配。只有在录音前 24 小时内完成疼痛调查的语音录音才会被纳入分析。如果多项疼痛调查符合标准,则选择最接近语音记录时间的疼痛调查。语音录音经过人工筛选,以排除所有不完整和意外的录音。所有不匹配的疼痛调查和语音记录都被排除在外。
特征提取
Beiwe应用程序的语音录音以各种格式提供。为了兼容软件包,最初以MP3录制的语音录音被转换为波形音频文件格式。语音特征是使用Parselmouth Python库提取的,它是 一个进行Praat音频分析的软件。提取的语音特征列表包meanF0Hz, stdevF0Hz, harmonic to-noise ratio, localJitter, localabsoluteJitter, rapJitter, ppq5Jitter, local Shimmer, localdbShimmer, apq3Shimmer, apq5Shimmer, apq11Shimmer, JitterPCA, and ShimmerPCA。F0是指基频,harmonic to-noise ratio是周期和非周期成分的比值,Jitter描述频率变化,Shimmer描述振幅变化。Praat语音特征源自时域。此外,使用librosa Python库从频域中提取了13个梅尔频率倒谱系数(MFCC)语音特征。
单变量分析
创建线性混合模型以检查语音特征和疼痛评分之间的显着关联。对于每个模型,疼痛是结果变量,每个语音特征都被视为其自身的预测因子。为每位患者添加随机截距以控制基线疼痛感知的变化。
模特训练
为了训练机器学习模型,数据准备好进行5折交叉验证,并最终分成不相交的训练集(80%) 和测试集(20%),这样测试集中的患者就不会包含在训练集数据中。为了防止模型偏向较大的语音特征,在训练前对训练数据和测试数据进行鲁棒缩放。鲁棒缩放是一种统计方法,它使用四分位间距以减少异常值影响的方式缩放数据。由于样本量的限制,我们创建了一个二元分类模型。疼痛评分在 0 到 4 之间被归类为轻度疼痛,疼痛评分在5到10之间被归类为重度疼痛。选择这些特定的疼痛评分组是为了提供相同数量的重度和轻度疼痛评分样本。
基于K最近邻的预测模型
使用K-nearest neighbor(KNN)分类器将语音记录分为轻或重度疼痛类别。我们之所以选择这个算法,是因为它的简单性和可解释性。KNN是医学研究中常用的机器学习算法之一。该算法的作用是将训练数据绘制在n维空间中,并根据最接近K的训练数据点对每个测试数据点进行分类。我们还训练了逻辑回归和随机森林模型。Scikit-learn python库用于构建和训练机器学习模型。所有模型均使用以下计算硬件进行训练:Intel(R) Core (TM) i5-10210U CPU @ 1.60GHz, Architecture x86_64, Operating system Ubuntu 20.04.1 LTS, CPU(s): 8。
结果
患者人口统计学
应用排除标准后,使用来自60名不同患者的384段语音录音来训练和测试KNN模型(图1)。平均年龄为58.5岁,26名(43.3%)患者为男性。中位随访间隔为33天(范围0-187天)。53名(88.3%)患者是白人。大多数患者患有腰椎疾病(61.7%),颈椎疾病(21.7%)是次常见的脊柱疾病部位(表1)。脊柱疾病诊断包括22例(36.7%)中央狭窄、12例(20.0%)椎间盘突出、8例(13.3%)椎间孔狭窄、8例(13.3%)脊椎滑脱和4例(6.7%)脊柱侧凸。骨折、硬膜外肿块、骶髂关节病变和椎间盘炎等被认为是“其他”诊断。
研究中的60名患者中有36名(60.0%)接受了手术。接受手术的患者中,27例(75.0%)术前至少有1次语音记录,26例(72.2%)术后至少有1次语音记录。17名患者(47.2%)在手术前后至少有1次语音记录。在术后至少有1次语音记录的患者中,自手术日起的中位随访时间为47天(范围0-273天)。
图 1. 排除患者和语音记录的流程图
表1.患者特点
疼痛和语音数据
每个患者的音频文件数量中位数为5(范围1-28,图2),平均疼痛评分为4.6 ± 2.7(表 2)。图3提供了疼痛评分的直方图。平均录音长度为43.3 ± 10.1秒。将疼痛评分转换为轻度和重度疼痛后,有183个轻度疼痛评分的语音样本和201个重度疼痛评分的语音样本。
图2. 每个患者的语音记录数量分布
表2. 语音记录和疼痛评分
图3. 疼痛评分的分布
单变量分析
我们的线性混合模型分析的结果表明,所有Praat语音特征都与疼痛评分无显著相关(表3)。MFCC 2(Coef:0.552;95% CI:[0.254,0.850];P< 0.001) 和MFCC 12(Coef:0.286;95% CI:[0.538,0.034];P= 0.026)与疼痛评分显著相关。
表3. 线性混合模型结果显示Praat语音特征和疼痛评分之间的关系,每个患者随机截取
模型性能
训练集中有268条语音记录,测试集中有116条语音记录。在测试集中,55个(47.4%)样本为轻度疼痛,61个(52.6%)为重度疼痛。KNN在测试集上的预测准确率为71%。图4中显示了一个混淆矩阵,它显示重度疼痛的精确度为0.71,回忆为0.74。对于轻度疼痛,精确度为0.70,回忆为0.67。总体 F1 得分为0.73(表4)。
图4. KNN疼痛预测模型的混淆矩阵
表4. 使用测试数据集的K最近邻疼痛预测模型的结果
讨论
脊柱疾病仍然是神经外科实践中的常见疾病,通常会导致严重的疼痛。尽管目前的疼痛评估方法已在临床实践中得到验证,但它们会受到患者回忆偏差的影响,而且需要患者亲自到诊所就诊。通过智能手机和其他移动设备进行持续和远程疼痛监测对于神经外科医生进行患者评估具有极高的价值。使用数字表型数据,可以通过在家庭环境中及时进行疼痛评估来补充当前的疼痛评估工具,从而控制患者对其疼痛感知的变化。我们研究目的是建立一个数据驱动的机器学习模型,使用从脊柱疾病患者的个人智能手机收集的语音数据来预测当天的疼痛水平。
疼痛回忆是多方面的,包括疼痛的严重程度、持续时间和疼痛发生的时间。疼痛强度通常被认为是疼痛感知中最关键的因素,严重的疼痛会导致行动不便、睡眠不足、药物依赖和焦虑。此外,慢性疼痛可能很复杂并且经常随时间变化。因此,患者在两次随访之间可能难以与神经外科医师沟通其疼痛体验。此外,自我报告的疼痛结果可能因疼痛强度和一天中的时间而发生偏倚。另一方面,数字表型分析通过以下两方面帮助我们了解患者的日常功能:(1)利用智能手机的无处不在和熟悉程度,以及(2)数据获取的便捷性。
之前已有研究在神经外科手术中使用患者智能手机对患者进行连续监测。Cote等人和 Boaro等人进行的数字表型研究使用来自Beiwe智能手机应用程序的GPS数据来研究脊柱疾病患者的疼痛和患者报告结局。2019年,Cote等人使用了一种线性混合模型方法,根据 GPS汇总统计数据,发现疼痛加剧与行动不便相关。最近在2021年,Boaro等人表明,GPS 汇总统计数据与视觉模拟量表、Oswestry残疾指数和患者报告的结局测量信息系统10身心评分显着相关。这些研究共同证明,从个人智能手机收集的数字表型数据可以揭示患者在家中的健康状况。我们的研究通过提供一个框架来客观和持续地评估家庭环境中脊柱疾病引起的疼痛,从而丰富了这些研究。
人体通过各种媒介发出疼痛信号,包括电信号、面部表情和言语。以前的研究已经使用语音特征来检测抑郁症、阿尔茨海默病、和精神分裂症。在Di Matteo等人的一项观察性研究中,从抑郁症和焦虑症患者的智能手机中记录下来的环境语音与临床症状相关。此外,Laguarta等人提出了一个模型,该模型能够通过分析来自5000多名参与者的咳嗽录音的大型数据库来区分患者是否患有COVID-19。这些研究提供的证据表明,语言是诊断许多疾病的生理标志。基于移动设备收集的数据,有可能创造出代表疼痛的语言标志物。然而,尚不清楚哪些语音特征最适合理解疼痛。
在我们的研究中,我们使用了Praat软件的音频功能,因为它们简单且在语音研究中广泛使用。我们还使用我们的机器学习模型测试了MFCC功能。虽然在单变量混合模型分析中,MFCC 2和12与疼痛评分显著相关,但与使用Praat特征训练的KNN模型相比,并没有提高KNN模型的准确性。MFCC是语音分析中常用的音频特征,代表模拟人耳感知声音方式的音频信号转换。研究人员还开发了其他音频特征来研究人类语音。OpenSmile是一种常见的语音分析软件,除了许多其他功能外,还包括MFCC功能的某些方面。应进一步探索语音功能的多样性,以发现那些对理解疼痛有影响的功能。
机器学习技术最近受到关注,它可以自动分析生物标志物并预测实时疼痛,包括KNN、支持向量机和基于树的方法(如随机森林算法)。由于能够从海量数据集中学习模式,机器学习技术是利用临床相关特征和构建预测模型的强大工具。2021年,Kong等人发表了一项研究,在该研究中,作者建立了一个随机森林机器学习模型,以使用来自校准手腕设备的皮肤电活动来预测实时疼痛。同样,Hasan等人实现了通过支持向量机分类模型适用面部识别技术来预测疼痛。然而,在训练使用音频生物标志物预测疼痛的机器学习模型方面研究做得很少。
受这些先前研究的启发,我们的研究探索了机器学习技术,以利用语音特征作为预测因子。鉴于我们的数据集相对较小,我们使用了KNN机器学习模型,我们认为该模型最适合我们的语音数据。目前的深度学习框架包括卷积神经网络、长短期记忆网络和可以学习语音信号复杂时间序列关系的变压器。这些模型可以更好地处理异质性人群,并提高在多个疼痛水平上的区分能力。虽然我们在实验中探索了其他模型,包括随机森林、支持向量机和人工神经网络,但这些更强大的算法通常在更大的数据集上表现更好。
用于疼痛评估的数字表型分析方法的一个优势是可能会降低与调查管理相关的管理费用。 为了在诊所环境中实施我们的技术,我们认为与电子病历的整合是必不可少的。此外,更重要的是要标准化跨机构的数据收集并简化患者的参与。我们建议的工作流程包括一个示例,说明我们的方法如何在临床实践中实施。在两次访问之间,患者将被要求填写定期的疼痛调查表,并使用他们的智能手机提供样本录音。这些疼痛调查和语音记录将与其他数字表型分型数据源结合在一个全面的机器学习模型中,从而提供疼痛估计值,同时校正患者随时间推移的感知差异。接下来,该模型将直接上传疼痛估计值到电子病历和患者的调查回复中,以便进行直接比较。 医生和患者在下次就诊时将使用这些数据来讨论适当的治疗计划。 我们提出的数字表型工作流程如图 5 所示。
图5. 将机器学习集成到医疗记录中的建议数字表型工作流程。在第一次临床访问期间,获得患者同意并将数字表型应用程序安装到患者的智能手机上。从这一刻起,随着时间的推移,在患者的家庭环境中收集数字表型数据(调查、录音、移动数据和社交数据)。数字表型数据和机器学习模型通过其评估丰富了电子病历,医疗保健专业人员能够持续跟踪患者,以提供明智的治疗计划。
局限性
尽管我们认为这项研究是对先前研究的宝贵补充,但我们还是要承认一些局限性。 我们的研究仅限于单一机构的脊柱疾病患者,可能无法推广到其他神经外科诊所,而且我们总共60名患者的有限样本量不足以建立可推广的模型。对来自不同学科的患者进行的多中心研究可以获得更具普遍性的结果。我们的疼痛预测模型基于自我报告的疼痛评分,因此,预测基于患者对疼痛的感知而并非客观测量。由于疼痛调查和语音记录之间的时间间隔长达 24小时,语音特征可能无法捕获调查时发生的短暂疼痛发作,因此我们的研究更适合评估慢性疼痛。此外,每位患者的随访时间和参与频率也存在显着差异。因此,我们的数据不是各自独立的,因为一些患者贡献了多个语音样本。尽管出于简单性和可解释性考虑,我们选择使用KNN模型,但从长远来看,一个考虑相关数据的模型可能是更好的选择。当有了更大的数据集,我们可以通过使用深度学习方法分析更复杂的语音特征来优化预测准确性。
结论
本研究提供了在家庭环境中对神经外科脊柱疾病患者进行实际客观疼痛评估的机会。 调查智能手机语音数据与神经外科患者疼痛之间关联的研究有限。在此,我们提出了一种基于机器学习的方法,使用来自智能手机的语音数据和一组脊柱疾病患者的自我报告疼痛调查来量化疼痛。使用我们的预测模型作为基线,未来的模型可以改进我们的框架,以更好地评估脊柱疾病患者的疼痛水平。
编译:韩晓庆 审校: 张钊
原始文献
Duey AH, Rana A, Siddi F, Hussein H, Onnela JP, Smith TR. Daily Pain Prediction Using Smartphone Speech Recordings of Patients With Spine Disease. Neurosurgery. 2023 Mar 30. doi: 10.1227/neu.0000000000002474
声明:古麻今醉公众号为舒医汇旗下,古麻今醉公众号所发表内容之知识产权为舒医汇及主办方、原作者等相关权利人所有。未经许可,禁止进行转载、摘编、复制、裁切、录制等。经许可授权使用,亦须注明来源。欢迎转发、分享。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读