Nature子刊：清华大学任天令开发智能人工喉，帮助渐冻症患者蔡磊还原正常声音

2023-11-20 14:07

研究团队希望通过进一步的研究和合作，让人工喉造福更多的声音障碍者和语音交互的用户。

2023年11月13日，原京东副总裁、渐冻症患者蔡磊试用了清华大学团队开发的智能可穿戴人工喉，成为全球首个使用可穿戴人工喉的渐冻症患者。

据悉，这一可穿戴智能人工喉由清华大学集成电路学院任天令教授团队研发，系全球首创，该设备能够采集蔡磊喉部发声的信号，再将其转换病还原为蔡磊的原声，发出了与蔡磊患病前几乎一样的声音。

这一智能人工喉相关论文已于2023年2月23日发表在了 Nature 子刊 Nature Machine Intelligence，论文题为： Mixed-modality speech recognition and interaction using a wearable artificial throat （基于可穿戴人工喉的混合模态语音识别与交互）。

该研究开发的基于石墨烯的智能可穿戴人工喉可以感知喉部发声相关的多模态机械信号以用于语音识别，并依靠热声效应播放对应的声音，该研究为语音识别与交互系统提供了一条新的技术途径。

基于智能可穿戴人工喉的语音交互范式

语音是人类交流的重要方式，但说话人的健康状态（例如神经疾病、癌症、外伤等原因导致的声音障碍）和周围环境（噪音干扰、传播介质）往往会影响声音的传输和识别。研究人员一直在改进语音识别和交互技术以应对微弱的声源或嘈杂的环境。多通道声学传感器可以显著提高声音识别的精度，但会导致更大的设备体积。而可穿戴设备能够获取高质量的原始语音或其他生理信号。

然而，目前尚无充分的证据表明喉部肌肉的运动模式和反映在体表的发声器官振动中隐含着可识别的语音特征，且尚无实验证明其作为语音识别技术的完备性。

为解决这一问题，任天令团队开发了一款基于石墨烯的智能可穿戴人工喉，同商业麦克风和压电薄膜相比，人工喉对低频的肌肉运动、中频食管振动和高频声波信息有很高的灵敏度，同时也具有抗噪声的语音感知能力。对声学信号和机械运动的混合模态的感知使人工喉能够获得更低的语音基频信号。此外，该器件还可以通过热声效应实现声音的播放功能。人工喉的制作过程简单、性能稳定、易于集成，为语音识别和交互提供了一种新的硬件平台。

研究团队还利用人工智能模型对人工喉感知的信号进行语音识别和合成，实现了对基本语音元素（音素、声调和词语）的高精度识别，以及对喉癌患者模糊语音的识别与再现，为声音障碍者的沟通和交互提供了一种创新的解决方案。实验结果表明，人工喉采集的混合模态语音信号可以识别基本语音元素（音素、音调和单词），平均准确率为99.05%。同时人工喉的抗噪声性能明显优于麦克风，在60dB以上环境噪声下仍能保持识别能力。

任天令研究团队进一步演示了它的语音交互式应用。通过集成人工智能模型，人工喉能够识别一名喉切除术患者模糊说出的日常词汇，准确率超过90%。识别出的内容被合成为语音在人工喉上播放，可以初步恢复患者的语音交流能力。