通过手写实现高性能的脑-文本通信
1、背景
脑机接口(BCI)可以帮助失去行动或语言能力的人恢复沟通能力。目前,脑机接口研究的一个主要重点是恢复患者的主要运动技能,如伸手和抓握或用电脑光标点击打字。然而,通过手写或触摸打字这种更快速的高度灵巧的行为序列,可以实现更快的交流速度。
一篇由斯坦福大学的研究人员与神经外科临床专家共同完成的、题目为《通过手写实现高性能的脑-文本通信》(High-performance brain-to-text communication via handwriting)的研究论文,以封面形式刊登在《Nature》杂志上。
图1|《Nature》封面文章
研究人员和临床专家们,开发了一种全新的皮质内BCI系统,它利用运动皮层的神经活动解码“手写运动”,并使用递归神经网络(RNN)解码方法将其实时翻译为文本,最终实现“意念”书写。通过这种BCI系统,研究参与者(其手因脊髓损伤而瘫痪)实现了每分钟90个字符的打字速度,准确率可达99%,这种效率与参与者同年龄组的健全人群使用智能手机的打字速度相当(每分钟115个字符)。这项研究为BCI系统研究提供了一种新思路,并证明了在瘫痪多年后准确解码快速、灵巧动作的可行性。
2、笔迹的神经表征
被称作“T5”的实验参与者由于脊髓损伤几乎失去了颈部以下的所有活动能力。研究人员在T5的左侧大脑植入了两个脑机接口芯片,每一个芯片都有 100 个电极,负责接收运动皮层神经元发出的信号,这些神经信号通过电线发送到计算机,由人工智能算法解码信号并推测 T5的手和手指的预期运动。
图2 |“T5”按照屏幕指示书写字符
a,为了评估尝试书写时的神经表征,参与者T5尝试按照计算机屏幕上给出的指令,一次书写一个字符(底部面板按照时间轴描述了屏幕上显示的内容)。
图3|主要神经活动的示例字母可视化
b,前3个主要的神经活动显示为3个示例字母(d, e和m),每个字母重复27次(试验)。在每个面板内分别对颜色进行归一化以便可视化。
c,对神经活动进行时间规整,以消除写作速度不断变化的影响,揭示出每个字母特有的一致的活动模式。在上面c的插图中,给出了字母' m '的时间翘曲函数示例,相对接近恒等线(每次试验的翘曲函数用不同颜色的线绘制)。
图4|所有31个字符解码后的笔轨迹
d,显示了所有31个测试字符解码后的笔轨迹。预期的2D笔尖速度通过交叉验证从神经活动中线性解码(每个字符都被保留),解码器输出通过在试验中取平均以进行降噪。橙色的圆圈表示轨迹的起始点。
e,使用非线性降维方法(t-SNE)对神经活动进行二维可视化。每个圆圈是一个单独的试验(31个字符中的每个字符显示27个试验)。
这些结果表明,即使在瘫痪多年后,运动皮层中笔迹的神经表征仍然足够强大,并且可以通过脑机接口技术表达出来。
图5|受试者的“手写”笔迹(来源:NPG Press)
3、解码手写的句子
为了测试是否能够实时解码完整的手写句子,研究人员训练了一个RNN,将神经活动转化为描述每个字符在每个时刻被写入的可能性的概率。研究人员使用了一个包括31个字符的有限字符集,包含了26个小写字母,以及逗号、顿号、问号、句号和空格。为了收集RNN的训练数据,研究人员记录了T5按照计算机显示器上的指示,以自己的速度“手写”完整句子时的神经活动。在进行第一次实时评估前,研究人员共收集了242个句子,这些句子被组合起来训练RNN。在随后每一天的实时测试中,又收集了额外的训练数据,并在每次评估前重新校准RNN,至最后一天总共产生了572个训练句子(包括31472个字符)。
图6|对尝试手写时的神经信号进行实时解码
研究人员在5天的时间内对RNN的性能进行了评估,每天包含4个评估模块,其中包含7~10个RNN从未接受过训练的句子(为了确保RNN不会过度适应这些句子)。T5从屏幕提示中复制每个句子,尝试一个字母一个字母地“手写”,而解码的字符在RNN检测到时实时出现在屏幕上。测试发现整体“书写”速度非常快,平均每分钟可写出90个字符,平均错误率仅为5.4%,而当研究人员使用语言模型离线自动校正时,错误率进一步降低到0.89%,单词错误率下降到3.4%,这与最先进的语音识别系统相当(单词错误率为4~5%),具有很好的可用性。
图7|参与者在试验中(来源:NPG Press)
4、结语
该项研究提供了一种新的BCI通信方法,解码四肢瘫痪患者的快速、灵巧的运动行为,并将通信速度提高到了每分钟90个字符。该系统具有通用性(用户可以表达任何句子)、易用性(完全自主节奏,眼睛可以自由移动)和足够的准确性(94.1%的原始准确率,以及大于99%的离线准确率),具有很强的实用参考价值。
不感兴趣
看过了
取消
不感兴趣
看过了
取消
精彩评论
相关阅读