加入时间:2025-10-29 17:05 访问量:130 信息来源: 海外星云 2025年5期
近期,美国加利福尼亚的研究人员开发了一个由人工智能驱动的系统,可实现帮助瘫痪患者用原声恢复自然说话能力。
这项新技术由美国加利福尼亚大学伯克利分校和旧金山分校的研究人员共同研发。通过植入式设备采集大脑神经信号,并利用 AI 学习重建患者独特的语音特征。与 2024 年该领域脑机接口合成语音的进展相比,此次研究成果实现了质的飞跃。
该研究论文近期发表在《自然·神经科学》杂志上。加利福尼亚大学伯克利分校电气工程与计算机科学助理教授、该研究的联合首席研究员戈帕拉·阿努曼奇帕利解释道:“我们的流式处理方法将亚马逊智能语音助手Alexa 和苹果语音助手 Siri 等设备所具备的快速语音解码能力引入了神经假肢领域。通过使用类似的算法,我们发现可以对神经数据进行解码,并首次实现近乎同步的语音传输。这样合成所得语音更加自然流畅。”
这项技术的创新之处在于兼容多种脑信号采集方式:它能直接记录大脑皮质神经活动的高密度电极阵列(如本实验所用),也适用于穿透式微电极,还能用于测量面部肌肉活动的非侵入式表面肌电图(sEMG)传感器。
其工作原理是:首先,安装在患者身上的神经修复装置会从控制语言产生的大脑运动皮层采集神经数据,然后人工智能将这些数据解码成语音。该论文的合著者赵哲俊解释说:“我们解码的是思维形成后的指令——当患者确定表达内容、选词造句并准备调动发音器官时的神经活动。”
人工智能是基于患者在屏幕上看到文字并默默尝试说出这些文字时所采集的大脑功能数据进行训练的。这使得研究团队能够将神经活动与患者试图说出的文字进行映射。同时,文本转语音模型会生成患者“说话”的音频,该模型是利用患者在受伤瘫痪之前的声音数据开发的。
在上述概念验证演示中,合成语音虽未达到完美自然度,节奏也并非完全自然,但已非常接近。该系统在患者尝试说话后的1 秒内就开始解码大脑信号并输出语音,和 2023 年进行的研究中所需的8 秒相比有了显著提升。
这项技术可以极大地改善渐冻症等类似衰弱性疾病患者的生活质量,帮助他们表达日常需求和复杂想法,更顺畅地与亲友交流。
下一步,研究人员计划加快人工智能生成语音的处理速度,并探索增强语音情感表现力的方法。