据外媒报道,浦项科技大学(Pohang University of Science and Technology,POSTECH)研发了一项新技术——利用光线读取颈部肌肉的细微运动,并运用人工智能(AI)将其还原成真实的声音,即使在无声中也能听到话语。该研究由POSTECH信息技术(IT)融合工程系、机械工程系、电气工程系及融合研究生院的Sung-Min Park教授和机械工程系的Sunguk Hong博士领导的研究团队完成。相关成果发表于在线期刊《Cyborg and Bionic Systems》。

图片来源:POSTECH

这项研究始于人们说话时颈部周围发生的细微变化。声音的产生并非仅仅依靠声带。当我们说话时,颈部周围的肌肉和皮肤都会协同运动,在皮肤上绘制出一张无形的“运动图”。研究团队着重研究了这些细微运动所蕴含的关于说话者意图的信息。

为了捕捉这些信息,研究团队开发了一种“多轴应变映射传感器(Multiaxial Strain Mapping Sensor)”。该传感器将微型摄像头与柔软硅胶材料上的小型参考标记相结合,可方便地佩戴在颈部,甚至能检测到最细微的皮肤运动。佩戴位置和松紧度可根据个人情况进行调节,并且内置算法能够自动校正设备重新佩戴时可能出现的误差,确保其在日常环境中稳定运行。

传感器采集到的应变模式由AI进行分析。AI会估算用户想要表达的词语或句子,并将其与基于个人声音特征训练的语音合成技术相结合,从而重现真实的声音。即使不出声,它也能“读取”言语并将其转换成声音。

现有的语音重建技术利用“肌电图(EMG)”或“脑电图(EEG)”等生物信号,但由于设备复杂且佩戴不舒适,在日常生活中存在局限性。研究团队利用可穿戴传感器解决了这一问题,并通过实验证实,即使在工厂等嘈杂环境中,也能高精度地重建语音。

这项技术的应用范围也很广泛。它有望用于各个领域,例如为因声带疾病或喉部手术而失声的患者提供沟通辅助,为没有麦克风或无线电设备的工业场所提供通信技术,甚至可以在图书馆或会议室进行“无声交流”。

领导这项研究的Park教授表示:“我们希望这项技术能够加速言语障碍患者重获说话能力的那一天。这项技术意义非凡,因为它具有广泛的潜在应用,包括帮助喉切除患者、在嘈杂的工业环境中进行交流,甚至支持无声对话。”