博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
利用深度学习从大脑活动合成语言,应对人类语音挑战
阅读量:6007 次
发布时间:2019-06-20

本文共 919 字,大约阅读时间需要 3 分钟。

研究团队利用深度学习神经网络从人脑记录的电信号中合成语音,帮助人们应对语音挑战。

在三个独立的实验中,研究团队使用皮层脑电图(ECoG)来测量受试者在听别人说话或自己说话时大脑中的电脉冲。然后,这些数据被用来训练神经网络产生语音输出。这项工作的动机是创建一个脑-机接口或“语音假肢”,直接将用户大脑中的信号转换成合成语音,帮助那些不能说话的人。

第一个实验是由哥伦比亚大学的一个团队进行的,。研究人员将电极植入患者的,并在患者收听简短的口语录音时从电极上收集ECoG数据。研究人员使用和训练了一个深度神经网络(DNN),使用ECoG数据作为输入,并以录音的声码器/声谱图表示为目标。为了评估结果音频,研究人员让听众听复原数字,并报告他们听到了什么;最佳模型的精度达到75%。

由德国不来梅大学的Tanja Schultz教授领导的另一个研究小组。研究人员向这些患者展示了单个单词,他们大声朗读这些单词,同时记录他们的ECoG信号。语音也被记录下来并转换成声谱图。然后,他们训练了一个密集卷积网络(),将大脑信号转换成声谱图。接下来,他们用将声谱图转换成可听语音。为了评估合成语音,研究人员使用了一种名为的算法来测量语音质量。分数介于30%到50%之间。

最后,由加利福尼亚大学的Edward Chang领导的第三个研究小组,也。该团队使用了两个的方法。第一个学习了从大脑信号到“中间关节运动表征”的映射,该映射可以建模说话者声道的物理行为。第二个LSTM学习了从运动表征输出到实际音频的映射。这个模型使研究人员能够从记录的大脑活动中合成语言,而病人只是做出说话的动作,并没有真正发出声音。通过,研究人员让听众在听到一个合成的句子后,从多项选择的答案中选出一个来标识他们听到的句子。正确识别每句话的听众的中位数百分比是83%。

要使这项技术成为一种实用的假肢,还有很长的路要走。首先,所有的方法都使用了收集到的电极数据,这些电极被植入那些头骨被打开进行脑部手术的病人的大脑中。虽然Chang的团队确实证明了无声哑剧所产生的信号可以合成语音,但是,许多可能需要这种假肢的使用者可能无法很好地控制他们的声道,甚至无法做到这一点。

查看英文原文:

转载地址:http://fppmx.baihongyu.com/

你可能感兴趣的文章
Linux下autoconf和automake使用
查看>>
UDP之socket编程
查看>>
Spring Security4实战与原理分析视频课程( 扩展+自定义)
查看>>
Centos6.5升级系统自带gcc4.4.7到gcc4.8.0
查看>>
redis安装与配置文件详解
查看>>
VMware安装失败 “Failed to create the requested registry key Key:installer Error:1021"
查看>>
虚拟化系列-VMware vSphere 5.1 VDP备份管理
查看>>
消息队列服务器 memcacheq的搭建
查看>>
hdu 1024 Max Sum Plus Plus 小白都可以看得懂的解析
查看>>
shell中常见参数及判断命令
查看>>
VMware Horizon View 7.5 虚拟桌面实施咨询与购买--软件硬件解决方案
查看>>
2018新版驾照驾照psd模板下载
查看>>
【矢量图控件教程】矢量图控件VectorDraw 常见问题整理大全(一)
查看>>
文件系统、服务、防火墙、SELINUX——安全四大金刚
查看>>
RabbitMQ如何保证队列里的消息99.99%被消费?
查看>>
Lync Server 2010的部署系列_第五章 准备 Active Directory 域服务
查看>>
java基本数据类型及运算符小结
查看>>
第一周博客作业
查看>>
Python strip lstrip rstrip使用方法
查看>>
Linux开发工具_1_gcc入门(上)
查看>>