猎云网 | 用心服务创业者
何弃疗
私信
7
谷歌研发新型深度学习系统,能够在嘈杂环境中识别分离语音
大公司 人工智能
谷歌表示自己期待这种技术能“在众多宽泛的情境下得以应用”。

【猎云网(微信号:ilieyun)】4月16日报道 (编译:叶展盛)

谷歌研究员开发出了一种深度学习系统,能帮助计算机在嘈杂的环境下识别和分离语音。

正如本周公司在Google Research里公布的那样,谷歌的一支团队想要模拟出人类大脑的“鸡尾酒会效应”,即某个人在谈话之中会忽略背景中其他的对话或噪音。

谷歌采用了一种视听模式,因此其主要任务就是将视频里的语音分离出来。这家公司表示,这种技术能通过算法,分离出单音轨视频中的语音,你可以手动选择某个人物,那么就会播放这个人物的声音。

谷歌表示,视觉成分是这里的关键,这种技术会观察某个人嘴部的活动,从而更好地确定要识别哪个语音,从而创建出更加精确的个人音轨。

根据博客的内容,研究人员在开发出这个模式的过程中,搜集了YouTube上10万多份演讲和谈话,并从中提取了2000多小时的有效片段,并将这些声音混合,并加入人工智能背景噪声,创建了一个“模拟鸡尾酒大会”。

随后谷歌就开始训练它通过解读人们的“脸部微小动作”以及视频的频谱图,将这份混合的音频分解掉。这个系统能理清哪个声源属于哪一张脸,并为每一个人创建自己的音轨。

谷歌表示自己期待这种技术能“在众多宽泛的情境下得以应用”,目前自己正在尝试将它整合到现有的谷歌产品中。Hangouts和YouTube似乎是两种容易应用的地方。另外我们也不难预见,这种技术也能在语音放大耳机以及智能眼镜,也就是Google Glass上得到应用。

和Google Home这些智能音箱进行的语音识别不同,这种技术似乎更适合让讲话者配一台屏幕,因为它的模式就是基于视频的。今年早期,谷歌对Echo Show等“智能显示屏”设备开放了Google Assistant,但这家公司目前还尚未推出自己的产品。

猎云网

微信扫码关注猎云网

  1. 猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权;
  2. 转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接,如:转自猎云网(微信号: ilieyun )字样;
  3. 猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
评论(0)
猎云网

微信扫码关注AI星球

发表评论 取消
长按图片可以分享给好友
×