风雨兼程17载,中国人工智能公司中的甲骨文——捷通华声!
人工智能在广阔的领域实现了技术突破,让AI的表现形式(载体)上,完成了交互体验升级换代,比如视觉领域里的避障技术、图像识别领域里的人脸识别,还有语音领域中的语音交互。而语音交互主要涉及语音识别、语义理解、机器翻译、语音合成和麦克风阵列。我们以麦克风阵列为例,看看它是如何被捷通华声攻克?
神秘的麦克风阵列,是什么样一种技术?
麦克风阵列(Smart Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。一般应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。
麦克风阵列一般来说有直线形、环线形和球状之分,严谨的应该说成一字、十字、平面、螺旋、球形及无规则阵列等。至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。
看捷通华声如何攻克麦克风阵列的四大难点!
如此复杂的麦克风阵列主要应用于工业和国防领域,消费领域(例如机器人领域)考虑到成本会简化很多,但也需要攻克四大技术难点:
01噪音抑制:太嘈杂了,听不清!
语音识别在有些场合需要完全去除噪声,通话系统中则需要的技术则是噪声去除。这里说的噪声一般指环境噪声,比如空调噪声,这类噪声通常不具有空间指向性,能量也不是特别大,不会掩盖正常的语音,只是影响了语音的清晰度和可懂度。一般情况下,不怎么做强噪声环境下的处理,只需满足日常场景的语音交互就够了。
02声源定位:声音太多,在哪里?
现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。所以麦克风阵列技术不限制说话人的运动,不需要移动位置以改变其接收方向,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,因而成为智能语音处理系统中捕捉说话人语音的重要手段。
03混响消除:享受混响,却麻烦!
一般我们听音乐时,希望有混响的效果,这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。
混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加;而当声源停止发声后,声波在房间内要经过多次反射和吸收,似乎若干个声波混合持续一段时间。
混响会严重影响语音信号处理,比如互相关函数或者波束主瓣,降低测向精度。由于混响则会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),从而严重影响语音识别效果。
混响去除的效果很大程度影响了语音识别的效果,因此利用麦克风阵列去混响的主要方法有以下几种:
a.基于盲语音增强的方法(Blind signal enhancement approach),即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
b.基于波束形成的方法(Beamforming based approach),通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
c.基于逆滤波的方法(An inverse filtering approach),通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。
良好的麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计,从而很好的进行纯净信号的还原,显著的提升了语音听感和识别效果,在测试对比中,多种混响时间下识别效果接近手机近讲水平。
严格来说,这里说的“回声消除”不应该叫回声,应该叫“自噪声”。回声是混响的延伸概念,这两者的区别就是回声的时延更长。一般来说,超过100毫秒时延的混响,人类能够明显区分出,似乎一个声音同时出现了两次,我们就叫做回声,比如天坛著名的回声壁。实际上,这里所指的是语音交互设备自己发出的声音,比如Echo音箱,当播放歌曲的时候若叫Alexa,这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音,显然语音识别无法识别这两类声音。回声消除就是要去掉其中的音乐信息而只保留用户的人声,之所以叫回声消除,只是延续大家的习惯而已,其实是不恰当的。
04云端识别:声音很多,却好用!
麦克风阵列增益,主要是解决拾音距离的问题,若信号较小,语音识别同样不能保证,通过阵列处理可以适当加大语音信号的能量。
而波束形成是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理(例如加权、时延、求和等)形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰,这里也包括人声,比如几个人围绕机器人谈话的时候,机器人只会识别其中一个人的声音;但对于机器人来说,能同时识别不同距离和不同方位的声源,变得尤为重要——这也代表了人工智能的语音交互领域趋于成熟!
对于语音交互中的模型匹配,主要是和语音识别以及语义理解进行匹配,使得语音交互成为一个完整的信号链,从麦克风阵列开始的语音流不可能割裂的存在,必然需要模型匹配在一起。实际上,效果较好的语音交互专用麦克风阵列,通常是两套算法,一套内嵌于硬件实时处理,另外一套服务于云端匹配语音处理;而“本地+云端”中,成立于世纪之交2000年的捷通华声是一家专注于智能语音、智能图像、生物特征识别、语义理解等人工智能技术的研究与应用,全面发展人工智能云服务的高新技术企业。
捷通华声的灵云平台在2014年面向人工智能产业全面开放,并以“云 + 端”方式,为产业界提供语音合成(TTS)、语音识别(ASR)、声纹识别(VPR)、手写识别(HWR)、光学字符识别(OCR)、指纹识别(FPR)、机器翻译(MT)、自然语言理解(NLU)等全方位的人工智能云服务;服务于百度导航、搜狗导航、小米、乐视、京东商场、携程网、去哪儿网、奔驰、中国农业银行、导航犬、嘀嘀打车、快的打车、汉字英雄、天行听书、天行输入法、触宝输入法等知名公司。