从语音到全方位人工智能 AI技术的融合发展之路_捷通华声—

从语音到全方位人工智能 AI技术的融合发展之路

　发布于：2021-11-17 13:59　　　浏览：

本文整理自钛媒体-钛坦白分享课“AI已来，让机器听懂你的声音”，以下为捷通华声总经理武卫东的分享内容。

捷通华声总经理武卫东

大家晚上好，非常有幸在钛坦白跟大家分享关于“从语音到全方位人工智能，AI技术的融合发展之路”的心得体会。

人工智能源于何处，缘何爆发

人工智能技术经历了半个多世纪的发展，现在的人工智能通过计算方法能够赋予机器一些类似人的感知功能，像人有口眼耳手，这是我们的感官功能。我们还有大脑，这是我们的思维认知功能，那么机器人是不是可以具备这些拟人化的功能呢？

像人的嘴是用来说话的，耳朵是用来听声音的，这就催生了像语音合成、语音识别这样的语音技术。

图像识别就像人观察外界事物的眼睛，手是用来拿东西和写字的，这就催生了OCR、手写识别技术等这样的一些图像识别技术。

在众多感知功能方面，人工智能技术还涉及到很多功能，包括人脸识别，声纹识别，指纹识别等等。经过十几年的发展，我们看到人工智能技术中最难的实际上是与认知相关的一些技术。人的认知，即人的大脑，是个非常复杂的结构，可以说到今天，我们自己也没有研究清楚我们自己的大脑。

近几年来，神经网络尤其是深度学习，提升了感知计算的一些模型方法，相关感知方面的技术取得了比较大的进步。

实际上，神经网络的一些算法研究，早在二三十年前就开始了。我记得原来在学校的时候，我们有很多的研究人员就从事在图像模式识别方面的一些研究，但是由于当时的算法能力以及设备能力有限，很难去在复杂结构和深层次结构上提升算法模型。

现在的GPU技术使得过去复杂的算法模型能够通过有效的训练，提升训练速率，并能够通过算法和大数据的加工，实现更加普适性和实用性的一些模型，供我们做一些智能化的应用。

我们看到现在的语音识别技术，能够达到百分之九十几，接近于人的甚至在某些方面超过人的这样一个准确率。通过深度学习，语音识别已经实现了一些突破。

尤其是随着互联网和移动互联网的发展，现在交互终端、智能终端，给我们在研究方面提供了大量的、真实的场景数据，有了这些大的数据，使用神经网络算法，通过训练，可以让语音识别技术更加实用化。

从业20年谈语音技术发展

在语音方面，实际上大家看到，真正最早能够形成实用化的语音技术是从语音合成开始的，也就是我们说的TTS技术。

下面给大家放一些声音，大家可以听一听，现在在语音合成方面，从过去比较机械的音色发展到现在流畅、自然的声音。

比如说我们在一些大型的场馆会议，像奥运会，世博会，包括一些公共场所，像高铁站，机场听到的广播声，很多实际上都是通过语音合成技术合成出来的。另外，我们推出了可以唱歌的TTS技术，歌唱TTS实际上就是在标准的语音合成基础上，结合现在一些应用场景，比如说一些娱乐机器人，教育机器人，玩具等等，在应用场景当中，我们做的更加娱乐化的TTS技术。

现在大家都在探索和研究一个新方向，情感TTS。因为不管怎么样的一个算法，达到完全像人一样的自然、有情感、富有喜怒哀乐情绪的TTS技术，还是有很多的研究工作要做。当前TTS作为一种信息的交流、信息的播报是完全可以达到实用化的程度。经过这十几年的时间，捷通华声在TTS方面，国内市场占有率超过了50%。

我再说说语音识别，昨天钱博士，我们清华的一个师弟特别提到了语音识别技术的发展。现在实际上就是说在语音识别方面国内也有一些从事语音识别技术应用和研究的企业，但是从语音识别现在目前发展的现状看，普通话在一个自然的场景中识别率达到96%，97%，其实已经不是什么太高的目标。

但是96%、97%实际上并不是一个真实应用场景的指标，我们要利用这项技术，能够达到人人说话、大多数常见声音环境中都能达到这么高的一个准确率，还是有很多工作要做的。我个人认为，现在大家说96%、97%实际上是一个在技术层面达到的高度，但是实际上在实用化方面，要达到这样一个高度，我感觉恐怕国外语音公司也不敢这么说，我们国内的一些人有时候在这方面会更多的注入一些商业化宣传。

大家知道，语音识别是从2001年、2002年就进入了中国市场，但当时的语音识别，主要是基于命令词条的识别。经过十几年的发展，语音识别技术进入到自由说的状态，当人自然说话、自然表达时，能够准确识别，这推动语音识别进入到实现应用的阶段。

比如说在手机端用输入法这样的一些app或者是工具，对着手机尤其是现在的手机，都支持多麦克风，在近讲模式下，如果你的普通话说得比较好，96%、97%比如说像我这样讲话，98%、99%的识别率也是可能的。但是如果说话带着方言，很重的方言，去识别，达到这个高度，也不是太容易，至少我现在没有看到哪家在方言普通话或者普适性人群上面达到这样一个高度。

当然，这里边还包括不同的输入设备，比如说在电话端，8K的窄带数据识别率如果能达到97%，那真的是效果非常好了，现在大家的水平基本上在80%上下。那么在一些特殊领域里边，通过一些垂直领域的优化，模型的优化，能达到85%，这已经是一个很好的水平。

在很多智能家居、家电，包括像机器人这样一些智能终端场景下，有很多环境噪音，语音识别如果不解决这些数据信号、声学信号的抗噪问题，语音识别的应用会受很大的制约。所以现在从事语音的厂家，在麦克风阵列这方面也都开始做自己的研究，推出了两麦，四麦甚至六麦这样一些抗噪模块，来解决实际应用场景下的噪音干扰问题。

大家看到，上面这个四麦降噪模块，已经在一些机器人里边，包括一些服务机器人、儿童教育娱乐机器人中使用，其中包括线阵和圆阵，重点是解决麦克风在远讲、定向、回声消除，还有语音增强等实际应用情况。当然，语音识别还包括方言、多语种识别，以及中英文混合等情况，这些问题我们也在不断的研究、实践。

开始时我们提到，在认知功能方面，尤其是像语义理解（NLU），这方面有一些国内企业在做,捷通在这方面也做了大量的工作,有很多的实践和应用。

例如，在智能终端方面，我们做了对话，包括意图理解，以满足智能终端在语义理解和语音识别共同使用过程中的一些“理解”用户指令的要求。另外，在一些行业的智能客服的系统里边，我们也采用了支持多轮对话、同音字智能纠错、上下文语义分析、相关问题联想等功能的语义理解技术，能够达到更好的用户体验和准确率。当然，语义理解方面要研究的东西还很多。

语音服务物联网让智能设备“能说会听、能思考会判断”

随着移动互联网、云计算、大数据的发展，人工智能技术在物联网领域有了越来越多的需求，或者说已经成为一种不可或缺的支撑技术。

比如在智能机器人方面，我们通过智能客服系统，来实现语音交互、知识库构建、语义理解，尤其是前端在噪音环境下，通过麦克风阵列，实现远讲、抗噪、定向等等功能。在智能机器人领域，我们做了很多行业应用，比如说在税务大厅提供咨询的税务机器人，华夏银行的大堂经理机器人，还有一些图书馆，购物中心的专业服务机器人，当然也包括现在大家看到的很多家用的儿童教育机器人、娱乐机器人，以及陪伴机器人，通过应用智能客服系统，这些机器人进入了各个行业，未来将会进入到我们生活的方方面面。

灵云智能机器人解决方案

在智能家居、家电方面，比如说电视，我们搜电影时，遥控器按键输入慢，总是让人很头疼。

我们将语音技术应用到电视遥控器上，比如小米电视，乐视，还有广电盒子，通过语音的交互，实现电视内容的快速搜索，甚至一些购物，社区服务等。

灵云智能语音电视解决方案

在智能家居方面，整合了语音交互的麦克风阵列是一个非常好的工具，我们可以远距离随意控制灯光、调节空调等，通过引入人工智能技术，让家居生活更舒适。

在智能汽车领域，尤其是现在大家看到的无人驾驶、辅助驾驶系统中，也是人工智能的一个很好应用。但是我个人对于无人驾驶汽车未来的走向，至少目前看，三五年内我感觉很难真正走向实用化，因为交通控制，包括很多交通规则，都会限制无人车在这方面的发展。但是我相信，通过引入智能化的一些技术，可以在辅助驾驶，包括像一些车载领域发挥很好的作用。

例如，语音交互技术在智能车载上的应用，这里边包括语音识别的抗噪模型训练、硬件的降噪，以及像唤醒、声源定向、智能纠错等技术层面的要求。另外，汽车现在实际上已经是人们出行的一个必备手段了，现在北京的交通大家都知道，车内设备的语音控制实际上可以有效提高驾车的安全性。同时，通过汽车这样一个移动设备，可以给我们提供导航、餐馆、订酒店、订机票，以及天气、股票等信息的语音查询，甚至成为我们生活当中的一个移动办公场所。

在这里也提一下，就是我们在汽车交互方式方面的一个经验或感觉，可能东西方人对于汽车的操控习惯不同。比如说捷通华声早在我们成立的时候，就做了手写识别技术，在欧美的一些高端车辆上，通过引入我们的手写，比如像法拉利、奥迪、宝马，还有日韩系的像尼桑、现代等等这些车里边用到了我们的手写技术。我们过去也不太理解，为什么老外觉得手写还可以用，后来发现，大家可能在一些操作上边还是习惯有些不同，我们中国人可能更善于讲，可能老外更善于做一些实际的操控性的，所以这个时候大家看到我们的语音交互在车机里边是大家关注的一个热点，但是手写他们也会用，而且用的量也不少。不管是用语音的交互还是手写的交互，其实都是通过这样的一些人工智能的交互手段，来提升人们的驾车体验，提升驾车的安全性和舒适性。

捷通华声推出全方位人工智能开放平台—灵云

刚才讲了很多物联网领域的应用场景，下面重点介绍一下捷通目前做的一些灵云全方位人工智能开放平台方面的工作。

捷通的灵云平台（AIcloud.com）是我们早在2011年我们就推出的全方位人工智能开放平台，在当时我们就定立了这么样一个目标：要实现语音、手写，拍照，手势甚至将来可以使用脑波来进行智能化的一些手段来进行人机交互。经过几年的建设，灵云平台已经构建了集合十项核心技术的全方位人工智能开放平台。

其中包括智能语音方面的，语音合成、语音识别技术；图像交互方面，OCR、手写识别；生物特征识别方面的人脸识别、声纹识别和指纹识别；智能语义方面，包括语义理解、机器翻译、数据挖掘等共10项技术。

灵云实际上是通过构建这样一个云服务平台，提供这些能力，并在能力基础上，提供智能化解决方案，包括全智能客户服务、多维生物特征识别身份认证服务平台等深入行业的解决方案，构建了包括公有云服务、全智能能力平台和全智能解决方案组成的产品生态体系。

灵云人工智能产品生态

灵云构建的B2B2C商业模式，深入金融、电信、能源、交通、政务、公检法等各个行业，提供全方位的人工智能能力和解决方案。

灵云支持云+端能力，也就是说既可以用我们云端的能力，也可以用我们本地的能力，我们所有的技术都支持“云+端”的方式访问，这样就让广大的开发者和企业合作伙伴能方便地调用各种应用能力。

在这些应用当中，我特意介绍一下我们在维语和汉语的翻译，因为在语音方面，我们除了中文普通话，我们还做了少数民族语言，同时构建了十几种国外的包括英文、法文、德文这样的一些语音交互能力。维汉友谊桥这个翻译APP，目前在新疆少数民族地区，已经有数百万用户在使用，大大方便了我们汉族干部和少数民族间的交流，大家可以下载体验下。还有一个也是现在有几百万用户在使用的出国翻译官，这个APP也是用了灵云上边的各种能力，能够方便的在出国的时候，你不管去哪个国家，有了这样一个应用就可以方便的和当地人进行交流，给大家的出行和旅游提供便利。

我们一直强调，现在AI技术的应用实际上已经不是单一能力的应用。为什么讲融合，AI的融合发展，实际上是现在我们遇到的很多应用场景所需要的。在智能终端交互方面，比如说现在我们做的机器人，它其中就用到了语音识别，语音合成，语义理解，人脸识别，甚至声纹识别；在终端应用的场景里边，包括在家电，现在我们给家电厂商实际上也在提供一些除了语音交互之外的能力，大家提出来一些比如说像声纹识别、人脸识别等需求，包括在家庭的陪伴机器人、服务机器人方面，包括儿童陪伴机器人这块，也提出了一些比如说类似图像的识别、人脸的识别，包括视频监控等等这方面需求。这些需求，实际上就是人工智能的融合应用。在捷通的灵云平台上，如果用了我们这个平台的话，这些能力都可以很方便的实现调用，因为灵云平台是一个开放平台，我们的平台能力，都能够在开发者社区上方便地调用。

捷通构建灵云平台实际上是我们有一个愿景，就是希望能够让每一家企业都能够拥有人工智能，希望每一个用户都能够享受人工智能带来的便捷。源于这个目标，我们推出了灵云全智能能力平台，我们会和更多行业集成商、平台厂商，一起来合作，为企业提供人工智能能力。

在智能解决方案方面，我们推出了全智能客户服务和灵云身份认证平台。我们推出的灵云全智能客户服务是一种客服新模式，它包括了实体机器人、网络版在线智能客服、电话客服机器人、智能语音导航等智能客服产品，以及智能语音分析、电话外呼机器人等呼叫中心行业解决方案，为用户提供随时随地、随手可及的智能客户服务，同时也大幅降低了企业的客服成本，提升了客户服务效率和质量。

在身份认证方面，随着我们人脸、声纹、OCR技术的发展，我们推出了人证合一综合“人脸识别+声纹识别+指纹识别，OCR证照识别”的灵云身份认证服务平台，这个系统已在人行的征信系统里得到应用。现在单一生物特征识别技术，比如说人脸技术，包括所有的人工智能技术，大家很难说做到100%。

我们通过这样多项技术的一个融合，识别时候我们可以把一个最小的出错概率集合到一个很小的数字集合上，比如说我们通过人脸、声纹、指纹可能有1%、2%这样的错误率，三种技术融合，再加OCR，人证合一，可以把这个错误率降到万分之一，甚至更小。这就是我们推出的多维生物特征识别安全身份认证平台，也是AI技术融合应用的一个很好案例。

融合能力融合应用融合服务是AI技术发展趋势

我们给一些公检法包括政府部门在一些会议系统方面做了一些智能解决方案。一方面通过语音识别实现会议转写，解放了笔录人员，降低速记员的一些劳动强度；在整个会议系统里边，实现电子签到，利用我们现在手写笔迹技术；通过人脸识别、身份证识别，确保参会者的身份；通过语音交互，我们可以轻松的来控制投影设备、灯光设备、包括大屏幕的一些切换；另外，通过语音识别和OCR的组合，可以把会议内容实时结构化转写，并且通过OCR把一些会议文件，自动扫描录入，全面、快速记录会议内容；还有，通过实时翻译并语音播报，把会议内容同步声音直播，这些场景在我们在一些政府办公厅已经实现了应用。此外，像我们遇到的一些比如说公检法的办公人员，他们可能每天要阅读大量的文件，很费眼睛，所以像我们的语音合成，他们就很受欢迎，这样的话他可以去听，边听边校，这样就可以把他们的工作变得更加有趣，更加轻松。

还有一个很有趣的是什么呢？比如说现在我们给银行做大厅服务机器人的时候，一方面通过语音交互来咨询服务，用智能客服系统来传递用户需要的服务内容。在机器人上边，还实现了人脸识别、声纹识别。对于一些VIP客户，刚刚到了银行大厅，他可以通过人脸识别确认身份，能够更好的对这些VIP客户提供服务，这样的话让VIP客户能够到银行以后感觉到一种新的感受。我们做这些能力，其实就是希望能够让这些设备更加智能化，有更多的功能来服务好用户。

合作理念：不与合作伙伴争地盘

另外捷通在十几年的发展当中，我们也在不断总结，我们的定位实际上就是做一个人工智能能力和解决方案的供应商。我们有数千家的合作伙伴，包括我们在灵云平台上服务了四亿多用户，我们也希望能够实现一个准确定位，构建一个产业的生态。这方面和我们的合作伙伴共同探索一些服务运营模式，捷通不会去做和我们合作伙伴，合作企业争地盘的事情，这是我们的一个明确定位，我们就把我们的人工智能的技术、产品、服务做好。

灵云的愿景，就是让机器“能说会听、能写会看、能辨音会认人、能思考会判断”。我们希望能够汇聚大家的力量，共同分享人工智能产业机遇。

人工智能是长跑企业的使命是将技术产业化

另外，最后想跟大家分享一些思考。

现在大家可能谈到人工智能的时候，往往就会想到语音识别，实际上现在语音识别还有很多很多的工作和路要走，我非常认同昨天钱博士提出的一些观点，我感觉就是说人工智能本身是一个长跑，这是一个没有终点的长跑，真的需要一些韧性，我们现在很多的技术不是说不好，是没有很好的去用，或者用的不好。另外一个，可能大家对这些技术的期望值有点过高，也希望产业界能够给像捷通这样，包括其他的一些我们的同仁一些宽容，因为人工智能技术本身还有很多的工作要做，还有很长很长的路要走。

另外，其实现在大家看到的，这些基础性研究，不管从国外还是国内，实际上在一些基础性的研究尤其是一些方法理论性的研究，主要还是来自于大学，这也就是为什么灵云和清华大学，捷通华声和清华大学建立“灵云科技源自清华”深度合作的原因。我们在清华大学建了灵云人工智能研究中心，我们有十几位教授，把他们几十年来的研究，积淀的一些东西与产业结合，把这些技术成果应用起来。但是基础研究的工作，企业去做恐怕不是太容易，我们还是应该把这些基础研究的工作交给我们这些教授们，专家学者们去做。

那么企业应该做的是什么呢？我们应该做的是一些应用型的研究，包括一些产业化的研究，企业应该结合产业，把我们现在目前能够实现的一些人工智能技术很好地转化到应用当中去，我觉得这是我们企业的使命。

人工智能技术的应用市场很广阔，但是我也感觉，因为我从业也有二十几年了，在这个领域里边，人工智能技术我个人感觉，从技术本身来讲，不是非常适合于创业团队，去拿这个技术去创业。因为这是烧钱的事，这是烧钱的行当，我想资本界也应该能够看到这一点，这不是个黄金坑，大家跳下去不那么容易上来。捷通做人工智能，其实也是经历了十几年这样的一个历程。

最后，我用我们这个小机器人唱“五星红旗”来结束我今天的分享，谢谢大家。

悦耳歌声源自灵云歌唱语音合唱技术

钛媒体是国内首家TMT公司人社群媒体,最有钛度的一人一媒体平台，集信息交流融合、IT技术信息、新媒体于一身的媒体平台。钛坦白，作为钛媒体旗下的微信公开课，汇集行业大牛钛客，分享行业干货。

新闻资讯NEWS

从语音到全方位人工智能 AI技术的融合发展之路