揭开语音识别能力的神秘面纱_捷通华声——全方位人工智能技术与服务提供商

揭开语音识别能力的神秘面纱

　发布于：2022-02-15 10:17　　　浏览：

信息是如何从我们的大脑传递给计算机的？从早期的键盘到我们口袋里的触摸屏，我们逐步扩展了人机数字交互的方式。随着自动语音识别（ASR）技术的发展，人工智能系统与真正“人类”交流的方式的差距逐渐缩短。

本质上讲，语音识别可将人的语音转换为文字，允许人机进行语音对话。

揭开语音识别能力的神秘面纱

现今的语音识别主要通过将数据集直接输入算法来进行语音模型的训练。通常，工业界为了适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境，往往需要大量语音语料和文本语料来进行训练，使之有效提高识别率。随着移动互联网的发展，大量文本和语音语料可从多个渠道进行获取，为语音识别的语言模型和声学模型的训练提供了丰富的资源，使得通用大规模语言模型和声学模型成功构建。

灵云语音识别能力基于捷通华声公司最新一代的识别算法、解码器核心、现今的声学模型和语言模型训练方法，在核心的声学模型、语言模型、解码器上都有创新和突破。目前，灵云语音识别系统的主力模型为CTF模型，该模型有效的提升了语音识别引擎的执行效率、增强了对不同口音、语速的适配能力，大幅提升了多人会谈、远扬讲话的识别率。

灵云语音识别能力基于声学模型，用于搭建音频信号和音素，就像应用数字温度计将温度度数转换为数字一样，声学模型可将声波转换为计算机语言。灵云语音识别系统应用端到端（E2E）模型，可快速拓展多语种，减少解码时间，提高语音识别准确率。

灵云语音识别能力可以准确实现话者分离，不但在多人会议谈话场景下应用智能会议记录中至关重要，而且还可避免因两位发言者同时发言的语音组合一个无意义的记录而造成的混淆。灵云语音识别的话者分离模块采用了声纹识别技术及语义理解技术，新版本引擎在原有话者分离算法基础上，增加了对采用字词分割辅助的方法进行话者分离的支持。该算法下，在正常 VAD 切分获得初始分段的基础上，还会使用免 VAD 的方法先进行识别，得到识别出的词边界，再利用此边界对初始分段进行修正，并辅助话者的聚类。

灵云语音识别技术的应用

捷通华声作为国内最早期从事人工智能技术研发和产业化应用的企业，在成立之初便确定“融合技术、融合应用、融合服务”发展理念，以场景需求为导向，本着对核心技术孜孜不倦的探索精神和务实推进的原则，在保持技术先进性的同时，不断创新场景应用。

灵云语音识别能力在各行各业都有出色承担应用程序和创新用例，在会议、谈话、演讲等现实场景中，它都可为客户提供语音支撑技术，为客户提供便捷工作、生活方式。

以呼叫中心为例，灵云语音识别能力可部署到全自动聊天机器人中，可监控客户人机交互，以更快地解决问题以及改进员工培训。“某公司应用灵云语音识别能力将客户事件平均处理时间减少40%，自助服务率从 5% 提高到20%，员工成本降低多达 500 万，提高服务转化率近 50%，极大提升了客户满意度和员工敬业度”。

产品动态NEWS

揭开语音识别能力的神秘面纱