北京捷通华声科技股份有限公司——全方位人工智能技术与服务提供商

新闻资讯NEWS

北京捷通华声科技股份有限公司——全方位人工智能技术与服务提供商

灵云新一代情感语音合成技术重磅升级 为企业创造专属声音形象

 发布于:2018-11-28 16:49   浏览:

人工智能时代的到来,语音合成技术已在车载导航、朗读软件、高铁广播等各行各业中广泛应用。随着技术的日新月异,摆脱机械化的发音,像真人一样拥有情感表现力、抑扬顿挫的声音,不仅是语音合成技术的发展方向,也是难点之一。

凭借十多年深厚的技术积累及行业应用,捷通华声打造出具有划时代意义的灵云情感语音合成技术,能够合成出带有语气、情绪等情感丰富、更接近真人的声音,并可通过“云+端”的形式让每一家企业都能轻松拥有更动听、更富感情的语音合成服务。

为了赋予声音更多的表现力和个性化,让新一代合成技术适配到各种非标准化的场景中,提升用户对企业专属声音的“粘性”,捷通华声基于深度学习技术潜心研发,实现了合成效果的全面提升:音色细节高保真、情感真实丰富;流畅度平顺稳定,顿挫的顽疾彻底根治;广泛采用GAN(生成对抗网络)来训练模型,提高音质的拟人度。

在语音合成需求市场,不同企业会根据自身不同的场景和产品特点采用不同的声音,例如银行的智能客服需要嗓音甜美、温柔动人的声音,而催收公司则需要措辞恳切、略显严厉的声音。语音合成的情感化、个性化成为如今市场的迫切需求。

全新升级的灵云情感语音合成技术在发音效果上显著提升,吐字更清晰、顺畅,缓解合成中的刺耳杂音,音质更加扎实、明亮,在一些细节及专业领域的发音上也进行了优化,例如:标点的韵律停顿更接近真人;金额、日期等数字发音效果更加自然;“年月日元”、“百分之”、“点”等分词朗读时的发音也更加顺畅;在对标注为人名的词可直接按姓氏读音,提高了技术使用便捷性(例如用【】标注曾志伟为人名,则“曾”直接读“zeng”)。

在合成音色的情感化、个性化更加明显,灵云情感语音合成技术采用高鲁棒性预处理和建模框架,降低了以往对录音风格和稳定性的严格约束,普通人自然讲话、刻意带情绪讲话、角色模仿讲话,均可训练出保真、稳定的效果。除了提供男声、女声、童声等基础音色库外,还有更多个性化、饱含情感的音色,包括柔美动听、干净利落、甜美可爱、纯真自然、成熟稳重、热情洋溢、措辞严厉等等,可为各种应用场景提供合适的声音,全面满足企业个性化需求。

说明: F:\4.文章撰写\20180713语音合成技术\语音合成2.jpg

面对专业领域的合成需求时,新一代合成技术也进行了优化,例如:面对导航类的合成时,遇到“从XX到XX”这类句式中的长地址,会分段停顿播报(如“北京市/海淀区/中关村软件园/2号楼”)。

同时,捷通华声十多年来积累了大量的领域词库、预选音库,可为金融证券、天气预报、体育赛事、公交汽运、航空、税务、POI、排队叫号等众多领域提供更专业的语音合成播报,客户能够快速、轻松定制与自己产品属性、形象相匹配的声音,为产品赋能。

针对不同企业的特殊需求,捷通华声也支持音库的个性化定制。传统语料数据处理方式为手工精标,既费时又费力,捷通华声采用先进的人工智能技术,实现高度自动化的数据加工标注,并拥有专业的数据定制团队,企业只需提供自己需求的音色录音,即可快速定制出音库。

说明: F:\4.文章撰写\20180713语音合成技术\语音合成1.jpg

专注AI技术研发  引领行业变革

十多年来,捷通华声一直专注技术研发与创新,依靠业界领先的灵云语音合成技术,在国内智能语音市场占有率超50%:

早在2001年,捷通华声便推出代表行业领先水平的jTTS世纪版。随后,捷通华声成为建行、农行的语音合成供应商,全国99%的高铁站也均采用灵云语音合成播报。同时捷通华声成功服务北京奥运会,上海世博会也采用灵云语音合成技术播报赛事。到2016年,捷通华声已成功为上千家企业提供语音合成技术。

让声音自然,富有情感和表现力,一直是语音合成技术的一大难点。如今,灵云语音合成技术已全面支持中文普通话、粤语、维吾尔语、英语、日语、德语、法语等几十种语言。捷通华声正在利用全新推出的灵云情感语音合成技术,为金融、电信、能源、交通、政府、医疗、互联网等上千家企业提供更加优质的服务,全新体验的语音合成产品引发了巨大变革。

不论是智能客服、地图导航、机场广播的甜美女声,还是新闻播报、听书朗读的清爽男声,智能家电、机器人的可爱童声,灵云情感语音合成技术都能让有各种需求的企业快速拥有更具竞争力的产品,让社会大众能够体验到富具情感、更声情并茂的听觉体验,为企业打造专属“声音”形象。