灵云语音合成:多风格、高品质合成效果
语音合成技术在不知不觉中已融入人们的生活。
捷通华声从2001年在国内率先推出面向市场的语音合成技术以来,至今已深耕语音市场20 年,广泛服务金融、电信、能源、交通、教育、司法、公安、医疗、互联网等多个领域,包括北京奥运会、上海世博会、北京大兴国际机场、全国大部分高铁等等。
高品质合成效果
最新灵云语音合成技术引用“全并行架构声学模型”将运行速度提升10倍,实时率显著提升,这意味着在人机交互中,语音合成技术几乎不会形成用户等待时间。
通过采用一体化的智能文本分析算法,结合统计和规则等处理手段,灵云语音合成技术对文本处理前端拥有较强的分词、多音字、韵律环境预测能力,以及自动识别和处理日期时间、数值金额、电话号码等文本的能力。此外,还支持每个发音人私有一个韵律预测模型文件,进一步提升韵律预测效果。
得益于声学核心的深度学习化与高音质声码器,语音合成效果干净饱满又饱含细节、个人特色还原到位,声线细腻、情感丰富、语速真实、媲比真声。灵云语音合成技术拥有多个音库,包括普通话、英语、维语等20多个语种,男声、女声、童声、甜美可爱、成熟稳重、热情洋溢等多种风格。
多种语音合成接入方式 个人定制触手可及
1.公有云调用
捷通华声在2011年推出国内外首款全方位人工智能开放平台——灵云开放平台(AIcloud)。
灵云开放平台通过提供公有云服务器API和SDK等接口服务,让开发者能够免费享受到最新的语音合成技术。
此外,灵云开放平台为开发者提供语音识别、语义理解、声纹识别、语音唤醒、光学字符识别、人脸识别、手写识别、机器翻译、键盘输入等多种技术能力SDK。开发者可以简单、快速地接入所需的能力,并自由灵活组合,定制开发自己的产品。
2.私有云部署
捷通华声提供可私有云部署的语音合成能力平台。比如在银行客服中心,通过与客户IVR系统对接,提供稳定高效的语音合成服务,实现用机器人来服务海量用户,满足用户安全性、私有化、高并发等特性需求。
3. 开放云服务
对于不懂开发的普通用户,捷通华声提供开放的语音合成云服务(speech.aicloud.com),可以让用户直接在网页上生成和下载文本对应的音频文件。
目前,灵云语音云服务全部免费,这不仅方便个人用户丰富短视频内容,还可以免去录音成本,提升创作效率。有效地降低了使用语音合成产品的门槛,让每个人都可以轻而易举地享受语音合成带来的便利。