捷通华声灵云全方位人工智能平台,助力每家企业拥有人工智能
2018年7月30日,捷通华声灵云全方位人工智能平台为广大企业提供语音识别、语音合成、语义理解、麦克风阵列、语音唤醒、图像识别、人脸识别、机器翻译、手写识别、声纹识别、指纹识别、数据挖掘等12项人工智能技术能力,定位专注打造企业级品质的人工智能云服务,并与华为云携手,实现让人工智能像“水和电”一样更好地服务千企万户。
什么是灵云平台?
灵云平台作为捷通华声推出全方位人工智能开放平台,致力于为开发者提供智能语音、智能图像、智能语义、生物特征识别等全方位人工智能技术服务,打造一站式智能人机交互解决方案。用户可通过互联网、移动互联网,使用任何设备、在任何时间、任何地点,随时随地享受灵云平台提供的“听、说、读、写、认……”等全方位的人工智能服务。目前,开放平台以“云+端”的形式向开发者提供语音合成、语音识别、语义理解、语音唤醒、麦克风阵列、人脸识别、图像识别、手写识别等十二项AI技术服务。
国内外企业、中小创业团队和个人开发者,均可通过华为云市场在灵云平台直接体验行业领先的人工智能技术,并简单快速集成到产品中,同时多种能力间也可自由灵活组合,从而让每一台终端、每一台机器“能说会听、能写会看、能辨音会认人、能思考会判断”,让每一个人都享受人工智能带来的轻松与便捷。
平台特色
捷通华声通过与清华大学深入建立“灵云科技 源自清华”的合作理念,致力于人工智能技术与应用的研发,使得灵云平台整合了前沿的人工智能技术成果,语音交互、图像识别、人脸识别等核心技术均达到了业界领先水平,同时与学术界、产业界合作,共同打造了全方位人工智能技术与产品云服务生态圈。灵云平台具有如下特色优势:
一站式解决方案:作为一个综合性的智能人机交互平台,提供语音合成、语音识别、语义理解、图像识别、人脸识别等技术,开发者可以同时获得所需的多项服务能力,并自由灵活组合,一站式解决了需要到不同技术供应商获取服务的繁琐过程,让智能人机交互技术更简单、实用。
丰富的接入方式:支持所有主流的操作系统接入,提供业内最全的SDK,Android、iOS、WP8、Java、Flash、Windows、Linux等平台SDK应有尽有。同时支持多类型终端,如智能手机、智能家电、车载、PC、可穿戴设备等,保证了用户可以在任何地点以任何方式通过灵云平台获得智能人机交互服务。
稳定的服务支撑:灵云平台配备完善的基于B/S架构的管理平台,按照权限登录,可实时监视开放平台服务状态;自动化监控、自动化部署以及自动化测试等平台为开放平台的稳定运行全程护航;利用云计算、大数据等相关技术处理完备的日志记录,为服务性能的提升、优化提供支持。
专业全面的服务支持:通过灵云平台,可以获得开发、调试、评估、调优等全方位的技术支持和点对点的技术服务。开放平台技术支持团队可通过电话、论坛、邮件、QQ群、微信、微博等工具,或现场支持的方式,为开发者提供及时有效的技术支持服务,保障开发者大幅提升开发效率,快速构建智能应用。
免费易用可定制:灵云平台在线开发接口可供任何团队和个人免费使用;提供可视化控件以及demo程序和源码;支持自定义界面、音频保存类型以及个性化语音能力,使得短短几分钟即可构建一款具备智能交互能力的应用。
强大的数据分析能力:灵云平台向开发者提供了业界领先的数据分析能力,让开发者随时随地更懂应用发展趋势,全面倾听用户“心声”,助力精细化运营,辅助决策,明晰产品迭代方向。
核心技术能力
灵云语音识别技术:采用行业领先的深度学习算法,为开发者提供语音识别服务,广泛应用于客服中心、呼叫中心智能客服系统、智能电视等场景中。普通话识别准确率高达97%,对特定词汇进行优化,可进一步提升语音识别率,采用实时识别方式,实现语音数据的传输和识别的同步,实时率可达0.3以下,支持普通话、英语、粤语、维吾尔语、客家话等多种语言,具备很强的口音普适性,并可自由定制垂直领域的语音识别模型,识别效果更精确。
灵云语音合成技术:可将文本实时、准确地转换为自然、流畅的语音,可调节语速、音调、音量等。为企业提供男声、女声、童声等多种合成音色,支持支持中文普通话、粤语、维语、英语、日语、德语、法语等21种语言,同时支持金融证券、天气预报、体育赛事、公交信息、旅游餐饮、等超多领域专业词库,并为用户提供定制化的语音合成服务,支持字符、词组、句子读音定制,也可根据用户需求定制特定发音人。
灵云语义理解技术:可实现意图理解与智能问答两类核心功能,支持上下文语义分析、多轮对话、实体属性等,支持天气、导航、航班、音乐、闲聊等20多个常见领域,广泛应用于智能客服、车载导航、智能家居、穿戴式设备、智能机器人等领域。
灵云语音唤醒技术:为终端设备提供超高效的语音唤醒服务,无需网络,实时离线唤醒,随叫随到,使用先进的芯片, ROM小于40K,低功率持续侦听,唤醒率大于95%,且误唤醒率低于小于 1次/24小时,支持自定义设置多个唤醒词,满足用户个性化需求。
灵云麦克风阵列技术:通过麦克风阵列对声音信号进行处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪等功能,进而提高语音信号处理质量,解决远距离拾音痛点,3米识别率大于 95%,5米识别率大于92%。独有的回声消除技术,让识别更精准,可增强说话人方向语音,抑制其他噪音,同时可有效辨别环境杂音,并能确定位声音来源,扩大识别范围。
灵云光学字符识别技术:可实现纸质文档的电子化,识别率高达99.99%,支持文档识别、票据识别、证照识别、银行卡识别、名片识别等多种应用领域,可高效准确地从证照等纸质文档中提取文本信息,节省了信息填写与录入所带来的成本负担,使业务流程变得既直观,又方便。
灵云人脸识别技术:可准确识别图片中的人脸信息,提供人脸属性识别、关键点定位、
人脸1:1比对、人脸1:N识别、活体检测等能力。能够精准定位图中人脸的眼、口、鼻等多个关键点位置,能够进行人脸对比、人脸关键点定位、活体检测,支持超大人像库检索,并能获取年龄、性别、情绪、眼睛状态等多种人脸属性。
灵云机器翻译技术:采用国际先进的翻译技术及深度学习算法,可生成流畅的译文,支持中英、中维、中韩等多种语言互译,具有翻译准确率高、翻译快速等优点。直接语音输入即可翻译成文本,随后可直接获取对应的语音并播报,翻译结果地道流畅,忠实表达原文内容,满足高质量的翻译要求。
灵云声纹识别技术:能够通过抽取说话人语音中的声纹特征和已登记的声纹模型进行比较,对用户进行身份校验和鉴别,提供声纹自由说、动态数字、开放文本、固定文本密码等多种识别模式,识别准确率高达99%。可辨别说话人身份并提取声音物理特征,判断其情绪倾向,如开心、悲伤等,并能从多人对话场景中分离出单个说话人音频,并识别出每个人的说话内容。
灵云手写识别技术:可直接在智能终端设备进行流畅、自然的手写输入,支持中、英文以及数字的混合识别,支持中文、英文、维文等95种语言,覆盖全球82%的国家与地区,可连续自由行写、叠写,提供钢笔、铅笔、毛笔等多种笔形,并可识别50种笔势,单字识别率达99%,市场占有率超50%。
灵云数据挖掘技术:运用前沿机器学习技术,通过海量数据进行预处理、结构化、统计分析、隐信息挖掘、知识图谱构建等步骤,挖掘分析有价值的信息,为政府、企业等相关机构提供决策依据,可进行话术标准检查、通话话题分析、文本规则解析、用户个体画像、情绪检测分析、文本新词发现、文本处理过滤等功能。
应用领域
在行业应用方面,灵云平台各项人工智能技术能够为智能应用、智能家电、智能车载、智能音箱、智能机器人等众多领域客户提供多种人工智能技术能力云服务。
在移动应用领域,灵云SDK为移动应用提供了智能语音、图像、手写、生物特征识别等智能技术集成手段,云+端方式确保应用体验高效稳定,目前已在京东商城、出国翻译官、滴滴出行、高德地图、快快查字典等上万个APP中得以应用,覆盖聊天通讯、工具、视频、新闻、导航等生活领域的方方面面。
在智能家电领域,通过灵云语音助手实现语音搜索、语音控制、天气查询、航班检索等功能,用户可进行个性定制,麦克风阵列技术则可摆脱遥控器,实现远场精准识别,让电视、音箱、空调等家电从此言听机从。目前,灵云平台已为小米电视、PPTV、广电机顶盒等众多电视、机顶盒厂商提供了语音交互服务。
在智能车载领域,具备软硬降噪远场精准识别、场景化引擎唤醒、云端计算和内容服务,可通过语音进行打电话、发短信、搜索、多轮对话和深度导航等各项车载服务,并针对胎噪、发动机噪音、风噪等采用特殊降噪算法过滤,识别效果更佳,真正实现释放双手驾驶更安全。
通过与华为企业云的有机整合,灵云平台快速、精准契合了用户的应用需求,切实降低了人工智能应用的门槛,为政府、企业提供了最实用的人工智能服务,实现泛在人工智能技术接入。
依托华为云的大规模数据处理与云计算能力,以及遍布全国、高密度覆盖的数据网络,灵云平台能够充分发挥人工智能的技术威力。多节点部署让灵云平台更加稳定,容灾能力得到进一步增强,能够确保业务持久稳定运行。就近访问的模式达到了更高水平的数据处理容错性能,让企业用户能够享受到更流畅的人工智能交互体验,唤醒业务敏捷活力。
未来,捷通华声灵云将与华为云继续并肩前行,不断实现多点部署、就近访问,扩大业务范围,提升客户体验,让人工智能可以像“水和电”一样全面服务行业用户与大众生活,满足各领域对人工智能技术服务迅猛增长的需求。