捷通华声:知识图谱在智能客服中的应用
在与客服机器人的斗智斗勇中,我们经常会遇到这样的情况:
视频中,用户在问第二个问题时,并没有提到城市,但是客服机器人可以准确回答珠海分行。客服机器人「机智过人」的背后,便是来自捷通华声AI硬核技术——知识图谱。
知识图谱可以将非结构化、结构化、半结构化数据经过知识抽取、知识融合、知识加工等方法构建成有关联关系的图模型。知识图谱由实体、关系和属性三部分构成,能够非常清晰的体现不同实体之间的关系。在智能客服中,知识图谱利用知识库来辅助理解用户问话内容。
以上图为例,张京的「职业」是翻译,她的「国籍」是中国…在知识图谱中,将客观存在的「职业」和「国籍」等属性关系,作为连接线,将张京与个人标签之间进行连接。当然,除此外,张京还有很多个人标签,比如毕业院校外交学院,汉族等等。
在现实世界中还存在很多隐性或复杂的关系。在客服领域,这种关系同样存在,这就需要对各种关系不断的挖掘,从而构建庞大的知识图谱,以便更好的服务用户。
知识图谱构建
简单来说,知识图谱的构建类和思维导图非常相似,只要找到关联关系,就可以将各个实体连接起来,主要包括知识抽取、知识融合及知识加工。
知识抽取
知识抽取就是从获取到的各种原始数据中提取出实体、关系和属性。知识抽取步骤所涉及的数据有非结构化数据、结构化和半结构化数据。以非结构化数据的关系抽取为例,可以分为开放领域关系抽取和限定领域三元组抽取。
-
限定领域关系抽取
限定领域三元组抽取是在一个或多个限定的领域内对实体间的语义关系进行抽取,即实体领域已做限制,如:
数据:以下是钧达股份在北京时间9月19日14:26分盘口异动快照:9月19日,钧达股份盘中快速上涨,5分钟内涨幅超过2%,截至14点26分,报18.05元,成交3310.86万元,换手率4.92%。
抽取结果:钧达股份,涨跌幅,超过2%
-
开放领域三元组抽取
开放领域三元组抽取是依据模型对自然语言句子理解的结果进行开放式抽取实体关系,即对实体领域不做限制,如:
数据:7月19日,河南省自然资源厅地质勘查处陈军副处长协同自然资源部专家孟立山组成省厅地质灾害防治调研组莅临方城县调研指导工作。
抽取结果:河南省自然资源厅,副处长,陈军
知识融合
知识抽取完成后,需要将不同类型实体信息进行知识融合,即将不同知识库的同一实体和同一属性分别融合在一起。
-
属性融合
把来自不同知识库或名称不同但表示特征相同的属性进行信息融合,将同一实体中等价的属性进行归类统一,如:「注册地,注册地点,注册地址」融合为「注册地址」
-
实体融合
对表示同一个对象的多个实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。如:「捷通华声,捷通华声灵云,捷通华声科技股份有限公司」属性值相同融合。
知识加工
对知识图谱进一步补充扩展,形成更加灵活的知识大脑。
知识图谱功能
捷通华声的知识图谱支持查询实体或实体对应属性、查询多个实体间的关联关系,实现实体间的属性值进行计算,以及根据多个实体的属性值进行筛选等功能。
属性查找
查询实体或实体对应属性时,对于某一实体以及实体对应的某种属性进行提问,返回其答案。例如当图谱数据为:姚明-身高-226cm
Q:姚明的身高是多少?
A:姚明的身高是226cm
关系查询
查询多个实体间的关联关系时,对于多个实体之间的关联关系提问,返回其关系。例如图谱数据包括“叶惠美-儿子-周杰伦”和“周杰伦-妻子-昆凌”
Q:叶惠美和昆凌什么关系?
A:叶惠美的儿子是周杰伦,周杰伦的妻子是昆凌
插值计算
实现实体间的属性值进行计算,例如图谱数据为“小明-年龄-5”和“小王-年龄-6”
Q:小王比小明大几岁?
A:1岁
按值筛选
根据多个实体的属性值进行筛选,例如图谱数据为“小明年龄 5”,“小王年龄 6”,以及“小洪年龄 7”
Q:6岁以下的人有哪些?
A:小明,小王