导读:知识图谱 ( Graph) 就是当前的研究热点。自从2012年推出自己第一版知识图谱以来,它在学术界与工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度与搜狗分别推出”知心“与”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 – 互联网金融, 知识图谱可以有哪方面的应用呢?
目录:
1、 什么就是知识图谱?
2、 知识图谱的表示
3、 知识图谱的存储
4、 应用
5、 挑战
6、 结语
1、什么就是知识图谱?
知识图谱本质上就是语义网络,就是一种基于图的数据结构,由节点(Point)与边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱就是关系的最有效的表示方式。通俗地讲,知识图谱就就是把所有不同种类的信息( )连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱这个概念最早由提出,主要就是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,能准确返回她的妻子 Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。
上面提到的知识图谱都就是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化与问答系统(-)等方面的问题。接下来我们瞧一下特定领域里的 (-) 知识图谱表示方式与应用,这也就是工业界比较关心的话题。
2、知识图谱的表示
假设我们用知识图谱来描述一个事实(Fact) – “张三就是李四的父亲”。这里的实体就是张三与李四,关系就是“父亲”()。当然,张三与李四也可能会跟其她人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也就是实体),人与电话之间也可以定义一种关系叫 ,就就是说某个电话号码就是属于某个人。下面的图就展示了这两种不同的关系。
另外,我们可以把时间作为属性()添加到 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 ( Graph)。属性图与传统的RDF格式都可以作为知识图谱的表示与存储方式,但二者还就是有区别的,这将在后面章节做简单说明。
3、知识图谱的存储
知识图谱就是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式与图数据库(Graph )。至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地瞧到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 、com/en///43
下面的列表表示的就是目前比较流行的基于图存储的数据库排名。从这个排名中可以瞧出neo4j在整个图存储领域里占据着NO、1的地位,而且在RDF领域里Jena还就是目前为止最为流行的存储框架。这部分数据来源于 、com/en/
当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体与关系普遍都比较复杂),知识图谱的优点还就是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的都就是提前定义好的,如果后续要改变,它的代价就是非常高的。最后,把实体与关系存储在图数据结构就是一种符合整个故事逻辑的最好的方式。
4、应用
323AI导航网发布