知识图谱‌ 知识图谱初步学习（一）——本体+Protege新手学习

默认分类5个月前发布 admin

2,050 0 0

文章目录

前言（本体详解）

在开始学习知识图谱的过程中，首先就是要了解什么是本体（）。

1.本体概念

本体的概念最初源自于哲学领域，在哲学中的定义为“对世界上客观事物的系统描述，即存在论”。哲学中的本体关心的是客观现实的抽象本质。而在计算机领域，本体是可以在语义的层次上来对知识进行描述，可以看做是某一个领域知识的通用模型。

在人工智能界，最早给出本体定义的是等人，他们将本体定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。

本体是从客观世界中抽象出来的一个概念模型，这个模型包含了某个学科领域内的基本术语和术语之间的关系（或者称为概念以及概念之间的关系）。

简而言之，本体是共享概念模型的形式化、规范、明确的说明。这个定义包含了四个方面：共享（share）、概念化（）、形式化（）、明确（），下面对这4个分别介绍：

2.本体分类

本体最常见的分类是根据本体的应用主题来进行分类，通常分为以下5类：领域本体、通用/常识本体、语言学本体、任务本体和知识本体。依据本体的层次和领域依赖度，等人将其分为4类：顶层本体、领域本体、任务本体和应用本体。

3.本体组成

一个本体大部分由类（概念）（class）、关系（）、函数（）、公理（）和实例（）五种元素组成。

4.本体构建方法

W3C推荐的本体描述语言主要有RDF（资源描述框架）、RDFS（RDF词汇描述语言RDF Schem）和OWL（Web本体语言Web ）三种语言。

5.本体构建的原则

自问题域和具体工程的考虑，构造本体的过程也是各不相同的。由于没有一个标准的本体构造方法，不少研究人员出于指导开发本体的目的，从实践出发，提出了不少有益于构造本体的标准。下面列举一些在实践中被证明比较有用的本体构建准则。

清晰性和客观性（ and ）：本体应该通过客观定义和自然语言文档对所定义的术语给出明确的、客观的语义定义。完全性()：本体所给出的术语定义是完整的，完全能表达所描述术语的含义。一致性()：由术语得出的推论与术语本身的含义是相容的，即支持与其定义相一致的推理，不会产生矛盾；所定义的公理以及用自然语言进行说明的文档也应该具有一致性。最大单调可扩展性（

）：向本体中添加通用或专用的术语时，不需要修改其已有的概念定义和内容，支持在已有的概念基础上定义新术语。最小本体承诺（）：本体约定应该最小，对待建模对象应给出尽可能少的约束。而所谓的承诺，在本体中指的是对怎样以一致的、相容的方式使用共享词汇所达成的共识。一般地，本体约定只要能够满足特定的知识共享需求即可，这可以通过定义约束最弱的公理以及只定义交流所需的词汇来保证。本体描述原则（）：本体中的类应该是互不相交的。概念层次多样化（ of ）增强多继承机制的能力。模块化设计（）以最小化模块化之间的耦合度。语义距离最小化（ of the ）：兄弟概念之间的语义距离最小化，尽可能把含义相似的概念抽象出来，用相同的元语来表示。命名标准化（ of names）：尽可能使用标准的名字。

这十条构建准则给出了构造本体的基本思路和框架，然而，明显的不足之处就是它们所反映的内容非常模糊且难于把握。 6.本体应用

目前，国内外关于本体论的研究广泛应用于知识管理、信息抽取、自然语言的处

理、信息系统的集成以及语义 Web 等。研究多集中于以下方面：

① 信息检索。当前主流的信息检索多是基于关键词的搜索，带来的直接问题就是会产生很多的无用信息，严重影响了检索的效率。本体因其具有良好的概念层次关系和逻辑推理功能，可以在语义层面上消除信息的冗余，提高搜索效率。

② 信息抽取。传统的信息抽取技术尽管能提取出信息实体，但不能判别信息实体间的分类与非分类关系。应用了本体的信息抽取技术能有效地提升实体间分类与层次关系，提高信息抽取的可用性。

③ 信息系统间的互操作。目前存在于分布式网络环境下的信息系统，所面临的主要问题就是各系统间的不兼容性，其核心问题就是异构问题。本体作为概念间的规范说明，能够从语法、模式及语义层面上解决特定领域的异构问题，从而为信息系统的大规模融合提供可能的解决方案。

④ 语义 Web 服务。传统的语义 Web 对语义的操作能力有限，对服务的执行效果产生根本的影响。本体理论作为语义网体系的核心层，提供共同的概念体系标准，提升计算机的可理解性，提高语义 Web 的服务性能。

知识图谱‌ 知识图谱初步学习（一）——本体+Protege新手学习

一、简介来源：Protégé软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件，或者说是本体开发工具，也是基于知识的编辑器，属于开放源代码软件。用途：这个软件主要用于语义网中本体的构建，是语义网中本体构建的核心开发工具，现在的最新版本为5.5.0版本。

提供了本体概念类，关系，属性和实例的构建，并且屏蔽了具体的本体描述语言，用户只需在概念层次上进行领域本体模型的构建。二、软件使用步骤 1.安装首先进入官方下载地址，根据电脑的系统下载相应的版本，一般都是下载最新版本的。如下图：

下载之后解压缩得到以下文件夹，再找到后缀名为.exe的可执行文件双击打开，按照提示直接下一步即可安装完毕啦。

安装完成打开软件，有些tabs默认没有显示，在里面可以找到，如图：

2.使用

各tab的含义及作用如下：

改正：（对象属性），link an to an （实体和实体之间的关系）

（数据属性） , link an to the data（实例的数据）

对象属性和数据属性的定义可以这么理解:假如有-对夫妻小红和小绿，那么我们可以先定义两个类一男人、女人;小红是类”女人”的一个实例，小绿是类”男人”的一个实例。之后我们可以定义小红和小绿之间的夫妻关系，这个关系就是对象属性”夫妻”。同时我们又知道小红今年30岁，那么我们可以定义小红的一个数据属性”年龄”，属性值是”30″。

3.案例

以下图为例子，用创建文献本体。

（1）创建模型层数据

本体分为模型层和数据层，模型层主要定义类和类之间的关系。Thing是所有类型的根节点，也就是基类，所有的类型都是从Thing派生出来的。

在父类下面创建子类需要先选中父类，再按住快捷键ctrl+E创建新的子类，先创建内容、载体、语言、形式这是个大类，接着再创建各自的小类。如下图：

批量加入子类步骤如下：

（2）可以为实体之间添加关系

例如汉语与英语是互斥的关系，可以在class下面添加 with(与…不相交）选择英语。

（3）创建实体关系

知识图谱‌ 知识图谱初步学习（一）——本体+Protege新手学习