更新时间:2024-06-06 17:22:43

领域知识图谱是专门针对某一领域而构建的结构化语义知识库,旨在描述该领域内的实体、概念及其之间的相互关系。其基本组成单位是“实体-关系-实体”构成的三元组。以下以“电影知识图谱”为例进行具体说明。

 

前置条件

用户

1.管理员admin分配给用户【数据科学家】的角色

2.用户登录AnyDATA,进入知识网络界面

 

数据源

1. 新建数据源

数据源用于知识图谱的数据抽取。进入知识网络,选择:领域数据--数据源管理,单击【新建】按钮

(1)数据源类型:AnyShare 7-结构化,抽取方式:标准抽取;

(2)地址:anyshare.aishu.cn,端口号默认443;

(3)数据源路径示例参考:AnyDATA研发线/08. 测试管理/POC测试/测试数据集/电影数据集;

(4)数据源中不同数据表,映射到知识图谱中对应的本体:

数据表 实体类 关系类
comments.csv 评论 电影评论、影评
movies.csv 电影 --
movie_to_actors.csv -- 演员
movie_to_directors.csv -- 导演
movie_to_genre.csv 类型 电影分类
movie_to_region.csv 地区 上映地区
movie_to_tags.csv 标签 电影标签
person.csv 人物 --
ratings.csv -- 评分
users.csv 观众 --

 

2. 授权认证

创建AnyShare数据源,需要用户登录认证。点击授权按钮,跳转AnyShare登录界面。输入个人的AnyShare账号密码,登录并授权认证通过。

 

3. 测试保存

授权完成后,返回新建数据源界面,点击测试连接,测试连接成功后保存数据源

 

知识图谱

知识图谱现有三种创建方式:

1.方法一:手动创建 – 用户需要手动配置全部流程,包含:新建本体,配置数据映射等;

2.方法二:导入本体 – 流程三用户可选择本体库中已有的本体,可省去本体配置过程,其他流程仍需手动配置;

3.方法三:导入图谱 -- 用户可选择已配置好的图谱导出后再导入,导入时选择数据源后数据会自动映射,完成数据源映射后直接运行图谱即可。

 

1. 方法一:手动创建

进入知识网络后,选择知识图谱,点击【新建】图标,进入知识图谱创建流程。

流程1:基本信息

知识图谱创建流程1:基本信息。输入知识图谱名称、描述,点击下一步,如图

流程2:选择数据源

知识图谱创建流程2:选择数据源。勾选创建的AnyShare数据源,点击下一步,如图

流程3:创建本体

知识图谱创建流程3:创建本体。本体由实体类和关系类组成,实体类支持手动创建和批量导入,实体创建完成后,选择起点实体和终点实体,创建实体之间的关系。

1.创建实体类:点击【创建实体类】图标,画布新增一个实体,实体类面板中输入实体类名、显示名等必填项,如图

2.批量导入实体类:点击【批量导入实体类】图标,如下图所示。勾选数据表,点击确定,画布右侧出现任务列表,显示正在导入任务。导入任务完成后,画布新增实体,实体名称与勾选的数据表名称一致。如图

3.创建关系类:点击【创建关系类】图标,如下图所示,选中实体类【电影】作为起点,实体类【人物】作为终点,创建一条关系,输入关系类的名称、显示名等信息。

4.批量创建关系类:点击【批量创建关系类】图标,出现弹窗,选中关系的起点、终点、关系名称、显示名信息。点击确定,画布上展示新建的多个关系类。

5.设置本体属性:画布上选中任意实体/关系,点击面板中“属性”,添加本体的属性,设置索引、融合、默认显示属性。

(1)索引:勾选后通过模糊匹配找到相关内容。在图分析、认知搜索使用中,部分功能查询的数据来源于索引。

(2)融合:勾选融合后,根据该属性作为唯一值,对数据进行去重。勾选多个融合后,图谱数据抽取进行叠加融合。

6.设置实体类图标:点击画布上实体,实体类面板中选择样式,设置符合实体含义的图标,以及填充色、形状等样式。

流程4:知识映射

知识图谱流程4:知识映射。将创建本体与数据源之间一一关联,点击本体,添加数据源后,数据映射成功后,即可构建并运行知识图谱。

1.点击画布上的实体类,右侧面板显示对应的属性等信息。

2.点击【快速选择】图标,进入选择数据表界面,选择对应的数据表。

3.返回知识映射界面,本体属性与数据表属性相同时,相同属性自动一一映射。

知识图谱配置完成后,点击提交配置,运行构建知识图谱,构建完成后,图谱状态显示【正常】,本体数据抽取成功。

 

2. 方法二:导入本体

方式二创建知识图谱,使用的本体来自本体库,需要准备本体,之后创建知识图谱。

本体库

1.选择左侧导航的本体库。点击【导入本体】,打开弹窗

2.选择提供的电影知识图谱的本体配置文件,选择新建并打开。

3.导入后进入本体编辑界面,画布显示导入的本体,点击保存并关闭。

4.返回本体列表,保存的本体为已发布状态。在知识图谱流程3创建本体,一键导入本体弹窗中可以查看发布的本体。

创建图谱

创建知识图谱,方式二与方式的区别,在于流程3创建本体的操作流程不同。方式二采用一键导入本体,本节只介绍流程3操作,其余流程操作步骤均与方式相同,详见方式一:手动创建。

1.流程3创建本体:点击选择一键导入图标,本体选择电影知识图谱。

2.导入的本体添加到画布上,添加的本体为选中状态。

 

3. 方法三:导入图谱

导入图谱文件

用户进入知识网络,选择知识图谱,点击新建,下拉栏选择导入。出现导入知识图谱弹窗,输入图谱名称,选择导入文件,点击下一步。

选中数据源

选择目标数据源,点击【导入】/【导入并运行】。导入的知识图谱数据源与选择的数据源一致时,编辑知识图谱,流程4知识映射中,实体类和关系类与数据源中的数据源一一映射成功。

导入知识图谱后,检查知识图谱本体和数据源映射准确无误后,用户可以在流程4知识映射中,点击提交配置,全量构建知识图谱。

 

4. 调试

知识图谱提供【调试】功能,支持用户查看构建成功的知识图谱数据,探索图谱数据以及数据之间的关联关系。

点击调试,进入画布。如下图,点击搜索,设置匹配规则为【完全匹配】,搜索“刘德华”,画布上新增相关实体。选中实体右键单击,提供样式、邻居查询、路径查询等供用户使用。用户可点击保存按钮,保存本次调试的结果。