领域知识图谱是专门针对某一领域而构建的结构化语义知识库,旨在描述该领域内的实体、概念及其之间的相互关系。其基本组成单位是“实体-关系-实体”构成的三元组。以下以“电影知识图谱”为例进行具体说明。
前置条件
用户
1.管理员admin分配给用户【数据科学家】的角色
2.用户登录AnyDATA,进入知识网络界面
数据源
1. 新建数据源
数据源用于知识图谱的数据抽取。进入知识网络,选择:领域数据--数据源管理,单击【新建】按钮
(1)数据源类型:AnyShare 7-结构化,抽取方式:标准抽取;
(2)地址:anyshare.aishu.cn,端口号默认443;
(3)数据源路径示例参考:AnyDATA研发线/08. 测试管理/POC测试/测试数据集/电影数据集;
(4)数据源中不同数据表,映射到知识图谱中对应的本体:
数据表 | 实体类 | 关系类 |
comments.csv | 评论 | 电影评论、影评 |
movies.csv | 电影 | -- |
movie_to_actors.csv | -- | 演员 |
movie_to_directors.csv | -- | 导演 |
movie_to_genre.csv | 类型 | 电影分类 |
movie_to_region.csv | 地区 | 上映地区 |
movie_to_tags.csv | 标签 | 电影标签 |
person.csv | 人物 | -- |
ratings.csv | -- | 评分 |
users.csv | 观众 | -- |
2. 授权认证
创建AnyShare数据源,需要用户登录认证。点击授权按钮,跳转AnyShare登录界面。输入个人的AnyShare账号密码,登录并授权认证通过。
3. 测试保存
授权完成后,返回新建数据源界面,点击测试连接,测试连接成功后保存数据源
知识图谱
知识图谱现有三种创建方式:
1.方法一:手动创建 – 用户需要手动配置全部流程,包含:新建本体,配置数据映射等;
2.方法二:导入本体 – 流程三用户可选择本体库中已有的本体,可省去本体配置过程,其他流程仍需手动配置;
3.方法三:导入图谱 -- 用户可选择已配置好的图谱导出后再导入,导入时选择数据源后数据会自动映射,完成数据源映射后直接运行图谱即可。
1. 方法一:手动创建
进入知识网络后,选择知识图谱,点击【新建】图标,进入知识图谱创建流程。
流程1:基本信息
知识图谱创建流程1:基本信息。输入知识图谱名称、描述,点击下一步,如图
流程2:选择数据源
知识图谱创建流程2:选择数据源。勾选创建的AnyShare数据源,点击下一步,如图
流程3:创建本体
知识图谱创建流程3:创建本体。本体由实体类和关系类组成,实体类支持手动创建和批量导入,实体创建完成后,选择起点实体和终点实体,创建实体之间的关系。
1.创建实体类:点击【创建实体类】图标,画布新增一个实体,实体类面板中输入实体类名、显示名等必填项,如图
2.批量导入实体类:点击【批量导入实体类】图标,如下图所示。勾选数据表,点击确定,画布右侧出现任务列表,显示正在导入任务。导入任务完成后,画布新增实体,实体名称与勾选的数据表名称一致。如图
3.创建关系类:点击【创建关系类】图标,如下图所示,选中实体类【电影】作为起点,实体类【人物】作为终点,创建一条关系,输入关系类的名称、显示名等信息。
4.批量创建关系类:点击【批量创建关系类】图标,出现弹窗,选中关系的起点、终点、关系名称、显示名信息。点击确定,画布上展示新建的多个关系类。
5.设置本体属性:画布上选中任意实体/关系,点击面板中“属性”,添加本体的属性,设置索引、融合、默认显示属性。
(1)索引:勾选后通过模糊匹配找到相关内容。在图分析、认知搜索使用中,部分功能查询的数据来源于索引。
(2)融合:勾选融合后,根据该属性作为唯一值,对数据进行去重。勾选多个融合后,图谱数据抽取进行叠加融合。
6.设置实体类图标:点击画布上实体,实体类面板中选择样式,设置符合实体含义的图标,以及填充色、形状等样式。
流程4:知识映射
知识图谱流程4:知识映射。将创建本体与数据源之间一一关联,点击本体,添加数据源后,数据映射成功后,即可构建并运行知识图谱。
1.点击画布上的实体类,右侧面板显示对应的属性等信息。
2.点击【快速选择】图标,进入选择数据表界面,选择对应的数据表。
3.返回知识映射界面,本体属性与数据表属性相同时,相同属性自动一一映射。
知识图谱配置完成后,点击提交配置,运行构建知识图谱,构建完成后,图谱状态显示【正常】,本体数据抽取成功。
2. 方法二:导入本体
方式二创建知识图谱,使用的本体来自本体库,需要准备本体,之后创建知识图谱。
本体库
1.选择左侧导航的本体库。点击【导入本体】,打开弹窗
2.选择提供的电影知识图谱的本体配置文件,选择新建并打开。
3.导入后进入本体编辑界面,画布显示导入的本体,点击保存并关闭。
4.返回本体列表,保存的本体为已发布状态。在知识图谱流程3创建本体,一键导入本体弹窗中可以查看发布的本体。
创建图谱
创建知识图谱,方式二与方式的区别,在于流程3创建本体的操作流程不同。方式二采用一键导入本体,本节只介绍流程3操作,其余流程操作步骤均与方式相同,详见方式一:手动创建。
1.流程3创建本体:点击选择一键导入图标,本体选择电影知识图谱。
2.导入的本体添加到画布上,添加的本体为选中状态。
3. 方法三:导入图谱
导入图谱文件
用户进入知识网络,选择知识图谱,点击新建,下拉栏选择导入。出现导入知识图谱弹窗,输入图谱名称,选择导入文件,点击下一步。
选中数据源
选择目标数据源,点击【导入】/【导入并运行】。导入的知识图谱数据源与选择的数据源一致时,编辑知识图谱,流程4知识映射中,实体类和关系类与数据源中的数据源一一映射成功。
导入知识图谱后,检查知识图谱本体和数据源映射准确无误后,用户可以在流程4知识映射中,点击提交配置,全量构建知识图谱。
4. 调试
知识图谱提供【调试】功能,支持用户查看构建成功的知识图谱数据,探索图谱数据以及数据之间的关联关系。
点击调试,进入画布。如下图,点击搜索,设置匹配规则为【完全匹配】,搜索“刘德华”,画布上新增相关实体。选中实体右键单击,提供样式、邻居查询、路径查询等供用户使用。用户可点击保存按钮,保存本次调试的结果。