数据是知识图谱的基础。当前数据来源支持MySQL、Hive、Rabbitmq及AnyShare。其中结构化数据包括:CSV、JSON。非结构化数据包括:Word、Excel、PPT、PDF、Txt文档格式,详情请见数据格式要求。
本章节提供一个与消费有关的结构化数据样例,帮助您快速熟悉知识图谱的创建过程。创建完成后,您可以搜索预览相关实体的知识图谱,也可以在创建的图谱基础上全量更新或增量更新图谱。
在AnyDATA 工作台上创建知识图谱的步骤如下所示:
步骤1:准备工作
步骤2:填写相关知识图谱基本信息
步骤3:选择数据源
步骤4:创建本体
步骤5:知识抽取
步骤6:知识映射
步骤7:融合并生成知识图谱
步骤1:准备工作
1.单击【数据集下载链接】,将数据集下载至本地后,将样例数据集导入MySQL数据库
2.登录AnyDATA 工作台,默认进入“知识网络”页面,单击左上角【新建】按钮,弹出“新建知识网络”对话框。
3.在对话框中,“名称”文本框中填写知识网络名称“Sales”,在“描述”文本框中填写知识网络描述“关于销售、用户订单数据”,单击【确定】按钮。
4.创建完成后,默认进入“知识网络”>“知识图谱”页面。
步骤2:填写相关知识图谱基本信息
1.在“我的图谱”页面,单击左上角【新建】按钮,在”创建知识图谱“页面填写基本信息
参数 | 说明 |
知识图谱名称 | 待创建知识图谱的名称,名称只能由大小写字母、数字、中文、下划线组成,长度为1-50位。 |
存储位置 |
待创建知识图谱的图数据库存储位置。可直接选择内置存储位置,也可通“系统设置>存储管理>图数据库”前往配置存储位置。 |
描述 | 待创建知识图谱的描述,描述最长不超过150字。 |
2.填写完信息后,单击【下一步】按钮,进入“步骤3:选择数据源”页面。
步骤3:选择数据源
1.在”选择数据源“页面,单击左上角【新建】按钮,弹出“新建新建源”对话框。
2.在对话框中
- “数据源名称”文本框中填写创建数据源名称“Sales_data”
- “数据源类型”:MySQL
- 填写存放样例数据集数据库的“IP地址”、“端口”、“用户名”、“密码”及数据库名称信息
3.填写完信息后,单击【测试】按钮,测试数据库是否可连通,可连通时,可单击【保存】按钮
4.勾选数据源名称“Sales_data”,单击页面下方【下一步】按钮,进入“步骤4:创建本体”页面。
步骤4:创建本体
进入“创建本体”页面,创建两个实体类“用户”和“订单详情”。
1.【方案1】手工绘制
- 在顶部工具栏,单击【创建实体类】按钮,新建实体类,左侧弹出实体类编辑框。
- 在实体类编辑框中,按如下表格填入信息,单击左侧空白处收起侧边。
参数 | 说明 | 填写样例数据集 |
实体类名 | 实体类名只能由大小写字母、数字及下划线组成,长度为1-50位。 | 本样例需要创建两个实体类,分别可命名为“order_detail”和“user”。 |
显示名 | 所有知识图谱展示的名称,默认与实体类名相同。只能由中英文、数字及下划线,长度为1-50位。 | 本样例需要修改两个实体类显示名,分别可命名为“订单详情”和“用户”。 |
颜色 | 单击选择实体类的颜色,单击可选择更多颜色样式。 | - |
属性 |
编辑当前属性。所有实体类名都默认有一个属性为“name”,且默认属性类型为“string”。
添加属性:单击“+”按钮,可添加属性文本框,在文本框中填写属性的“名称”,选择“类型”、配置“索引”开关。 1.名称:属性名称只能由大小写字母、数字、中文、下划线组成,长度为1-50位。 2.类型:选择属性的类型。包含:string、boolean、date、datetime、decimal、double、float、integer 3.索引:图数据库的查询索引,如果属性类型为string,则创建全文索引。默认开启,可手动关闭 |
实体类“订单详情”新增属性“id”、“orderid”、“itemid”、“itemname”、“price”和“itemnum”。
实体类“用户”新增属性“id”、“sex”、“age”和“createtime”。 |
2.【方案2】自动预测
- 在顶部工具栏,单击【一键导入】按钮,弹出编辑框。
- 在左侧菜单栏中单击“数据源”
- 在右侧编辑框中选择“Sales_data”数据源,随后在“数据列表”中选择“order_detail”和“user”表
- 选择完数据表后,单击【确定】按钮。
- 系统将根据数据表自动创建实体类名=显示名、颜色及属性(数据表自动创建实体类名,系统默认仅开启name索引,其他索引需手动开启)。
- 单击“实体类”,分别根据本样例需要修改两个实体类显示名,分别可命名为“订单详情”和“用户”。
3.创建“订单详情”和“用户”之间的关系。
- 在顶部工具栏,单击【创建关系类】按钮,单击“用户”,鼠标拖拽出一条线,移动至目标实体类单击“订单详情”。右侧弹出关系类侧边栏。
- 在关系侧边栏中,填写“关系名称”,只能由大小写字母、数字、下划线组成,长度为1-50位。
- 本样例需创建关系类名为“order”、显示名为”订单“。
4.创建完成后,单击【下一步】按钮,进入“步骤5:知识抽取”页面。
步骤5:知识抽取
进入“知识抽取”页面,添加所需抽取的数据
1.若在“步骤4 创建本体”中使用「方案1:手动绘制」,在左侧数据列表单击【选择数据源】按钮,弹出对话框。
- 选择数据源名:“sales_data”
- 数据列表数据库中“order”、“order_detail”、“user”三表
- 选择完成后,单击【确定】按钮
2.若在“步骤4 创建本体”中使用「方案2:自动预测」,在左侧数据列表单击【选择数据源】按钮,弹出对话框。
- 选择数据源名:“sales_data”
- 数据列表数据库中“order”表
- 选择完成后,单击【确定】按钮
3.在数据列表中,单击“order”、“order_detail”或“user”,查看数据详情、抽取对象、属性字段
4.单击【下一步】按钮,进入“步骤6:知识映射”页面。
步骤6:知识映射
在“知识映射”页面,将“步骤4:创建本体“与“步骤5:知识抽取“建立对应关系。
1.若在“步骤4 创建本体”中使用「方案1:手动绘制」,需先配置实体类,在左侧配置列表“实体类别>手绘实体类“
- 单击“订单详情”选项
- 在右侧编辑区”实体类映射“中“抽取对象"选择:“order_detail”
- 在右侧编辑区”属性映射“中“抽取对象属性“:本体与知识抽取中抽取对象的属性字段相等,则默认填充
- 单击“用户”选项
- 在右侧编辑区”实体类映射“中“抽取对象":user
- 在右侧编辑区”属性映射“中“抽取对象属性“:本体与知识抽取中抽取对象的属性字段相等,则默认填充
2.配置完实体类后,在"关系类别>手绘关系类",配置关系类别
- 单击“订单”选项
- 在右侧编辑区的”实体类映射“中“抽取对象":order
- 在右侧编辑区的”属性映射“中“抽取对象属性“:本体与知识抽取中抽取对象的属性字段相等,则默认填充
- 在右侧编辑区的关系映射
- 起点实体类属性:id
- 关系-起点抽取关系对象:uesr_id
- 关系-终点点抽取关系对象:id
- 终点实体类属性:orderid
3.若在“步骤4 创建本体”中使用「方案2:自动预测」,无需配置实体类,可直接配置关系类。
4.完成对应配置后,单击【下一步】按钮,进入“步骤7:知识融合”页面。
步骤7:知识融合并生成知识图谱
进入“步骤7:知识融合”页面,对数据进行整合、消歧。
1.默认以实体类属性相等为唯一知识融合条件
2.单击【立即运行】按钮,弹出“更新方式”对话框。
默认选择“增量更新”,单击【确认】按钮。
3.当知识图谱的“状态”由“运行中”变为“正常”后,即可查看“图概况”、使用“分析”功能。