更新时间:2022-09-07 16:10:25

数据是知识图谱的基础。当前数据来源支持MySQL、Hive、Rabbitmq及AnyShare。其中结构化数据包括:CSV、JSON。非结构化数据包括:Word、Excel、PPT、PDF、Txt文档格式,详情请见数据格式要求。

 

本章节提供一个与消费有关的结构化数据样例,帮助您快速熟悉知识图谱的创建过程。创建完成后,您可以搜索预览相关实体的知识图谱,也可以在创建的图谱基础上全量更新或增量更新图谱。

 

在AnyDATA 工作台上创建知识图谱的步骤如下所示:

步骤1:准备工作

步骤2:填写相关知识图谱基本信息

步骤3:选择数据源

步骤4:创建本体

步骤5:知识抽取

步骤6:知识映射

步骤7:融合并生成知识图谱

 

步骤1:准备工作

1.单击【数据集下载链接,将数据集下载至本地后,将样例数据集导入MySQL数据库

2.登录AnyDATA 工作台,默认进入“知识网络”页面,单击左上角【新建】按钮,弹出“新建知识网络”对话框。

3.在对话框中,“名称”文本框中填写知识网络名称“Sales”,在“描述”文本框中填写知识网络描述“关于销售、用户订单数据”,单击【确定】按钮

4.创建完成后,默认进入“知识网络”>“知识图谱”页面。

 

 

步骤2:填写相关知识图谱基本信息

1.在“我的图谱”页面,单击左上角【新建】按钮,在”创建知识图谱“页面填写基本信息

参数 说明
知识图谱名称 待创建知识图谱的名称,名称只能由大小写字母、数字、中文、下划线组成,长度为1-50位。
存储位置

待创建知识图谱的图数据库存储位置。可直接选择内置存储位置,也可通“系统设置>存储管理>图数据库”前往配置存储位置。

描述 待创建知识图谱的描述,描述最长不超过150字。

2.填写完信息后,单击【下一步】按钮,进入“步骤3:选择数据源”页面。

 

 

步骤3:选择数据源

1.在”选择数据源“页面,单击左上角【新建】按钮,弹出“新建新建源”对话框。

2.在对话框中

  • “数据源名称”文本框中填写创建数据源名称“Sales_data”
  • “数据源类型”:MySQL
  • 填写存放样例数据集数据库的“IP地址”、“端口”、“用户名”、“密码”及数据库名称信息

3.填写完信息后,单击【测试】按钮,测试数据库是否可连通,可连通时,可单击【保存】按钮

4.勾选数据源名称“Sales_data”,单击页面下方【下一步】按钮,进入“步骤4:创建本体”页面。

 

 

步骤4:创建本体

进入“创建本体”页面,创建两个实体类“用户”“订单详情”

 

1.【方案1】手工绘制

  • 在顶部工具栏,单击【创建实体类】按钮,新建实体类,左侧弹出实体类编辑框。
  • 在实体类编辑框中,按如下表格填入信息,单击左侧空白处收起侧边。
参数 说明 填写样例数据集
实体类名 实体类名只能由大小写字母、数字及下划线组成,长度为1-50位。 本样例需要创建两个实体类,分别可命名为“order_detail”“user”
显示名 所有知识图谱展示的名称,默认与实体类名相同。只能由中英文、数字及下划线,长度为1-50位。 本样例需要修改两个实体类显示名,分别可命名为“订单详情”“用户”
颜色 单击选择实体类的颜色,单击可选择更多颜色样式。 -
属性

编辑当前属性。所有实体类名都默认有一个属性为“name”,且默认属性类型为“string”

 

添加属性:单击“+”按钮,可添加属性文本框,在文本框中填写属性的“名称”,选择“类型”、配置“索引”开关

1.名称:属性名称只能由大小写字母、数字、中文、下划线组成,长度为1-50位。

2.类型:选择属性的类型。包含:string、boolean、date、datetime、decimal、double、float、integer

3.索引:图数据库的查询索引,如果属性类型为string,则创建全文索引。默认开启,可手动关闭

实体类“订单详情”新增属性“id”、“orderid”、“itemid”、“itemname”、“price”和“itemnum”

 

实体类“用户”新增属性“id”“sex”、“age”“createtime”

 

2.【方案2】自动预测

  • 在顶部工具栏,单击【一键导入】按钮,弹出编辑框。
    1. 在左侧菜单栏中单击“数据源”
    2. 在右侧编辑框中选择“Sales_data”数据源,随后在“数据列表”中选择“order_detail”和“user”表
    3. 选择完数据表后,单击【确定】按钮。
    4. 系统将根据数据表自动创建实体类名=显示名、颜色及属性(数据表自动创建实体类名,系统默认仅开启name索引,其他索引需手动开启)。
    5. 单击“实体类”,分别根据本样例需要修改两个实体类显示名,分别可命名为“订单详情”“用户”

 

3.创建“订单详情”“用户”之间的关系。

  • 在顶部工具栏,单击【创建关系类】按钮,单击“用户”,鼠标拖拽出一条线,移动至目标实体类单击订单详情。右侧弹出关系类侧边栏。
  • 在关系侧边栏中,填写“关系名称”,只能由大小写字母、数字、下划线组成,长度为1-50位。
  • 本样例需创建关系类名为“order”、显示名为”订单“。

 

4.创建完成后,单击【下一步】按钮,进入“步骤5:知识抽取”页面。

 

 

步骤5:知识抽取

进入“知识抽取”页面,添加所需抽取的数据

1.若在“步骤4 创建本体”中使用「方案1:手动绘制」,左侧数据列表单击【选择数据源】按钮,弹出对话框。

  • 选择数据源名:“sales_data”
  • 数据列表数据库中“order”、“order_detail”、“user”三表
  • 选择完成后,单击【确定】按钮

2.若在“步骤4 创建本体”中使用「方案2:自动预测」,左侧数据列表单击【选择数据源】按钮,弹出对话框。

  • 选择数据源名:“sales_data”
  • 数据列表数据库中“order”表
  • 选择完成后,单击【确定】按钮

3.在数据列表中,单击“order”、“order_detail”或“user”,查看数据详情、抽取对象、属性字段

4.单击【下一步】按钮,进入“步骤6:知识映射”页面。

 

 

步骤6:知识映射

“知识映射”页面,将“步骤4:创建本体“与“步骤5:知识抽取“建立对应关系。

1.若在“步骤4 创建本体”中使用「方案1:手动绘制」,需先配置实体类,在左侧配置列表“实体类别>手绘实体类“

  • 单击“订单详情”选项
  • 在右侧编辑区”实体类映射“中“抽取对象"选择:“order_detail”
  • 在右侧编辑区”属性映射“中“抽取对象属性“:本体与知识抽取中抽取对象的属性字段相等,则默认填充

 

  • 单击“用户”选项
  • 在右侧编辑区”实体类映射“中“抽取对象":user
  • 在右侧编辑区”属性映射“中“抽取对象属性“:本体与知识抽取中抽取对象的属性字段相等,则默认填充

 

2.配置完实体类后,在"关系类别>手绘关系类",配置关系类别

  • 单击“订单”选项
  • 在右侧编辑区的”实体类映射“中“抽取对象":order
  • 在右侧编辑区的”属性映射“中“抽取对象属性“:本体与知识抽取中抽取对象的属性字段相等,则默认填充
  • 在右侧编辑区的关系映射
    1. 起点实体类属性:id
    2. 关系-起点抽取关系对象:uesr_id
    3. 关系-终点点抽取关系对象:id
    4. 终点实体类属性:orderid

3.若在“步骤4 创建本体”中使用「方案2:自动预测」,无需配置实体类,可直接配置关系类。

4.完成对应配置后,单击【下一步】按钮,进入“步骤7:知识融合”页面。

 

 

步骤7:知识融合并生成知识图谱

进入“步骤7:知识融合”页面,对数据进行整合、消歧。

1.默认以实体类属性相等为唯一知识融合条件

2.单击【立即运行】按钮,弹出“更新方式”对话框。

默认选择“增量更新”,单击【确认】按钮。

3.当知识图谱的“状态”“运行中”变为“正常”后,即可查看“图概况”、使用“分析”功能。