更新时间:2025-05-27 17:34:31

数据处理模块是为AnyShare DATA Flow提供可配置自动化流程的服务模块,系统管理员、安全管理员可以基于数据产品的具体业务,通过配置自动化流程,来预定义流程模型和规则,完成所需数据资源的加工、转换及治理,为数据产品的开发提供支撑。此模块支持管理员针对流程设置告警规则,流程运行异常时可主动发送告警邮件。

配置数据处理流程

系统管理员及安全管理员进入管理控制台【工作中心】- 【数据处理】,可以基于默认模版/空白页面创建数据处理工作流,完成针对指定数据的自动处理流程。

提示:当前系统内置了更新知识图谱创建文档索引两个数据处理流程的模版,模版数据处理能力说明如下:

• “更新知识图谱”:管理员通过构建“更新知识图谱”工作流,能够将指定数据写入到指定图谱的指定实体属性/关系中,实现图谱写入的动态维护(图谱写入规则以及数据结构由本体结构自动生成),完成AnyShare侧知识图谱数据的自动添加/更新/删除。配置时,系统提供了内置实体(文档、用户、组织、标签4个实体)及自定义实体,可按需配置。

• 创建文档索引”:管理员可按需构建指定范围的文档索引工作流,让工作流去监听文件变更事件,触发(手动、定时、事件触发的方式)文档索引构建任务,支持查看任务执行状态。

› 更新知识图谱(基于多种方式自动更新知识图谱)

基于更新知识图谱模版的数据处理流程的创建过程如下:

1. 配置数据处理工作流

点击【新建】,选择新建方式(此处选择基于模版新建)后,点击选择“更新知识图谱”模版后,进入自动更新知识图谱的配置窗口。管理员点击下拉框,选择需更新的知识图谱(来源于AnyDATA)、从文档中提取出的实体,以及此工作流作用的文档库。

2. 修改工作流触发方式

为简化流程配置复杂度,系统提供了默认的工作流。管理需要根据实际需求,修改工作流触发方式、名称或删减不需要的工作流。已创建的流程将展示在数据处理工作流管理列表中。

说明:当前支持的触发器包括:文档事件触发、用户事件触发、组织事件触发、标签事件触发、自定义时间触发。涵盖的具体事件如下:

• 文档事件触发:新增文件版本、修改文件路径、删除文件;
• 用户事件触发:新建新用户、更新用户信息、删除用户;
• 组织事件触发:创建新组织/部门、移动部门、删除部门、更新用户所属部门信息;
• 标签事件触发:创建新标签树、创建新标签、修改标签、删除标签;
• 定时触发:定时将文件同步至知识图谱、定时将新用户信息同步至知识图谱、定时将新组织/部门信息同步至知识图谱、定时将新标签树同步至知识图谱。注意:具体触发频率由管理员设置。

修改工作流触发方式:

修改工作流名称:

删除工作流:

3. 修改工作流流程

在数据处理工作流管理列表中,勾选需要修改流程配置的工作流,点击【编辑】>【编辑流程配置】方可进入配置页面。管理员可以进一步修改数据源(非结构化数据/结构化数据),修改“写入图数据库”这一工作流节点的具体执行逻辑,包括具体选择或自定义需更新的实体,配置写入规则等。配置页面如下:

» 实体类别说明:

内置实体:系统的默认实体,其写入逻辑已经过系统内部处理,具体包括:文档、用户、组织、标签4个实体。针对此类实体,配置时可直接应用其写入逻辑;

自定义实体:便于管理员自行定义的图谱中的其他实体,管理员可以根据图谱数据的更新需求,自行定义数据写入逻辑,可将不同的数据指定写入到的某一实体、属性以及关系里。具体配置时,若此实体有必选属性,则其属性值为必填项。配置界面如下:

» 相关节点说明:

说明:当前新增支持的节点包括:内容处理(获取纯文本、抽取摘要、抽取实体)、JSON操作(设置、获取)、大模型。

› 创建文档索引(基于定时/事件触发方式自动创建文档索引)

基于创建文档索引模版的数据处理流程的创建过程如下:

1. 配置数据处理工作流

点击【新建】,选择新建方式(此处选择基于模版新建)后,选择“创建文档索引”模版,选择流程适用的文档库。

2. 修改工作流触发方式

管理员可以根据实际需求修改、重命名或删除创建文档索引模版中不需要的工作流。以下图为例,当前包含2条工作流:定时创建索引,事件触发自动创建索引。

其中,定时创建索引支持配置触发频率(每天/每周/每月/自定义时间)、具体时间、适用文档库。完成配置后,工作流将定时在指定时间点自动创建此文档库的文档索引。配置页面如下:

修改工作流触发方式(定时创建索引):

事件触发自动创建索引支持修改触发事件(新增文件版本时/修改文件路径时/删除文件时)、适用文档库。完成配置后,工作流将监听此处指定的文档库,当该文档库新增了文件版本,或修改了文件路径,或删除了文件时,将自动创建文档索引。配置页面如下:

修改工作流触发方式(事件触发创建索引):

3. 修改工作流流程

完成上方数据处理工作流的创建后,您可以在管理列表中查看系统中已有的工作流,如下所示:

勾选需编辑流程配置的工作流,点击【编辑】-【编辑流程配置】,可以进一步修改数据源类型(非结构化数据/结构化数据),修改写入规则。配置页面如下:

运行工作流,查看运行统计数据

在工作流管理列表中勾选指定流程,管理员可以点击上方【运行】按钮,运行该工作流。点击【运行统计】,管理员可以查看工作流任务的运行统计数据,包括运行次数、成功率、耗时及运行状态等信息。

运行工作流:

查看运行统计数据:

配置流程告警规则

管理员可进入【告警设置】设置工作流程告警规则,指定接收人可收到在流程运行失败后获知失败消息。