数据开发是包含数据同步、数据加工、工作流的过程。数据同步可以将来自信息系统的原始数据(表或接口等)同步到数据仓库中。数据加工则基于已同步的数据,将其进行关联、合并、转换、融合等操作,从而生成新的、满足数据分析的数仓物理表。为了进一步整合多步骤多阶段的业务梳理流程,用户可以利用工作流对数据同步、数据加工的执行流程进行完整编排。
在业务表页面的操作栏点击【更多】-【新建任务】-【数据开发】,填写任务名称等信息,点击【确定】。数据开发任务建成后,任务执行人需要到运营中心>任务中心>我的任务>我执行的>待办中查看需要其完成的任务,找到该数据开发任务后,点击【执行任务】,可以对数据同步、数据加工和工作流进行操作。
► 数据同步
数据开发任务的执行人点击【执行任务】后,进入数据开发>数据同步界面,点击【新建】,输入数据同步名称等信后息点击【确定】。
在数据同步模型页面,点击左表中的【配置】添加来源数据表,填写信息系统、数据源、来源数据表信息后点击【确定】,此时来源数据表与目标数据表均显示数据(下图),其中目标数据表(右表)由来源数据表(左表)同步而来。点击目标数据表(右表)的【配置】按钮,填写信息系统、数据源、目标数据表信息后点击【确定】。配置完成后点击页面右上角【发布】。
• 说明:1. 配置目标数据表时只能选择Hive或PostgreSQL数据库类型的数据源。
2. 仅支持PostgreSQL到PostgreSQL的同步加工,即若目标数据表的数据源来自PostgreSQL类型的数据库,则来源数据表的数据源也必须来自同种类型的数据库。
发布完成后,可选择立即执行数据同步或前往工作流定时执行计划。
若选择立即执行数据同步,可在同步日志页面查看执行状态等信息。
► 数据加工
在数据开发>数据加工界面点击【新建】,填写数据加工名称等信后息点击【确定】。
在数据加工模型页面,点击左表中的【选择】按钮添加来源业务表,选择业务表名称后点击【确定】,此时来源业务表与目标数据表均显示数据(下图),其中目标数据表(右表)的结构依据来源业务表(左表)得出。点击目标数据表(右表)的【配置】按钮,填写信息系统、数据源、目标数据表信息后点击【确定】。
在数据加工逻辑页面左侧数据表列表栏点击【添加】,填写信息系统、数据源、数据表信息后点击【确定】,添加数据表。
用户在数据加工逻辑页面右侧编辑器中基于SQL语法规范输入需要执行的SQL语句,点击【执行】后,AnyFabric利用虚拟化引擎的异构数据查询能力获得执行结果,用户可在页面下方查看。
点击右上角【发布】按钮,发布完成后可选择立即执行数据加工或前往工作流配置执行计划。若选择立即执行数据加工,可在加工日志页面查看执行状态等信息。
► 工作流
在数据开发>工作流界面点击【新建】,填写工作流名称等信后息点击【确定】。
在工作流页面左侧可以看到已创建的所有数据同步和数据加工,可以拖拽其中的任意数据至右侧绘制工作流。数据之间可以添加连线,以表示工作流的顺序。绘制完成后点击右上角【发布】。
发布完成后,可选择立即执行工作流或配置时间计划。若选择立即执行,可在日志页面查看执行状态等信息。若选择配置时间计划,需要填写周期、执行时间、执行开始时间等信息,设置完成后点击【确定】。