更新时间:2025-12-31 15:03:13

本体引擎概述

本体是基于本体的建模方法,形成业务知识网络,实现从建模 - 索引 - 查询的引擎。
本体引擎以“本体论”为核心方法论,提供构建及应用业务知识网络的能力,即本体引擎采用“数据-逻辑-行动”的本体模型,按对象类、关系类、行动类进行概念抽取和关联,然后将本体概念映射到数据、逻辑、行动,形成业务知识网络,助力智能体实现复杂业务场景的智能决策与自动化运营;并基于“通用业务知识网络+行业知识网络+客户自定义知识网络”的分层知识网络架构,形成可复用、可扩展的全局业务知识网络。

业务域、业务知识网络与概念分组

业务知识网络分层架构

基于本体引擎,以通用业务知识网络→行业知识网络→客户自定义知识网络”为纵向演进路径,构建逐层细化的知识沉淀体系:

  • 通用业务知识网络作为底层基石,沉淀跨行业通用的基础概念(如“人员”“客户”“产品”)、关系(如“属于”“关联”“影响”)和属性(如“姓名”“教育背景”“地区”),形成标准化知识沉淀和积累;
  • 行业知识网络在中层引入行业专属概念(如金融领域的“风控指标”、零售领域的“供应链节点”)及领域规则,通过继承通用网络实现行业化知识扩展,降低垂直领域建模成本;
  • 客户自定义知识网络作为顶层,支持企业按需定制个性化业务模型(如特定产品的业务流程、客户分群策略),通过灵活组装概念分组与关联关系,实现业务场景的精准映射。
    这种分层设计既保障了知识体系的兼容性与扩展性,又满足了不同业务场景的差异化需求。

如何构建业务知识网络?

本体引擎遵循“概念分组-概念定义-资源映射”三级架构,定义业务知识网络的核心要素与构建规则:

业务知识网络​:由【本体模型】与【资源】两部分构成,即 ​【业务知识网络】=【本体模型】+【资源】。其中,一个【业务知识网络】包含一套【本体模型】,多个业务知识网络之间概念隔离、互不影响,确保知识独立性与完整性。

本体模型:由三层核心要素构成,即 ​【概念分组】+ 【概念】 + 【映射】

【概念】是业务知识的基本单元,具体分为三类:对象类、关系类、行动类三大核心概念定义,分别承载“是什么”(实体)、“如何关联”(关系)、“如何行动”(执行)的语义定义,形成业务认知的通用语言体系,构建业务实体的立体化语义画像,实现从“数据碎片”到“业务共识”的标准化表达。

  • 对象类​:定义业务实体的本质属性(如“客户”“设备”);
    • 融合数据属性​(静态特征,如设备ID、交易时间)与逻辑属性​(动态特征,如实时健康度、风险评分),既绑定底层数据字段,又注入业务规则计算结果,形成“数据本质+业务意义”的双重定义。例如:“用户对象”不仅包含姓名、年龄等基础数据,还通过逻辑属性动态计算“活跃度”“消费偏好”等业务标签,使实体语义兼具稳定性与灵活性。
    • 属性:是真实世界实体或事件特征的模式定义。属性值是指对象或该现实世界实体或事件的单个实例上的属性值。
  • 关系类​:描述实体间的关联关系(如“客户-订单-关联”“设备-故障-影响”);
    • 定义对象类之间的结构性关联,描述“谁与谁存在何种关系”,例如“用户属于某机构”“设备关联某传感器”等,强调实体间客观存在的连接关系,不涉及业务动作或因果逻辑。
  • 行动类​:定义业务操作的具体动作(如“故障预警”“资源调度”)。
    • 条件关联​(规则性约束):定义行动触发的前置条件,如“当设备温度>80℃时触发报警”,通过条件判断决定行动是否执行;

【概念分组】是对【概念】的逻辑包含。概念分组里的概念允许重叠,即里面的对象类、关系类、行动类可以存在不同的概念分组里。

【映射】是对数据资源、逻辑资源、行动资源的关联绑定规则。

资源​:来自VEGA虚拟化和算子工厂。其中,数据资源来源于VEGA虚拟化的数据视图;逻辑资源来源于VEGA虚拟化的数据模型,以及算子工厂的算子和函数;行动资源来源于算子工厂的工具和MCP。

h id="id-本体引擎-3.7业务知识网络:权限">业务知识网络权限</h1> <ul> <li"支持新建、编辑、删除、导入、导出权限

  • 当有新建权限,则有导入权限

本体建模

本体建模:知识结构化的“设计引擎”​​,提供业务知识网络的构建与配置

通过概念定义、资源映射、概念分组、版本管理,构建“对象-关系-行动”三位一体的业务知识网络。

  • 概念定义​:将复杂的业务知识抽象为可管理的概念单元,配置概念的属性、关联关系及约束条件;
  • 资源映射​:建立概念与底层数据/逻辑/行动资源的绑定关系及关联规则;
  • 概念分组​:将对象类、关系类、行动类等概念进行模块化、主题化分组,提升知识组织效率;
  • 版本管理​:支持本体模型的多版本创建与切换,满足业务知识迭代需求。

例如,将“用户画像”定义为对象类,关联“消费行为”“偏好标签”等属性,通过关系类定义其与“推荐策略”的联动规则,并通过行动类声明触发推荐时调用的工具,最终映射至数据平台的用户标签表、推荐算法及工具。

逻辑流程

概念定义

创建业务知识网络

准备:在创建业务知识网络之前需要:针对业务需求,进行场景分析;确定数据来源,并创建数据视图

> 新建业务知识网络

进入本体引擎 > 业务知识网络配置页面,点击【+新建】,进入“业务知识网络”的配置信息,如下所示:

说明:

  • ID是新建的时候赋予的标志,可进行编辑;若未填写,系统会自动生成。

创建对象类

点击已创建的业务知识网络>对象类点击【+新建】,进入“对象类”的配置页面,如下所示:

说明:属性导入有两种方式包括,从数据视图导入、手动导入

>若选择从数据视图导入属性,属性定义和属性映射,系统会自动呈现结果,如下图所示:

>若选择手动导入对象类属性,在进行属性定义等需要手动操作。

说明:

  • 属性分类
    • 数据属性:与数据视图的映射,都是基本类型的属性的映射。属性类型需与数据视图的字段类型匹配。
    • 逻辑属性:与数据模型、算子、函数映射的属性,需要在属性上绑定资源 ID 以及配置对象类数据属性与逻辑资源字段的关联。
  • 主键:主键是对象类中用于唯一标识每个对象实例的一个或多个属性的组合

 

索引设置

对慢查询、弱索引、未向量化的资源,可通过设置对象类属性索引,加速提升本体查询性能。

说明:

  • 索引的三种方式
    • 关键字索引基于属性值的精确匹配索引,实现毫秒级精准筛选,适用于ID、状态、标签等结构化数据的精确查询。
    • 全文索引对文本内容进行分词后建立的索引,支持文本内容的高效模糊搜索与相关性排序,适用于文档、文章、商品描述等内容的关键词搜索。
    • 向量索引将文本转为向量后建立的语义索引,理解查询意图,实现"意思相近即匹配"的语义搜索,适用于智能问答、推荐系统、找相似等AI驱动类应用。

请根据具体使用场景来进行配置,三者常协同使用,以兼顾速度、精度与智能。

  • 分词器
    • 标准分词器
      它是一种通用型分词器,按 Unicode 文本规则将句子切分成独立的词元,并自动转为小写。其作用是为英文等西方语言提供基础且高效的分词。它适用于处理混合了多种语言的通用文本场景。

    • IK最大词分词器
      这是专为中文设计的分词器。其作用是最大限度地保留中文词汇的语义完整性,避免产生歧义。它非常适合中文内容的精准搜索和语义分析。

    • 英文分词器
      它是专门处理英文文本的分词器。除了基本的切分单词和转小写,它通常还内置了词干提取功能。其作用是将单词的不同形态(如 "running", "ran")归一化为词根("run"),从而提升召回率。它最适合纯英文内容的搜索。

 
创建关系类

点击已创建的业务知识网络>关系类点击【+新建】,进入“关系类”的配置页面,如下所示:

 

说明:

  • 建立关系映射两种方式:
    • 对象类属性与对象类属性直接连接
    • 通过数据视图将起点与终点对象类属性连接,有些场景对于两个对象类没法直接建立联系,需要通过数据视图建立连接。

创建行动类

点击已创建的业务知识网络>行动类点击【+新建】,进入“关系类”的配置页面,进行具体行动的配置并选择相关工具,如下所示:

  • 概念定义

  • 行动映射

本体建模概览

点击已创建的业务知识网络>本体建模概览,即可查看。

业务知识网络的导入/导出

本体引擎提供概念和映射的导入,支持将历史业务知识网络的配置完整导入。导入后无需重新配置视图映射。

持久化数据不再保留。按需创建索引构建任务重新生成数据索引。

本体引擎也提供业务知识网络的完成导出。

分支管理(暂未实现)

版本管理(暂未实现)

本体索引(暂未实现)

聚焦业务场景落地,提供三类核心能力:

  • 概念概览&查询​:支持沉淀的海量概念(对象类、关系类、行动类)的说明书概览、精准定位、灵活探索及关联分析(如“定位业务实体:客户、产品、订单等”,“挖掘实体间关联逻辑:客户-购买-产品、员工-负责-项目”,“检索可执行的业务动作:发送营销短信、触发风控审核、生成对账报表”);
  • 对象&关系查询​:支持复杂条件下的业务知识网络检索(如“查询所有25-35岁、月消费超5000元的女性客户群体”),通过逻辑资源调用动态计算对象属性值,通过图谱遍历技术挖掘隐性关联(如发现“高频退货客户”与“物流时效”的间接影响关系);
  • 行动查询&驱动​:将知识推理结果转化为业务动作(如根据“客户流失风险模型”自动触发挽留策略,联动CRM工具执行个性化触达)。

这种设计打破“知识沉淀”与“业务应用”的断层,实现从“数据描述”到“决策执行”的闭环。

 

附录

属性类型说明表

属性类型 说明 运用场景 简单举例
boolean 布尔值,表示真或假 状态标识、开关配置、条件判断 is_active: true
has_permission: false
is_deleted: false
short 16位有符号整数 小范围数值、状态码、优先级 age: 25
status_code: 200
priority_level: 3
integer 32位有符号整数 ID标识、数量计数、评分 user_id: 12345
quantity: 100
score: 85
long 64位有符号整数 大数值ID、时间戳、长整型计数 transaction_id: 1234567890
timestamp: 1640995200000
big_count: 9999999999
float 单精度浮点数 价格、比例、温度等精度要求不高的数值 price: 99.99
completion_rate: 0.85
temperature: 36.5
double 双精度浮点数 地理位置、精确计算、汇率 latitude: 39.9042
accuracy: 0.0001
exchange_rate: 6.4567
decimal 高精度十进制数 金融金额、利率计算、精确数值运算 amount: 12345.6789
interest_rate: 0.0525
tax_amount: 125.50
varchar 可变长度字符串 姓名、邮箱、地址等通用文本 name: "张三"
email: "该邮件地址已受到反垃圾邮件插件保护。要显示它需要在浏览器中启用 JavaScript。"
address: "北京市朝阳区"
keyword 不分词的字符串,用于精确匹配 分类标签、状态码、枚举值 category: "electronics"
status: "completed"
city_code: "BJ001"
text 分词的文本,用于全文搜索 产品描述、文章内容、评论 description: "这是一段产品描述文本"
content: "文章正文内容..."
review: "这个产品很好用"
date 日期类型(不包含时间) 生日、订单日期、事件日期 birthday: "1990-05-15"
order_date: "2024-01-20"
event_date: "2024-12-25"
datetime 日期时间类型 创建时间、更新时间、业务时间 created_at: "2024-01-20 14:30:25"
updated_at: "2024-01-20 15:45:10"
login_time: "2024-01-20 09:15:30"
timestamp 时间戳,表示从纪元开始的毫秒/秒数 系统日志、性能监控、事件时间 login_timestamp: 1642671025000
event_timestamp: 1642671000
log_time: 1642670950123
vector 向量数据,用于相似度搜索 AI特征向量、推荐系统、图像识别 embedding: [0.1, 0.2, 0.3, ...]
feature_vector: [0.85, 0.12, 0.67]
product_vector: [0.23, 0.45, 0.67, 0.89]
metric 指标数据,用于监控和度量 系统监控、业务指标、性能数据 cpu_usage: 75.5
response_time: 150
qps: 1000
memory_usage: 68.2
operator 操作符或函数引用 逻辑计算、数据处理、业务规则 calculate_score
validate_input
transform_data
risk_evaluation