通用
术语 | 定义 |
领域 |
领域是“特定的行业或者技术范畴”,例如:按照行业划分:智慧城市、制造业、建筑设计,按照技术划分:智能运维、知识管理。 |
认知智能 |
认知智能是让机器具备以知识为基础的理解和推理能力,最终辅助用户决策。认知智能的核心能力是“理解”和“解释”,体现在机器能够解释数据、解释过程进而解释现象的能力,体现在推理、规划等等一系列人类所独有的认知能力上。 |
领域认知智能 |
在 AGI 时代面向特定技术或行业领域,基于领域数据对大模型进行预训练或调优,并利用知识工程将私域数据加工成领域知识网络。将两种技术结合,让计算机具备面向特定领域的理解、推理、归纳等认知能力。 |
领域知识 |
领域知识就是指一组有内在联系的知识的集合,它往往与特定的职业、研究方向、兴趣、社群或文化圈层等相关联。 |
概念 |
概念是人类对一个复杂的过程或事物的理解。表达概念的语言形式是词或词组。概念都有内涵和外延,概念的内涵就是指这个概念的含义,即该概念所反映的事物对象所特有的属性。概念的外延就是指这个概念所反映的事物对象的范围,即按不同概念操作性质确定的不同概念分类的父子顺序。比如人的概念和男人的概念,一方面是概念是有其内涵的,另一方面,概念的适用范围决定了父子分类。 |
数据知识化 |
数据知识化是指从全域数据中抽取知识形成领域知识网络的过程。 |
数据产品化 |
数据产品化是利用AnyDATA开发领域认知应用,并将其作为数据产品发布至认知应用工厂以供后续使用的过程。 |
业务智能化 |
业务智能化是指利用人工智能、大数据等数字化技术,与企业核心业务深度结合,构建智能化业务系统和解决方案。这可以显著提升企业在产品设计、业务运营、决策支撑等方面的认知能力,从而实现效率翻倍、用户满意度提升等效果。 |
AnyDATA Framework 3 |
AnyDATA Framework 3是AGI时代的领域认知智能框架。旨在基于大模型中立战略,帮助千行百业的客户更加安全、经济地使用好大模型,实现领域认知智能应用,共创智能世界。 |
领域大模型 |
领域大模型是指通用大模型在行业领域内应用,为解决行业问题利用行业数据调优的大模型。 |
大模型中立 |
大模型中立的意思是,对于所有的大模型都一致对待,可以接入任何公共或者私有大模型,大模型中立可以使得用户在落地大模型应用时,接入已有的模型而无需重新训练。 |
检索增强生成模式(RAG模式) |
检索增强模式(Retrieval Augment Generation,简称 RAG )是指在大语言模型推荐生成时,使用私域数据/领域知识进行检索召回。领域知识库包括向量数据库、知识图谱、关系数据库等。可以充分发挥大模型的推理能力和创造能力,本地数据和知识库的准确、及时、可解释性。 |
认知工作台 |
认知工作台主要包含模型工厂、知识网络工作台、认知应用工作台三大核心组件,支持用户使用领域大模型、领域认知网络开发领域认知应用数据产品,以供后续通过合规数据交易实现数据资产变现。 |
认知应用工厂 |
认知应用工厂提供多租户的领域认知应用的托管空间,不同数商或企业都可以通过AnyDATA认知工作台将开发好的领域认知应用托管到认知应用工厂,由认知应用工厂正式提供服务。 |
AnyDATA Core |
AnyDATA Core是面向开发者的基础库,可用于自定义认知应用的开发和认知应用的上层整合。它提供了灵活性和自定义性,以满足各种领域的需求。 |
模型工厂
术语 | 定义 |
模型工厂 |
模型工厂基于大模型中立策略,让数据科学家能够快速接入各种大模型,通过提示词工程实现领域专业性和系统性的任务评估和优化。同时可以接入传统的机器学习和深度学习模型,提供模型使用的灵活性和多样性。 |
模型评估 |
模型评估是指评估模型的质量,有助于确定模型是否足够准确,以满足特定的任务或问题需求。用于确定模型的性能和有效性。 |
模型微调 |
模型微调(Finetune)是指对一个已经训练好的基础模型进行微调以适应特定任务或问题。 |
领域算法模型 |
领域算法模型是基于知识网络,通过机器学习、深度学习的方式训练出来的模型,包括意图理解模型、推荐模型、知识抽取模型、召回排序模型等,可以支持基于知识网络的复杂分析和推理场景。 |
文档知识模型 |
文档知识模型是一种通用的文档知识抽取模型,利用规则抽取和深度学习模型抽取出文档结构及文档内部知识,并建立文档之间的关联。 |
合同模型 |
合同模型是一种自动抽取合同要素及其关系的模型。 |
科技新闻模型 |
科技新闻模型是基于科技领域的新闻抽取模型,包含论文、作者、产品、公司等实体及其关系。 |
百科知识模型 |
百科知识模型是用于从非结构化文本抽取百科知识中的实体和关系的模型。 |
软件文档知识模型 |
软件文档知识模型是基于软件领域的文档知识抽取模型。 |
提示词 |
提示词是指用于引导和指导文本生成或文本理解模型的输入文本。它们用于启发模型产生针对特定任务或特定问题的输出。 |
提示词工程 |
提示词工程是指使用语言模型进行生成性任务时,设计和调整输入提示以改善模型生成结果的过程。提示词工程包括提示词开发和提示词测评。 |
提示词开发 |
提示词开发是指设计和开发用于引导用户输入的提示词的过程。 |
提示词测评 |
提示词测评是指对提示词的效果和质量进行评估的过程,方法是评估提示词输出的准确性、可理解性、覆盖范围等方面的性能。 |
知识网络工作台
术语 | 定义 |
知识网络工作台 |
知识网络工作台支持一站式的知识网络构建,包括领域概念库、领域知识图谱、领域规则库等各种丰富知识表示的构建。此外,它还充分利用大模型能力,支持大模型辅助抽取领域概念知识、实体关系知识和事件知识,从而积累高质量的领域概念、领域知识图谱等形式化知识。这不仅形成了一个知识增强的正循环,还为检索增强生成(RAG)提供了强大的支持,从而能够更精准地检索相关信息和提供更高质量的问答结果。 |
领域数据 |
领域数据是属于某个领域的、经过治理的数据集合,可以用于构建领域概念知识、领域知识图谱、训练领域算法模型、支持领域认知应用。 |
数据探查 |
数据探查是指对数据集进行初步的探索性分析,旨在发现数据中的特征、趋势、异常值、缺失值以及可能存在的关联关系等信息。 |
领域知识网络 |
领域知识网络是围绕领域本体模型的知识表示集合,包括领域概念库、领域知识图谱、领域规则库、领域数据。 |
领域知识图谱 |
领域知识图谱是结构化的语义知识库,用于描述领域内对象及其关系。基本单位是“实体-关系-实体”构成的三元组。 |
领域概念库 |
领域概念库是一种组织和管理概念的知识表示,它是一个集合,记录和存储了各种概念、术语、定义和它们之间的关系。 |
领域规则库 |
领域规则库是某一领域业务规则的集合。领域业务规则是指对业务定义和约束的描述,这里特指计算机能够读取和进行逻辑判断的业务规则。 |
本体库 |
本体库是多个本体的集合。 |
词库 |
词库指的是一个包含词汇、术语、短语的集合,可以被用于自然语言处理任务。在分词、实体识别、标签抽取等场景有很大的作用。 |
术语库 |
术语库是将一个个松散的术语通过上下位、隶属于、近义词等关系联系起来,构成一套完整的语义体系。 |
向量数据库 |
向量数据库是一种专门用于存储和处理向量数据的数据库系统。文本在向量化后会保留语义信息,从而实现基于语义相似度的快速检索。这对于大模型在文档类数据的检索生成(RAG)模式应用广泛。也可以被用于进行意图理解等自然语言理解任务。 |
本体 |
本体是某个领域中抽象概念的集合,能够描述某个范围内一切事物的共有特征以及事物间的关系。 |
数据源 |
数据源是指构建知识网络的数据来源。 |
实体 |
实体是客观世界中存在的可互相区分的客观对象或抽象概念。如具体的人、事、物。 |
实体类 |
实体类是实体按照类型的分组,每个实体类里的实体有着相同的属性和关系结构。例如:【爱数】是【公司】,【公司】是【爱数】的实体类。 |
关系 |
关系是指实体与实体之间的联系,如父子关系。 |
关系类 |
关系类是关系按照类型的分组,每个关系类里的关系有着相同的属性和连接实体结构。例如:中国 -【首都】- 北京,德国 - 【首都】- 柏林,分别表示了两个国家与两个城市的关系,但是他们都属于一个类型:【首都】。 |
属性 |
属性是描述实体或关系某方面的特征,如人的身高、体重。 |
属性索引 |
属性索引是指针对实体或关系的某个或某些属性建立索引,以便检索实体或关系。 |
知识表示 |
知识表示是对知识的一种描述,或者说是对知识的一组约定,一种计算机可以接受的用于描述知识的数据结构。 |
知识抽取 |
知识抽取是利用规则或者抽取模型将来自不同来源、不同结构的数据中的知识点抽取出来。知识抽取是将非结构化数据或半结构化数据结构化的手段,抽取出来的知识可以用构建知识图谱、概念库、词库等知识表示方式。 |
关系抽取 |
关系抽取指的是识别文本中实体之间的关系。例如,从一篇新闻中抽取出人物之间的关系,如父子关系、合作关系等。关系抽取可以帮助建立实体之间的连接,形成结构化的知识网络。 |
事件抽取 |
事件抽取是指识别和提取文本中的特定事件。事件可以是某个动作或活动的描述,如会议、比赛、交易等。通过事件抽取,可以将事件信息从文本中提取出来,并进行结构化的组织。 |
属性抽取 |
属性抽取是指识别文本中描述实体特征或属性的信息。这些属性可以是实体的性别、年龄、职业等。通过属性抽取,可以将实体的属性信息提取出来,形成结构化的数据。 |
概念抽取 |
概念抽取是指识别文本中的特定概念或主题。通过对文本进行概念抽取,可以得到关于特定领域或主题的关键词或短语,以便进行知识的组织和分类。 |
知识映射 |
知识映射是知识图谱构建的专属流程,目的是建立从基础数据中抽取的结构化信息与所创建的知识图谱中的实体、属性、实体间相互关系的映射。 |
知识融合 |
知识融合是指融合来自多个数据来源的关于同一个实体的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。(例如:【上海爱数】与【上海爱数信息技术股份有限公司】是同一个实体需要融合)。 |
实体识别 |
实体识别是指识别文本中的具体实体,如人名、地名、组织名、日期等。通过实体识别,可以标注并提取出文本中有关特定实体的信息。 |
实体链接 |
实体链接是将文本中的命名实体(如人名、地名、组织名等)与知识图谱或概念库中的实体进行匹配和关联。可用于信息检索、标签提取、知识图谱构建等场景。 |
领域智商 |
领域智商即领域知识网络的智商,用于衡量某个领域知识网络在该领域认知智能应用时,可达到的智慧程度,它是领域知识网络的价值量化指标,由认知能力、知识量、知识质量三个指标综合量化。 |
知识质量 |
知识质量,指的是知识网络的数据质量,ADF2的知识质量目前由两个维度组成,分别是数据重复率以及数据缺失率。 |
认知能力 |
特指机器的认知能力,包括理解、推理和判断的能力。对于领域智商的评估,指的是基于领域知识网络的领域认知服务完成特定任务的能力,进行量化的评价。如对用户输入的问题理解的准确率,知识抽取的准确率,回答问题准确率等指标。 |
知识量 |
知识量是领域知识网络中知识的总量,为领域知识网络中所有知识表示形式的知识量的总和。 |
认知应用工作台
术语 | 定义 |
认知应用工作台 |
认知应用工作台提供低代码开发工具,开发者可以基于大模型、提示词、知识组件和第三方认知应用组件,快速开发、发布和集成复杂的领域认知应用。 |
认知应用 |
认知应用是一种通过组件化开发的应用程序,利用大模型、知识网络和检索增强生成(RAG)技术,实现对信息的理解、推理和生成。 |
组件 |
组件是认知应用的基本单位,可以自由组合,形成问答、搜索、分析等各类应用。组件分为意图理解组件、分析组件、提示词组件、记忆组件等。 |
图分析 |
图分析组件是指基于图结构的图计算查询方式,旨在提供对特定知识图谱的可视化探索和分析能力,图分析组件可以将图分析技术用于开发认知应用。 |
认知搜索 |
认知搜索组件是基于领域知识网络和领域大模型等技术,能够理解用户语义,实现知识图谱全文搜索、图谱问答、知识推荐等能力,帮助用户高效率获取领域知识的组件。 |
智能问答 |
智能问答组件能理解用户的意图,通过对话形式与用户进行互动,并在领域知识库中搜寻并返回最合适的答案。 |
关系型数据查询 |
关系型数据查询组件是一种基于关系型数据库实现自定义查询接口的服务,目的在于能够让客户根据业务需求,在线开发接口并发布成API服务,实现快速开发和集成的效果。 |
自定义应用 |
自定义应用是一种基于认知应用工作台的开发模式,通过引入图分析组件和认知搜索组件,用户可以对现有的认知应用进行修改和扩展,或者创建全新的自定义应用。 |
图算法 |
图算法是一类用于处理和分析图数据结构的算法。图算法主要用于解决与图相关的各种问题,包括路径搜索、连通性检测、最短路径、网络流、图的遍历等等。 |
社区发现 |
用户可以通过社区发现算法,自动识别图谱中的社区结构,以便发现节点之间的群组关系。 |
中心性计算 |
用户可以计算节点的中心性指标,如度中心性、介数中心性等,以便评估节点的重要性。 |
环检测 |
用户可以检测图谱中的环结构,以便发现循环依赖或其他特定的关联关系。 |
管理控制台
术语 | 定义 |
管理控制台 |
管理控制台为系统管理员提供用户角色管理和资源管理的功能。 |
数据科学家 |
数据科学家是指运用AnyDATA认知智能框架面向业务问题进行建模、训练、预测,实现数据知识化的工程师或专家。 |
应用开发者 |
应用开发者是指运用AnyDATA认知智能框架进行认知智能应用开发的工程师。 |
数据工程师 |
数据工程师是指运用AnyDATA认知智能框架进行知识网络构建的工程师。 |