更新时间:2026-02-10 11:16:51

索引词库和去停词库

索引词库:通过配置【索引词库】,在用户进行搜索时,系统可以根据词库中的内容对文档内容进行分词,更好地匹配用户搜索输入的关键词。

停用词库:用户在搜索时,不可避免会输入一些干扰性词语,会影响搜索结果的准确性。上传【去停词库】后,用户在搜索时输入词库内包含内容时,系统将不进行匹配。

› 上传词库

管理员点击【上传词库】,可以选择上传索引词库或去停词库。

然后选择本地整理好的词库进行上传即可。管理员也可以下载词库范例,进行参考。

上传后,管理员可以对已上传的词库进行下载或者删除等管理。

文档解析策略

文档解析策略模块为管理员提供了针对指定文档库/文件夹的可视化统一管理界面,超级管理员/系统管理员可根据文档内容特征与实际查询需求,自定义全文索引、向量索引规则,使系统精准适配各业务场景的检索需求,为AnyShare智能检索及RAG(检索增强生成)能力提供底层支撑。

配置文档解析策略时,管理员可自定义分段规则,将长文档拆分为适配大模型处理的语义单元,提升问答生成的准确性。同时可通过限制文件大小、解析结果体积等参数,平衡系统检索效率与运行性能,最终实现检索结果的精准匹配,帮助终端用户高效定位、获取所需信息。

管理员可登录管理控制台,进入【智能搜索】>【文档解析策略】配置页面,点击【新建解析策略】,即可进入策略配置向导完成相关设置,具体配置步骤如下:

1. 指定策略应用范围

设置策略生效的范围类型,可为文档库或指定文件夹配置解析策略。

2. 配置索引策略

1)全文索引配置

• 索引开关:开启后,策略范围内的文档将基于以下策略规则创建全文索引及向量索引;关闭则不创建。

• 解析规则:策略范围内的文档将按照此规则进行全文索引。

– 文档大小:设置需要创建索引的文件大小上限(支持输入1-100的整数),避免过大文件导致索引队列拥堵,进而造成资源过度消耗,影响系统响应速度。

– 文档类型:点击下拉框,勾选支持全文索引的文件类型及具体的后缀名。通过筛选支持的文件类型,可减少无效解析,提升索引效率和质量。

– 解析结果:设置文件解析结果的大小上限(支持输入0-1024整数数字),避免索引存储成本及检索时计算负载过大。

– 内联图片识别:勾选后可提取文档中图片的文字内容,进一步增强检索覆盖范围。该过程会消耗额外的OCR计算资源,管理员可以在精准检索图片文字的场景中,开启此功能,提升检索全面性。

• 索引优先级:策略的索引优先级越高,该策略范围内的文档将会优先创建全文索引。

2)配置向量索引策略

• 索引开关:开启后,策略范围内的文档将创建向量索引,用于大模型语义检索;关闭则不创建。

• 解析规则:策略范围内的文档将按照此规则进行向量索引。

提示:配置逻辑与全文索引一致。

• 分段策略:大模型上下文窗口长度有限,直接输入长文档会导致信息丢失或语义断裂,分段后在保证文档语义完整的同时提升大模型理解与生成的准确性。

-自定义策略:支持自定义分段标识、最大长度和预处理规则等进行定义,适合对长文档进行精细化拆分。适用于无固定结构的长文本,管理员通过自定义规则进行拆分和预处理。

-结构层级分割:按文档自身的层级结构(如章节、段落)进行分段,保留原始语义逻辑。适用于具有清晰章节结构的文档,基于此拆分方法,可以保留文档内容上下文的连贯性。

3. 选择策略应用范围

配置策略生效的具体文档库或文件路径。

当应用策略类型为“指定文档库”时:

当应用策略类型为“指定文件夹”时:

提示:最多支持应用到100个文件夹目录。

所有配置完成后,点击【确定】即可。

提示:解析策略对文件的生效遵循就近原则:若文件所在文档库已应用解析策略 1,且其所属文件夹同时应用了解析策略 2,则该文件将优先按照解析策略 2 执行。

搜索配置

终端用户使用搜索时,能够在管理控制台查看到用户使用最多的关键词。系统管理员能够在【搜索配置】模块对热搜词进行统一管控,防止出现不合规的热搜词,删除后的热搜词将不会显示在智能搜索中。

手动添加热搜词:系统管理员进入管理控制台【智能搜索】-【搜索配置】页面,勾选开启热搜词后,用户在智能搜索页面触发搜索时将会展示配置的5个热搜词。具体操作如下:

点击【添加热搜词】,管理员可以在配置窗口中设置关键词、热度排序和有效时间。