功能概述
用于创建并运行衡量评估对象性能的任务,并记录相关性能指标。
前提条件
1.已创建指标与benchmark配置,请参见benchmark配置。
2.提前准备好提示词、评估对象。其中评估对象包含:Agent、大模型、小模型、自定义应用、外部接入的评估对象。
操作指引
从“主页”进入"Benchmark",在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务”页面。
新建Benchmark任务
填写如下信息:
(1)任务名称
- 待创建benchmark任务的名称。
(2)Benchmark配置
- 选择已创建的Benchmark配置。
-
- 已发布支持在“操作>查看结果”或者直接在榜单中查看测评结果
- 未发布仅支持在“操作>查看结果”看测评结果
(3)评估对象类型
- 选择Agent、大模型、小模型、自定义应用或外部接入。
(4)选择评估对象
- Agent:支持选择多个Agent
- 大模型:选择一个大模型和一个提示词为一组评估对象
- 小模型:支持选择多个小模型
- 自定义应用:支持选择多个自定义应用
- 外部接入:每个评估对象需要输入名称和URL
(5)上传Adapter文件
- Adapter用于适配数据集、评估对象、指标的输入输出格式,使数据可以顺利流转。Benchmark任务中Adapter是将数据集Input转换为评估对象的Input。Adapter编写格式主要取决于评估对象的Input。
算法 | 情况 | Adapter |
提示词+大模型 | 数据的Input和提示词的参数完全一致 | ❌无需配置 |
提示词+大模型 | 数据的Input和提示词的参数不一致 | ✅ 手动修改配置 |
小模型、自定义应用、外部接入 | 数据中只能存在一个Input | 可能存在配置情况 |
a.内置的Adapter会将所有数据转化为字符串格式。若需要保留原始格式:
- 单击下载【示例模板】,在示例中将如下片段代码删除
- 并替换为下方代码片段
dictInfo[column_name] = info[column_name]
b.内置的Adapter会将所有数据转化为键值对。若不需要键值对数据结构:
- 将文件如下片段代码删除
- 并替换为下方代码片段
(6)填写描述及选择颜色
(7)完成后,单击下方的【运行】按钮
编辑任务
1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表中,单击“操作 > 编辑”,进入编辑任务流程。
复制任务
1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表中,单击“操作 > 复制”,进入复制任务流程。
任务详情
1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表中,单击“操作 > 运行”,运行任务稍后查看结果。
3.在任务列表中,单击状态,可以查看任务的运行状态及日志
查看任务配置
1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表中,单击“操作 > 查看任务配置”,即可预览任务配置详情
查看结果
1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表中,单击“操作 >查看结果”,即可查看运行结果
删除任务
1.如果您创建的任务将不再使用,您可以删除任务以释放资源。
2..进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
3.在任务列表中,单击“操作 > 删除”,弹出删除确认弹窗。
4.单击【确定】按钮,确认删除任务。