更新时间:2024-09-02 11:10:29

功能概述

用于创建并运行衡量评估对象性能的任务,并记录相关性能指标。

 

前提条件

1.已创建指标与benchmark配置,请参见benchmark配置

2.提前准备好提示词、评估对象。其中评估对象包含:Agent、大模型、小模型、自定义应用、外部接入的评估对象。

 

操作指引

从“主页”进入"Benchmark",在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务”页面。

 

新建Benchmark任务

填写如下信息:

(1)任务名称

  • 待创建benchmark任务的名称。

(2)Benchmark配置

  • 选择已创建的Benchmark配置。
    1. 已发布支持在“操作>查看结果”或者直接在榜单中查看测评结果
    2. 未发布仅支持在“操作>查看结果”看测评结果

(3)评估对象类型

  • 选择Agent、大模型、小模型、自定义应用或外部接入。

(4)选择评估对象

  • Agent:支持选择多个Agent

  • 大模型:选择一个大模型和一个提示词为一组评估对象

  • 小模型:支持选择多个小模型

  • 自定义应用:支持选择多个自定义应用

  • 外部接入:每个评估对象需要输入名称和URL

(5)上传Adapter文件

  • Adapter用于适配数据集、评估对象、指标的输入输出格式,使数据可以顺利流转。Benchmark任务中Adapter是将数据集Input转换为评估对象的Input。Adapter编写格式主要取决于评估对象的Input。
算法 情况 Adapter
提示词+大模型 数据的Input和提示词的参数完全一致 ❌无需配置
提示词+大模型 数据的Input和提示词的参数不一致 ✅ 手动修改配置
小模型、自定义应用、外部接入 数据中只能存在一个Input 可能存在配置情况

a.内置的Adapter会将所有数据转化为字符串格式。若需要保留原始格式:

  •  单击下载【示例模板】,在示例中将如下片段代码删除

  • 并替换为下方代码片段

   dictInfo[column_name] = info[column_name]                                                                                                

b.内置的Adapter会将所有数据转化为键值对。若不需要键值对数据结构:

  • 将文件如下片段代码删除

  • 并替换为下方代码片段

(6)填写描述及选择颜色

(7)完成后,单击下方的【运行】按钮

 

编辑任务

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。

2.在任务列表中,单击“操作 > 编辑”,进入编辑任务流程。

 

复制任务

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。

2.在任务列表中,单击“操作 > 复制”,进入复制任务流程。

 

任务详情

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。

2.在任务列表中,单击“操作 > 运行”,运行任务稍后查看结果。

3.在任务列表中,单击状态,可以查看任务的运行状态及日志

查看任务配置

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表中,单击“操作 > 查看任务配置”,即可预览任务配置详情

查看结果

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表中,单击“操作 >查看结果”,即可查看运行结果

删除任务

1.如果您创建的任务将不再使用,您可以删除任务以释放资源。
2..进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
3.在任务列表中,单击“操作 > 删除”,弹出删除确认弹窗。
4.单击【确定】按钮,确认删除任务。