更新时间:2024-07-24 13:14:21

功能概述

用于创建并运行评估算法性能的任务,并记录相关性能指标。

 

前提条件

1.已创建指标与benchmark配置,请参见benchmark配置

2.提前准备好提示词、算法。其中算法包含:大模型、小模型、自定义应用、外部接入。

 

操作指引

从“主页”进入"Benchmark",在左侧菜单栏中选择“Benchmark任务”,选择指标进入“Benchmark任务“页面。

 

新建Benchmark任务

填写如下信息:

(1)任务名称

  • 待创建benchmark任务的名称。

(2)Benchmark配置

  • 选择已创建的Benchmark配置。
    1. 已发布支持在“操作>查看结果”或者直接在榜单中查看测评结果
    2. 未发布仅支持在“操作>查看结果”看测评结果

(3)算法类型

  • 选择大模型、小模型、自定义应用、外部接入。

(4)选择算法

  • 大模型:选择一个大模型和一个提示词为一组算法

  • 小模型:支持选择多个小模型

  • 自定义应用:支持选择多个自定义应用

  • 外部接入:每个算法需要输入算法名称和URL

(5)上传Adapter文件

  • Adapter用于适配数据集、算法、指标的输入输出格式,使数据可以顺利流转。Benchmark任务中Adapter是将数据集Input转换为算法的Input。Adapter编写格式主要取决于算法的Input。
算法 情况 Adapter
提示词+大模型 数据的Input和提示词的参数完全一致 ❌无需配置
提示词+大模型 数据的Input和提示词的参数不一致 ✅ 手动修改配置
小模型、自定义应用、外部接入 数据中只能存在一个Input 可能存在配置情况

a.内置的Adapter会将所有数据转化为字符串格式。若需要保留原始格式:

  •  单击下载【示例模板】,在示例中将如下片段代码删除

  • 并替换为下方代码片段

   dictInfo[column_name] = info[column_name]                                                                                                

b.内置的Adapter会将所有数据转化为键值对。若不需要键值对数据结构:

  • 将文件如下片段代码删除

  • 并替换为下方代码片段

(6)填写描述及选择颜色

(7)完成后,单击下方的【运行】按钮

 

编辑任务

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。

2.在任务列表/卡片中,单击“操作 > 编辑”,进入编辑任务流程。

 

任务详情

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。

2.在任务列表/卡片中,单击“操作 > 运行”,运行任务稍后查看结果。

3.在任务列表/卡片中,单击状态,可以查看任务的运行状态及日

查看任务配置

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表/卡片中,单击“操作 > 查看任务”,即可预览任务详情

查看结果

1.进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
2.在任务列表/卡片中,单击“操作 >查看结果”,即可查看运行

删除任务

1.如果您创建的任务将不再使用,您可以删除任务以释放资源。
2..进入Benchmark,在左侧菜单栏中选择“Benchmark任务”,进入“Benchmark任务“页面。
3.在任务列表/卡片中,单击“操作 > 删除”,弹出删除确认弹窗。
4.单击【确定】按钮,确认删除任务。