我在这里:
帮助文档中心
AnyDATA Framework 3
操作指南
Benchmark
Benchmark任务

Benchmark任务

更新时间：2025-09-29 16:43:25

› 功能概述

用于创建并运行衡量评估对象性能的任务，并记录相关性能指标。

› 前提条件

1.已创建指标与Benchmark配置，请参见Benchmark配置。

2.提前准备好提示词、评估对象。其中评估对象包含：Agent、大模型、小模型、自定义应用、外部接入的评估对象。

› 操作指引

从“主页”进入"Benchmark"，在左侧菜单栏中选择“Benchmark任务”，进入“Benchmark任务”页面。

新建Benchmark任务

填写如下信息：

（1）任务名称

- 待创建Benchmark任务的名称。

（2）Benchmark配置

- 选择已创建的Benchmark配置。

1. 1. 已发布支持在“操作>查看结果”或者直接在榜单中查看测评结果
  2. 未发布仅支持在“操作>查看结果”看测评结果

（3）评估对象类型

- 选择Agent、大模型、小模型、自定义应用或外部接入。

（4）选择评估对象

- Agent：支持选择多个Agent

- 大模型：选择一个大模型和一个提示词为一组评估对象

- 小模型：支持选择多个小模型

- 自定义应用：支持选择多个自定义应用

- 外部接入：每个评估对象需要输入名称和URL

（5）上传Adapter文件

- Adapter用于适配数据集、评估对象、指标的输入输出格式，使数据可以顺利流转。Benchmark任务中Adapter是将数据集Input转换为评估对象的Input。Adapter编写格式主要取决于评估对象的Input。

算法	情况	Adapter
提示词+大模型	数据的Input和提示词的参数完全一致	❌无需配置
提示词+大模型	数据的Input和提示词的参数不一致	✅ 手动修改配置
小模型、自定义应用、外部接入	数据中只能存在一个Input	可能存在配置情况

a.内置的Adapter会将所有数据转化为字符串格式。若需要保留原始格式：

- 单击下载【示例模板】，在示例中将如下片段代码删除

- 并替换为下方代码片段

dictInfo[column_name] = info[column_name]

b.内置的Adapter会将所有数据转化为键值对。若不需要键值对数据结构：

- 将文件如下片段代码删除

- 并替换为下方代码片段

（6）填写描述及选择颜色

（7）完成后，单击下方的【运行】按钮

编辑任务

1.进入Benchmark，在左侧菜单栏中选择“Benchmark任务”，进入“Benchmark任务“页面。

2.在任务列表中，单击“操作 > 编辑”，进入编辑任务流程。

复制任务

1.进入Benchmark，在左侧菜单栏中选择“Benchmark任务”，进入“Benchmark任务“页面。

2.在任务列表中，单击“操作 > 复制”，进入复制任务流程。

任务详情

1.进入Benchmark，在左侧菜单栏中选择“Benchmark任务”，进入“Benchmark任务“页面。

2.在任务列表中，单击“操作 > 运行”，运行任务稍后查看结果。

3.在任务列表中，单击状态，可以查看任务的运行状态及日志

查看任务配置

1.进入Benchmark，在左侧菜单栏中选择“Benchmark任务”，进入“Benchmark任务“页面。
2.在任务列表中，单击“操作 > 查看任务配置”，即可预览任务配置详情

查看结果

1.进入Benchmark，在左侧菜单栏中选择“Benchmark任务”，进入“Benchmark任务“页面。
2.在任务列表中，单击“操作 >查看结果”，即可查看运行结果

删除任务

1.如果您创建的任务将不再使用，您可以删除任务以释放资源。
2..进入Benchmark，在左侧菜单栏中选择“Benchmark任务”，进入“Benchmark任务“页面。
3.在任务列表中，单击“操作 > 删除”，弹出删除确认弹窗。
4.单击【确定】按钮，确认删除任务。

< 上一篇：

下一篇： >

以上内容是否对您有帮助？

如果遇到产品相关问题，您可咨询在线客服寻求帮助。

在文档使用中是否遇到以下问题：

内容错误

更新不及时

链接错误

缺少代码/图片示例

太简单/步骤待完善

其他

更多建议：

0/200

提交建议