更新时间:2024-04-17 09:25:31

进入Benchmark,在左侧菜单栏中选择“Benchmark配置”,进入“Benchmark配置“页面。

2.单击【新建】按钮,弹出“新建配置”对话框。在对话框中填写如下信息:

参数 说明
配置名称 名称只能由大小写字母特殊字符组成,长度为1-50位
描述 描述只能由中英文、数字、特殊字符组成,长度为0-255位
颜色 选择配置图标颜色

单击【确定】按钮后,进入配置画布流程。画布中出现配置节点,单击画布中配置节点,对配置节点相关信息进行编辑修改。

 

配置task节点

单击或悬停配置节点时,节点后出现加号,单击加号出现task节点。

单击task节点出现侧边栏,在侧边栏中填写如下信息:

参数 说明
任务名称 名称只能由大小写字母特殊字符组成,长度为1-50位
描述 描述只能由中英文、数字、特殊字符组成,长度为0-255位

填写完成后,task节点显示任务名称。

单击task节点后的【删除】按钮,出现二次确认对话框,单击【确定】按钮删除task节点。

注意:删除task节点时,该task后所有的配置完成的内容将被删除。

 

配置数据集节点

单击或悬停task节点时,节点后出现加号,单击加号数据集节点、指标节点、adapter节点和average节点一起出现。

单击数据集节点中的【新增数据集】按钮出现侧边栏。在侧边栏中完成以下配置:

(1)选择需要使用的数据集及对应的版本,数据集节点显示数据集名称。

(2)配置该数据集下文件中的inputs和outputs

注意:

1.数据集配置inputs/outputs时,至少配置一个文件,且文件中必须包含一个input和output。

2.若单一文件中选择多个output或选择多个文件进行配置时,需要修改adapter将多个output转换为统一output格式输出给指标。

(3)删除不需要的数据集时,单击数据集节点中对应数据集名称后的删除按钮,或单击在侧边栏右上角【删除】按钮,出现二次确认对话框,单击【确定】按钮,删除数据集。

(4)删除数据集节点时,单击数据集节点右上角的【删除】按钮,出现二次确认对话框,单击【确定】按钮,删除数据集节点。

注意:删除数据集节点时,该数据集节点后的指标节点、adapter节点一并清空,当仅剩一条链路时,Average节点也会被清空。

 

配置指标节点

单击指标节点中【新增指标】按钮出现侧边栏。在侧边栏中完成以下配置:

(1)选择指标库中需要用到的指标。单击指标查看指标的具体信息。

(2)在未找到需要使用的指标时,单击【前往指标库】按钮进入一个新的指标库界面进行导入后,刷新列表进行选择。

(3)删除不需要的指标时,单击指标节点中对应的指标名称后的【删除】按钮删除。

 

配置Adapter节点

单击Adapter节点,出现侧边栏。在侧边栏中完成以下配置:

(1)单击【选择文件】按钮,出现系统对话框,选择需要上传的文件

(2)文件上传完成出现预览界面,可以预览该文件下的内容

(3)单击【文件切换】按钮可以预览不同文件下的内容

(4)悬停或单击上传的文件时出现删除按钮,单击【删除】按钮可以删除文件。

注意:

(1)Adapter用于适配数据集、指标的输入输出格式,使数据可以顺利流转。在数据集配置时,若单一文件中选择多个output或选择多个文件,需要调整adapter示例模版进行上传以适应数据流转。

(2)上传的文件格式要求python。支持上传一个文件且文件大小不超过2M。

(3)单一任务存在多个数据集及指标时,需要上传多个adapter文件确保数据集的outputs与指标的inputs一一匹配

 

Adapter的不同使用情况

文件数 output Adapter
1个文件 1个output ❌已内置,无需手动配置(场景一)
1个文件 多个output ✅手动修改配置(场景二)
2个文件及以上,且表头相同 1个output ❌已内置,无需手动配置
2个文件及以上,且表头相同 多个output ✅手动修改配置
2个文件及以上,且表头不同 1个output ✅手动修改配置
2个文件及以上,且表头不同 多个output ✅手动修改配置

1)内置Adapter规则

(1)若使用大模型时,Adapter会将数据自动的转为字符串

(2)若使用小模型时,Adapter会保留数据原有格式

2)Adapter示例模版为将数据自动的转为字符串,若需要保留数据的原有格式,则执行下方操作:

(1) 将文件中片段代码删除

(2)并替换为下方代码片段,即可保留数据原有格式

 dictInfo[column_name] = info[column_name]                                         

3)内置的Adapter会将所有数据转化为键值对。若不需要键值对数据结构。

(1)将文件如下片段代码删除

(2)并替换为下方代码片段

 

场景一:配置1个数据文件+1个Output的Adapter

以数据集文件data_llm的版本1(data_llm_V1.0)为例:

Query Positive Document
我想查找关于足球比赛的信息,尤其是欧洲杯的赛程和参赛队伍,以及各队伍的历史成绩和球员名单。 欧洲杯足球赛将于2022年6月11日至7月11日进行,共有24支队伍参加。以下是各队伍的赛程安排和历史成绩概览:... 请参考球员名单以了解更多信息。
在高温和湿度大的工作环境中,头发易变得油腻且失去光泽,需要日常护理来保持头发健康,有哪些护理方法和产品推荐? 高温高湿的工作环境下,头发很容易出油并且失去光泽。为了保持头发健康,建议每天使用含有天然植物成分的洗发水进行清洁,并定期使用发膜进行深层护理。每周至少进行一次头皮按摩,以促进血液循环,增强头发营养吸收。此外,可以考虑使用含有防晒成分的护发素,以保护头发免受紫外线的伤害。

以指标long_bench为例:

评测长文本理解能力,计算rouge得分。

类型 参数名称 参数说明
Inputs correct_answers 正确答案,类型为list[str]
Inputs answer 算法给出的答案,类型为list[str]
Outputs score longbench得分,rouge

当前情况下无需编写Adapter,Adapter输出结果

 

场景二:配置1个数据文件+2个Output的Adapter

以数据集文件data_llm的版本1(data_llm_V1.0)为例:

Query Positive Document Hard Negative Document
我想查找关于足球比赛的信息,尤其是欧洲杯的赛程和参赛队伍,以及各队伍的历史成绩和球员名单。 欧洲杯足球赛将于2022年6月11日至7月11日进行,共有24支队伍参加。以下是各队伍的赛程安排和历史成绩概览:... 请参考球员名单以了解更多信息。 篮球世界杯即将来临,这里有一些关于篮球世界杯的热门话题和比赛信息,比如赛程、队伍分布等。
在高温和湿度大的工作环境中,头发易变得油腻且失去光泽,需要日常护理来保持头发健康,有哪些护理方法和产品推荐? 高温高湿的工作环境下,头发很容易出油并且失去光泽。为了保持头发健康,建议每天使用含有天然植物成分的洗发水进行清洁,并定期使用发膜进行深层护理。每周至少进行一次头皮按摩,以促进血液循环,增强头发营养吸收。此外,可以考虑使用含有防晒成分的护发素,以保护头发免受紫外线的伤害。 工作环境中,长时间面对电脑和强光,容易导致眼睛疲劳和视力下降,应采取何种防护措施?

以指标long_bench为例:

评测长文本理解能力,计算rouge得分。

类型 参数名称 参数说明
Inputs correct_answers 正确答案,类型为list[str]
Inputs answer 算法给出的答案,类型为list[str]
Outputs score longbench得分,rouge

编辑Adapter

1.创建BenchMark配置,在画布中分别配置数据集为“data_llm_V1.0”、指标为“long_bench”

2.单击“Apadter”,在侧边栏中,下载示例模版

3.因指标类型为list[dict]。

(1)将“Apadter示例模板“中下方代码删除

(2)并替换为下方代码片段

4.将修改后的Adapter文件进行上传使用

如图所示为Adapter输出结果

注意:

1.若选择任意数据集或指标并直接下载示列,则手动将“test123_V1_0”替换成数据集名称、“ToMetricName”替换为指标名称

2.若配置数据集名称中含除中文、英文及数字以外的字符,系统将自动替换为“_”

 

配置Average节点

单击average节点出现侧边栏,选择平均值中所需要配置的outputs

注意:benchmark榜单中的平均分由配置里选中的metric平均值组成

 

单击画布上方工具栏中的【清空配置】按钮,画布中配置好的配置项清空只剩配置节点。

完成配置后单击【保存】按钮,保存配置完成的benchmark配置。

完成配置后单击【发布】按钮,发布配置完成的benchmark配置。