更新时间:2024-07-22 09:50:47

功能概述

模型评估是机器学习流程中用于确定训练模型性能的环节。它通过一系列定量指标,如准确率、召回率、F1分数、均方误差等,来衡量模型对测试数据的预测能力。此外,模型评估还包括对模型泛化能力的测试,确保其在未见过的数据分析上也能表现出色。常用的评估方法有交叉验证、引导方法等,旨在为模型的实用性和可靠性提供全面评价。

 

新建任务

1.新建模型评估任务有两处入口

新建入口1

进入“模型工厂”页面,左侧菜单选中“模型训练”。单击训练任务的“操作 >评估”,创建评估任务。

此处创建进入的评估任务页面,会默认带入full训练好的模型,或者lora训练的基础模型以及此训练任务生成的checkpoint。

 

 

新建入口2

进入“模型工厂”页面,左侧菜单选中“模型评估”。单击【新建】按钮,创建评估任务。

 

2.进入评估任务页面后,填写如下信息:

参数
说明
任务名称
名称只能由中英文、数字、特殊字符组成,长度为1-50位。
Benchmark配置
支持用户选择Benchmark配置。也可以在此处通过模板新建benchmark配置,详见下文。
算法类型
仅支持大模型。
选择算法


大模型 单选、必选。选择基础大模型或者训练后新生成的大模型。
checkpoint 若想要评估lora训练的模型,则需要选择基于该大模型训练生成的checkpoint,单选,非必选。
提示词 单选、必选。提示词选择来自于提示词管理,关于提示词的操作详见:提示词模板
Adapter文件
上传的文件格式仅支持要求python,且单个文件大小不超过2M。
描述
描述只由中英文、数字、特殊字符组成,长度为0-255位。
颜色
单击选择任务颜色。

一个评估任务,支持选择多个算法,操作如下:

  • 单击【添加算法】,新增一行以选择算法
  • 单击【删除】,删除该行算法

3.Adapter文件上传

(1)单击【选择文件】按钮,出现系统对话框,选择需要上传的文件

(2)文件上传完成,可在下方预览文件内容

(3)悬停文件时出现删除按钮,单击【删除】以删除文件

4.填写完信息后,可以选择保存任务或者运行任务:

  • 单击【保存】,保存任务
  • 单击【运行】,运行任务

 

编辑任务

评估任务创建后,您可以再次编辑任务。

在“模型评估”页面中,单击任一评估任务的“操作 > 编辑”,进入编辑任务流程。

 

查看任务

在“模型评估”页面中,单击任一评估任务的“操作 >查看任务配置”,可以查看评估任务的配置信息。

 

运行详情

查看入口1

在“模型评估”页面中,单击任一评估任务的“操作 >运行详情”,可以查看评估任务的运行详情。

查看入口2

在“模型评估”页面中,单击任一评估任务运行状态后的详情icon,可以查看评估任务的运行详情。

 

查看结果

在“模型评估”页面中,单击任一评估任务的“操作 >查看结果”,可以查看运行结果。

 

删除任务

在“模型评估”页面中,单击任一评估任务的“操作 >删除”,可以删除任务记录。