功能概述
模型评估是机器学习流程中用于确定训练模型性能的环节。它通过一系列定量指标,如准确率、召回率、F1分数、均方误差等,来衡量模型对测试数据的预测能力。此外,模型评估还包括对模型泛化能力的测试,确保其在未见过的数据分析上也能表现出色。常用的评估方法有交叉验证、引导方法等,旨在为模型的实用性和可靠性提供全面评价。
新建任务
1.新建模型评估任务有两处入口
新建入口1
进入“模型工厂”页面,左侧菜单选中“模型训练”。单击训练任务的“操作 >评估”,创建评估任务。
此处创建进入的评估任务页面,会默认带入full训练好的模型,或者lora训练的基础模型以及此训练任务生成的checkpoint。
新建入口2
进入“模型工厂”页面,左侧菜单选中“模型评估”。单击【新建】按钮,创建评估任务。
2.进入评估任务页面后,填写如下信息:
参数 |
说明 | |
任务名称 |
名称只能由中英文、数字、特殊字符组成,长度为1-50位。 | |
Benchmark配置 |
支持用户选择Benchmark配置。也可以在此处通过模板新建benchmark配置,详见下文。 | |
算法类型 |
仅支持大模型。 | |
选择算法 |
大模型 | 单选、必选。选择基础大模型或者训练后新生成的大模型。 |
checkpoint | 若想要评估lora训练的模型,则需要选择基于该大模型训练生成的checkpoint,单选,非必选。 | |
提示词 | 单选、必选。提示词选择来自于提示词管理,关于提示词的操作详见:提示词模板 | |
Adapter文件 |
上传的文件格式仅支持要求python,且单个文件大小不超过2M。 | |
描述 |
描述只由中英文、数字、特殊字符组成,长度为0-255位。 | |
颜色 |
单击选择任务颜色。 |
一个评估任务,支持选择多个算法,操作如下:
- 单击【添加算法】,新增一行以选择算法
- 单击【删除】,删除该行算法
3.Adapter文件上传
(1)单击【选择文件】按钮,出现系统对话框,选择需要上传的文件
(2)文件上传完成,可在下方预览文件内容
(3)悬停文件时出现删除按钮,单击【删除】以删除文件
4.填写完信息后,可以选择保存任务或者运行任务:
- 单击【保存】,保存任务
- 单击【运行】,运行任务
编辑任务
评估任务创建后,您可以再次编辑任务。
在“模型评估”页面中,单击任一评估任务的“操作 > 编辑”,进入编辑任务流程。
查看任务
在“模型评估”页面中,单击任一评估任务的“操作 >查看任务配置”,可以查看评估任务的配置信息。
运行详情
查看入口1
在“模型评估”页面中,单击任一评估任务的“操作 >运行详情”,可以查看评估任务的运行详情。
查看入口2
在“模型评估”页面中,单击任一评估任务运行状态后的详情icon,可以查看评估任务的运行详情。
查看结果
在“模型评估”页面中,单击任一评估任务的“操作 >查看结果”,可以查看运行结果。
删除任务
在“模型评估”页面中,单击任一评估任务的“操作 >删除”,可以删除任务记录。