功能概述
模型训练支持用户自定义训练数据集,调整参数来训练模型,使其能更好地满足业务数据分析的需求。用户可以基于大模型的基础版本进行微调,也可以选择已微调的模型进一步进行微调。模型训练是一个不断试错和优化的过程,需要数据科学家根据经验进行细致的调整。
模型训练提供以下操作:新建、训练、查看、编辑、复制、删除训练任务,查看训练日志,导出基础模型与checkpoint得到新模型,快速创建评估任务。
在模型训练中,用户可以按照以下步骤启动大模型训练:
1.选择大模型。选择训练的基础大模型,如Qwen1.5-0.5B-chat。
2.选择训练数据集。需提前在数据集页面进行数据文件的上传管理。
3.配置训练参数。通常情况下,选择默认配置参数,也支持用户根据业务需求更改。
4.训练。单击【训练】按钮,启动训练过程。
准备数据集
进行模型训练前,需在“数据集”页面上传训练数据集。详见:数据集使用帮助
模型训练所使用的数据集质量会直接影响模型性能,请确保数据集的质量和准确性。
新建任务
1.进入“模型工厂”页面,左侧菜单选中“模型训练”。单击【新建】按钮,进入新建训练任务流程。
2.填写信息:
参数 | 说明 |
任务名称 | 名称只能由中英文、数字、特殊字符组成,长度为1-50位。 |
模型名称 |
单选,必选。 支持选择基础模型,或者基于基础模型训练完后的模型。 注意:采用full进行训练成功的模型会自动加入此选项列表中,采用lora进行训练的模型需要将基础模型与checkpoint成功执行导出 操作后,才会加入此选项列表中。 |
微调方法 |
支持选择2种微调方法,默认推荐lora。 lora训练是一种参数高效的微调方法,适合快速迭代和资源受限的情况;而full则适用于需要模型完全适应新任务的场景,但需要更 多的计算资源和时间。在选择微调策略时,需要根据具体任务的需求、资源限制和期望的性能来决定使用哪种方法。 |
GPU数量 | 支持多卡训练,从而提高训练速度和效率。 |
deepspeed配置 | 可以在配置json中指定所需的参数。例如,可以通过配置json启用半精度浮点数计算以加快训练速度并减少内存使用。 |
数据集 | 支持选择多个json格式的文件。 |
其它参数配置 | 参数提供了默认值,用户也可以根据业务需求进行修改。同时提供自定义参数满足用户更灵活的需求。 |
描述 | 描述只由中英文、数字、特殊字符组成,长度为0-255位。 |
颜色 | 单击选择任务颜色。 |
3.支持预览命令并复制。单击【预览命令】或【返回参数设置】进行参数设置与命令行预览的切换操作。
4.填写完信息后,可以选择保存或者训练:
- 单击【保存】,保存训练任务。
- 单击【训练】,执行训练操作,页面跳转到训练任务列表/卡片页。
编辑任务
训练任务创建后,您可以再次编辑任务。
在“模型训练”页面中,单击训练任务的“操作 > 编辑”,进入编辑任务流程。
复制任务
您可以通过复制任务来创建新的训练任务。
在“模型训练”页面中,单击任一训练任务的“操作 >复制”,进入复制任务流程。
查看任务
在“模型训练”页面中,单击任一训练任务的“操作 >查看任务”,可以查看训练任务的配置信息。
查看训练日志
1.在“模型训练”页面中,单击训练任务的“操作 >训练日志”,可以查看任务的训练日志。
2.在详情页面,您可以看到模型训练的进度,日志记录,以及loss曲线的信息,以便于监控训练进度。
3.通过单击【刷新】按钮,获得最新的日志信息。
评估
在“模型训练”页面中,单击训练任务的“操作 >评估”,可以创建评估任务。评估任务相关内容详见:模型评估使用帮助
导出
采用lora微调方法的训练任务,在开始执行训练后会生成checkpoint。通过与不同的checkpoint组合进行模型评估后,确定需要导出的checkpoint。
删除任务
1.在“模型训练”页面中,单击任一训练任务的“操作 >删除”,弹出删除确认弹窗。
2.单击【确定】按钮,确认删除任务。