手记

Qwen2大模型微调入门实战(附完整代码)(非常详细)零基础入门到精通,收藏这一篇就够了

概述

微调学习是一种提升大模型执行特定任务能力的方法。本文指导入门至精通,以Qwen2-1.5B-Instruct模型为例,通过指令微调在复旦中文新闻数据集上优化文本分类任务。首先,确保Python环境、Pytorch及CUDA安装完毕,并通过一键命令安装扩展库。接着,下载并预处理数据集。使用modelscope下载模型,并加载到transformers库进行训练。SwanLab作为可视化工具,监控训练过程。本文涵盖从环境准备到模型微调的全流程,包括数据集预处理、模型配置与训练以及结果评估。通过实践,读者将掌握大模型微调的技能,并了解如何优化模型性能以应对特定任务。

环境安装

为了运行此实战教程,你需要确保你的系统环境符合以下要求:

  • Python环境:Python 3.8 或更高版本
  • 环境准备:确保安装了Pytorch及CUDA,这将帮助你在GPU上高效运行模型。
  • 扩展库:安装必要的扩展库,包括swanlab、modelscope、transformers、datasets、peft、accelerate、pandas,这些库将用于模型训练、数据处理、监控等操作。

使用命令行一键安装上述库:

pip install swanlab modelscope transformers datasets peft pandas accelerate

准备数据集

数据集选择为复旦中文新闻数据集(zh_cls_fudan-news),该数据集适用于文本分类任务。数据来源于魔搭社区,包含几千条文本、分类标签和预测类型的数据记录。

下载数据集并进行数据预处理:

# 数据集下载
wget https://modelscope.cn/datasets/huangjintao/zh_cls_fudan-news/files/train.jsonl
wget https://modelscope.cn/datasets/huangjintao/zh_cls_fudan-news/files/test.jsonl

# 数据预处理
python preprocess.py --input train.jsonl --output train_preprocessed.jsonl
python preprocess.py --input test.jsonl --output test_preprocessed.jsonl

加载模型

使用modelscope下载Qwen2-1.5B-Instruct模型,并加载到transformers库中进行训练:

from modelscope import snapshot_download, AutoTokenizer
from transformers import AutoModelForCausalLM, TrainingArguments, Trainer

# 下载模型
model_dir = snapshot_download("qwen/Qwen2-1.5B-Instruct", cache_dir="./", revision="master")

# 加载模型与tokenizer
tokenizer = AutoTokenizer.from_pretrained("./qwen/Qwen2-1.5B-Instruct/", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("./qwen/Qwen2-1.5B-Instruct/", device_map="auto", torch_dtype=torch.bfloat16)

配置训练可视化工具

SwanLab作为训练过程的可视化工具,将帮助你监控训练进度和模型性能。在使用前,需要在SwanLab上注册账号并获取API Key。

集成SwanLab到训练过程中:

from swanlab.integration.huggingface import SwanLabCallback

# 初始化SwanLabCallback
swanlab_callback = SwanLabCallback(
    project="Qwen2-fintune",
    experiment_name="Qwen2-1.5B-Instruct",
    description="使用Qwen2-1.5B-Instruct模型进行指令微调",
    config={
        "model": "qwen/Qwen2-1.5B-Instruct",
        "dataset": "huangjintao/zh_cls_fudan-news"
    }
)

# 定义训练参数
args = TrainingArguments(
    output_dir="./output",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    logging_steps=10,
    num_train_epochs=2,
    save_steps=100,
    learning_rate=1e-4,
    save_on_each_node=True,
    gradient_checkpointing=True,
    report_to="none"
)

# 训练
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=Dataset.from_json("train_preprocessed.jsonl"),
    data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),
    callbacks=[swanlab_callback]
)
trainer.train()

实战应用与训练流程

数据集预处理

在预处理阶段将数据集转换为指令微调所需的格式,通过preprocess.py脚本进行转换。

模型微调配置与训练

使用加载的模型进行微调配置和训练,监控训练过程并评估模型效果。

结果监控与效果评估

通过SwanLab可视化训练过程,监控损失、准确率等指标,并在训练结束时评估模型性能。

结论与下一步

微调大模型是一项复杂但极为有价值的任务,通过本文的教程,你已经掌握了从环境准备、数据集准备到模型微调的全过程。大模型微调的重要性在于,它能使得模型在特定任务上获得显著提升,同时减少标注数据的需求。未来的实践中,持续学习和实验是提高模型性能的关键,同时考虑模型部署、扩展以及面向实际应用的优化。

为了帮助你进一步深入学习和实践,推荐使用官方提供的完整代码示例,以及探索更多数据集和微调策略。对于更多资源和交流,你可以访问阿里云的开发者社区、技术文档和官方教程。这些资源将为你的学习之旅提供更多支持和灵感。

0人推荐
随时随地看视频
慕课网APP