Transformer²：LoRA的终结者？@慕课网原创_慕课网

sakana.ai 最新的研究论文提出了一种新的 transformer 架构的通用框架，其理念是适应性。**** 就像你那个有毒的伴侣在有外部观察者时展示出不同的面貌，以适应各种任务，大语言模型也需要这样做，从而适应各种任务，以满足特定领域的需要。

这张照片是由 Cécile Brasseur 在 Unsplash 上拍的。

不过，传统的大型语言模型的后期训练有一些缺点，

微调过程非常耗资源 — 即使使用了现代技术，例如混合精度、量化和PEFT，微调这些模型仍然非常昂贵，需要大量的计算和存储。
过拟合问题 — 微调后的模型往往会开始生成重复的内容，并且容易出现灾难性遗忘现象。
任务干扰 — 梯度冲突通常会使模型在某个特定任务上的表现更好，同时在另一个任务上的表现会变差。

自适应的大规模语言模型

我们将自适应的LLMs定义为一类能够根据环境变化自动调整行为（无需外部干预）的模型。

我们怎么才能做到这样的智能模型呢？

改进现有的LLM模型 — 我们都非常熟悉LLM的扩展规律和涌现能力，因此，如果继续构建更大的模型，它们无疑会在多种任务和多个领域中表现更佳，这并不会让人感到意外。

但这不是一个很具扩展性的想法，需要大量的计算能力。

2. 采用专家混合（MoE）模型 — MoE 的理念是根据输入的内容动态地将其路由到特定领域的“专家”模块。作者认为 Transformer² 可以大致归类为 MoE 模型，但有重要的不同之处。

去年，麻省理工学院和乔治亚理工学院发布了一篇名为《Self-MoE：迈向具有自专业化专家的组合型大型语言模型》的论文，介绍了一种将单一的LLM转换为组合系统的这一方法。其思路是——与使用人工标注的数据（如MoE的情况）不同，这些模块是通过合成的训练数据从头开始创建的。这些模块由基础LLM共享，并根据特定的输入路由到相应的模块。

自适应的大规模语言模型的好处

根据不同任务动态调整模型 无需频繁调参。
持续学习 — 随着时间的推移，模型可以积累信息，而不是使用静态信息进行训练。
消除灾难性遗忘 — 这样在向模型添加新信息时不会引发任何形式的灾难性遗忘，即在学习新任务后不会忘记如何完成之前的任务。

作者们还指出，自适应的大规模语言模型模仿了神经科学中的一个原理，即根据任务的需要激活大脑中的特定区域。

虽然MoEs是创建组合系统的好方法，但为每个单独的任务训练一个独立的“专家”模块仍然是一种资源密集型方法。为了解决这个问题，该论文引入了一种新的微调技术，即奇异值微调（SVF）。

奇异值调优

在我们深入了解论文作者提出的技术之前，让我们先了解一下理解这种方法所需的基本概念。

使用奇异值分解（SVD）的精调

SVD的几何解释（作者供图）

在 SVD 中，U 和 V 两个矩阵旋转了向量空间，这里。我们关注的重点是 Σ 矩阵，即奇异值矩阵。

注意，当Σ用其对应的奇异值来缩放向量时，基向量与与最大方差方向对齐的主轴对齐。因此，改变这些缩放值可以看作是在特定主轴上调整权重。

由于这些特征值可以近似表示不同“特征”的重要性，我们可以忽略_ V 和 U _的变化。

因此，我们在对网络进行微调时，只更新权重矩阵的特征值，从而使需要训练的参数数量显著减少。

这种方法唯一的缺点是，如果我们只训练前k个最大的奇异值，可能会造成一些信息损失（这要看各个方向上的方差是否分布均匀）。

SVD基微调与LoRA比较

加载这个模型。

    首先，从transformers库导入AutoModelForCausalLM和AutoTokenizer  

    name = "Qwen/Qwen2.5-1.5B-Instruct"  # 模型名称
    model = AutoModelForCausalLM.from_pretrained(name)  
    tokenizer = AutoTokenizer.from_pretrained(name)

在使用LoRA时，查看可调参数的数量

    从peft导入LoraConfig 和 peft_model模块

    lora_config = LoraConfig(
        task_type="CAUSAL_LM",
        r=8,
        lora_alpha=32,
        lora_dropout=0.1,
        bias="none",
    )

    lora_model = peft_model.get_peft_model(model, lora_config)
    lora_model.print_trainable_parameters()

使用SVD时查看可训练的参数的数量（更新这3个矩阵——U、V和Σ）。

    # SVD
    from svd_training.svd_model import SVDForCausalLM

    svd_model = SVDForCausalLM.create_from_model(model, rank_fraction=0.1)
    print(f"可训练参数: {svd_model.num_parameters(only_trainable=True)}，所有参数: {svd_model.num_parameters()}，可训练参数百分比: ≈{svd_model.num_parameters(only_trainable=True) / svd_model.num_parameters()}")

显然，使用基于SVD的微调时，可训练的参数数量更多，但为什么？ 原因在于我们不仅更新奇异值，还更新了分解矩阵中的所有元素。

这是经过SVD分解后的模型的样子。

Qwen2ForCausalLM: 一个用于因果语言模型的模型结构。
(
  (model): Qwen2Model(  
    (embed_tokens): Embedding(151936, 1536)  # 嵌入层
    (layers): ModuleList(  
      (0-27): 28 x Qwen2DecoderLayer(  # 28个解码层
        (self_attn): Qwen2SdpaAttention(  # 自注意力机制
          (q_proj): SVDLinear()  # 查询投影
          (k_proj): SVDLinear()  # 键投影
          (v_proj): SVDLinear()  # 值投影
          (o_proj): SVDLinear()  # 输出投影
          (rotary_emb): Qwen2RotaryEmbedding()  # 旋转嵌入
        )  
        (mlp): Qwen2MLP(  # 多层感知机
          (gate_proj): SVDLinear()  # 网关投影
          (up_proj): SVDLinear()  # 上投影
          (down_proj): SVDLinear()  # 下投影
          (act_fn): SiLU()  # 激活函数
        )  
        (input_layernorm): Qwen2RMSNorm()  # 输入层归一化
        (post_attention_layernorm): Qwen2RMSNorm()  # 注意力后归一化
      )  
    )  
    (norm): Qwen2RMSNorm()  # 归一化
  )  
  (lm_head): SVDLinear()  # 语言模型头
)

让我们进行一些计算。总共有28个解码层，每个解码层都有7个SVD线性层。此外，模型的头部同样转换成了SVD线性层。因此，总数是。