一、定义与名词解释

1. 定义

冻结层微调（Frozen Layers Fine-tuning） 是一种在预训练模型微调过程中 冻结部分层（即不更新这些层的参数），仅对剩余层（如顶层或特定层）进行训练的微调策略。其核心是通过控制参数更新范围，平衡模型性能与计算资源消耗。

2. 关键术语

术语	解释
冻结层（Frozen Layers）	在微调过程中参数不更新的层（如BERT的前几层）。
可训练层（Trainable Layers）	在微调过程中允许参数更新的层（如BERT的顶层或分类头）。
分层冻结（Layer-wise Freezing）	根据层的深度分阶段冻结或解冻，例如冻结前N层，训练后M层。
动态冻结（Dynamic Freezing）	根据训练过程中的梯度或性能动态选择冻结层。

二、背景与核心原理

1. 背景

问题背景：

计算资源限制：全量微调（Full Fine-tuning）对超大规模模型（如BERT）的计算和显存要求极高。

过拟合风险：更新所有参数可能导致模型在小数据集上过拟合。

解决方案：

分层适配：仅更新靠近任务相关的顶层参数，保留底层通用特征。

渐进式解冻：逐步解冻更多层以提升性能，同时控制计算成本。

2. 核心原理

知识保留机制：

底层冻结：底层参数保留预训练的通用特征（如词向量、句法结构）。

顶层适配：仅训练顶层参数（如分类头或任务特定层）以适配任务需求。

优势：

资源效率：减少计算和存储需求（如仅训练10%的参数）。

鲁棒性提升：避免底层参数过度拟合任务特定噪声。

三、核心技术与方法

1. 核心技术

(1) 分层冻结策略

实现方式：冻结模型的前N层，仅训练后M层或分类头。示例：冻结BERT的前10层，仅训练最后2层和分类层。

(2) 动态冻结策略

实现方式：根据层的梯度或重要性动态选择冻结层。示例：冻结梯度较小的层，保留梯度较大的层进行更新。

(3) 渐进式解冻（Progressive Freezing）

实现方式：初始阶段冻结所有层，仅训练分类头；随着训练进度，逐步解冻更底层的参数。

四、预训练步骤详解

1. 典型流程

步骤	描述	示例
选择冻结策略	决定冻结哪些层（如冻结前10层）。	冻结BERT的前10层，仅训练最后2层。
加载预训练模型	加载预训练模型（如BERT）并冻结指定层的参数。	使用Hugging Face的transformers库加载BERT。
配置可训练层	设置可训练层的参数为requires_grad=True。	解冻最后2层的参数。
数据准备	收集并预处理下游任务数据（如IMDb情感分析数据）。	清洗数据，分词为BERT输入格式。
训练配置	设置超参数（学习率、批次大小）、优化器（AdamW）、学习率调度策略。	学习率：2e-5，批次大小：16。
训练与评估	训练可训练层并监控性能，根据验证集调整策略。	监控准确率，动态解冻更多层。

五、预训练实例与代码实现

1. 案例：BERT分层冻结文本分类

背景

任务：IMDb电影评论情感分析（二分类）。
数据集：25,000条标注评论。
模型：BERT-base（1.1亿参数）。

性能对比

方法	参数量（百万）	准确率	训练时间（GPU小时）
全量微调	110	93.2%	12
冻结前10层（训练最后2层）	11	92.5%	2.5
LoRA（r=8）	1.1	92.8%	2.5

代码示例（PyTorch + Hugging Face）

from transformers import BertForSequenceClassification, BertTokenizer
import torch

# 加载预训练模型
model = BertForSequenceClassification.from_pretrained("bert-base-uncased")

# 冻结前10层
for layer in model.bert.encoder.layer[:10]:
    for param in layer.parameters():
        param.requires_grad = False

# 解冻最后2层和分类头
for layer in model.bert.encoder.layer[-2:]:
    for param in layer.parameters():
        param.requires_grad = True
for param in model.classifier.parameters():
    param.requires_grad = True

# 打印可训练参数量
print("Trainable parameters:", sum(p.numel() for p in model.parameters() if p.requires_grad))  # 约1100万

# 其余训练代码（数据加载、优化器等）与全量微调类似

2. 案例：RoBERTa渐进式解冻命名实体识别（NER）

背景

任务：CoNLL-2003命名实体识别（PER、ORG、LOC、MISC）。
数据集：训练集约14,000条句子。

代码示例（PyTorch Lightning）

import pytorch_lightning as pl
from transformers import RobertaForTokenClassification, RobertaTokenizer

class NERModel(pl.LightningModule):
    def __init__(self):
        super().__init__()
        self.model = RobertaForTokenClassification.from_pretrained("roberta-base", num_labels=9)
        self.freeze_layers(8)  # 初始冻结前8层
        
    def freeze_layers(self, num_layers):
        for layer in self.model.roberta.encoder.layer[:num_layers]:
            for param in layer.parameters():
                param.requires_grad = False

    def forward(self, input_ids, attention_mask, labels=None):
        outputs = self.model(input_ids, attention_mask=attention_mask, labels=labels)
        return outputs.loss, outputs.logits

    def training_step(self, batch, batch_idx):
        loss, _ = self(**batch)
        self.log("train_loss", loss)
        return loss

    def configure_optimizers(self):
        return torch.optim.AdamW(self.parameters(), lr=2e-5)

    def on_train_epoch_start(self):
        # 每5个epoch解冻一层
        if self.current_epoch % 5 == 0 and self.current_epoch != 0:
            layer_num = 8 - (self.current_epoch // 5)
            self.freeze_layers(layer_num)

六、资源与链接

1. 开源代码仓库

Hugging Face Transformers库：

链接：https://github.com/huggingface/transformers

说明：提供冻结层微调的示例代码（如model.freeze()方法）。

FrozenBERT论文：

链接：https://arxiv.org/abs/2006.05906

说明：提出分层冻结策略的理论基础。

2. 数据集

GLUE基准：

https://gluebenchmark.com/

IMDb数据集：

https://ai.stanford.edu/histo?spm=5176.29317386.0.0.3d03451e3CmyR8

CoNLL-2003 NER：

https://www.clips.uantwerpen/?spm=5176.29317386.0.0.3d03451e3CmyR8

七、挑战与解决方案

1. 主要挑战

挑战	解决方案
性能下降	动态调整冻结层数，结合 LoRA 等参数高效方法。
冻结层选择困难	根据任务复杂度实验选择冻结层数（如文本分类 vs NER）。
训练不稳定	采用学习率预热（Warmup）或小批次训练。

八、总结与展望

核心价值：冻结层微调在资源受限场景下（如边缘设备）提供性能与效率的平衡，尤其适用于小规模数据集。
未来方向：

自动化冻结策略：通过元学习自动选择冻结层。

混合冻结与PEFT：结合冻结层与LoRA/Adapter，进一步降低参数量。

醋醋百科网

Good Luck To You!

【AI大模型微调】一文讲清楚冻结层微调原理与核心技术