Skip to content

微调种类

(1)按训练目标分类(What

  • 指令拟合(Instruction Following):让模型学会响应基本任务。

    • SFT(Supervised Fine-Tuning)

      • 数据形式:(instruction, input, output) 三元组。

      • 要求:高质量、多样性数据。

      • 目标:让模型能理解并遵循人类指令,完成基础任务。

  • 偏好优化(Preference Optimization):让模型输出更符合人类偏好。

    • RLHF(Reinforcement Learning with Human Feedback)

      • 步骤:先训练奖励模型(Reward Model, RM)→ 再用PPO优化策略模型。

      • 优点:能有效减少不当输出,提高“有用性”和“安全性”。

    • DPO(Direct Preference Optimization)

      • 原理:直接利用排序数据进行优化。

      • 优势:无需训练奖励模型,简化流程,计算成本更低。

(2)按参数更新方式分类(How

  • 全参数微调(Full Fine-Tuning)

    • 更新所有模型权重。

    • 精度最高,但计算资源消耗大,风险是容易过拟合。

    • 适用:大规模数据与高性能训练环境。

  • 参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)
    只训练极少部分参数,成本低、速度快。

    • 低秩更新(Low-Rank Adaptation)

      • LoRA

        • 将权重分解为低秩矩阵,并注入可训练模块。

        • 训练参数仅占原模型的 0.1%–1%

        • 秩(Rank)越高 → 参数越多 → 效果提升但成本增加。

      • QLoRA

        • 结合 4-bit量化 + LoRA,显著降低显存占用。

        • 示例:7B模型仅需约6GB显存即可微调。

    • 插层法(Adapter Tuning)

      • 在Transformer层中插入小型MLP,仅训练Adapter部分。

      • 通常插在 FFN层后注意力层后

      • 支持多任务切换,可独立加载不同adapter模块。

    • 提示词微调(Prompt Tuning)

      • 在嵌入层学习“软提示”(soft prompts)。

      • 不修改模型参数,只调整输入向量。

      • 适合多任务、快速部署场景。

(3)按学习范式分类(How

  • 有监督学习(Supervised Learning)

    • 对每个输入都有明确输出标签。

    • 代表方法:

      • SFT:基于人工标注的指令-回答数据训练。

      • DPO:基于排序对直接优化,无需奖励模型。

  • 强化学习(Reinforcement Learning)

    • 模型通过与外部反馈交互获得奖励信号。

    • 代表方法:

      • RLHF:以人类偏好为奖励信号优化输出策略。

(4)按阶段划分(When

典型训练流程为:

预训练→SFT→RLHF/DPO

  • SFT阶段:让模型学会“听懂指令”。

  • RLHF/DPO阶段:让模型学会“说得更好、更安全”。


微调的主要用途

  1. 定制模型行为

    • 指令微调:让模型更“听话”。

    • RLHF/DPO:减少幻觉、提升安全性和可控性。

  2. 专业知识注入

    • 领域微调:在医疗、法律、金融等特定领域强化理解和术语掌握。
  3. 特定任务精通

    • 任务导向微调:赋予模型新技能,如翻译、数学推理、代码生成。

    • 若配合 Chain-of-Thought (CoT) 数据,可显著提升推理能力。

  4. 小样本学习(Few-shot Fine-tuning)

    • 即使只有几百条数据,也能显著改善模型在小任务上的表现。

    • 得益于LLM的强大“预训练迁移能力”。

  5. 多模态融合(Multimodal Fine-tuning)

    • 通过微调视觉模块 + 语言模型,实现图文理解、图像描述等任务。

可能的延伸面试提问角度 & 应答建议

1. RLHF与DPO的核心区别是什么?

  • 示例答句
    “RLHF通过奖励模型间接优化,DPO则直接基于排序数据优化,无需奖励模型,计算更高效。”

  • 关键要点清单

    • RLHF依赖奖励模型与PPO。

    • DPO直接利用偏好排序。

    • DPO收敛更快,稳定性更好。


2. LoRA 与 Adapter 的主要区别?

  • 示例答句
    “LoRA通过矩阵分解注入可训练参数,而Adapter是在Transformer层中插入额外网络模块。”

  • 关键要点清单

    • LoRA改动更小,参数更少。

    • Adapter更灵活,可模块化切换任务。


3. 为什么DPO被认为是RLHF的高效替代?

  • 示例答句
    “DPO直接利用人类排序数据,无需单独训练奖励模型,因此显著降低了计算成本与实现复杂度。”

  • 关键要点清单

    • 去掉奖励模型。

    • 降低PPO的不稳定性。

    • 仍能实现人类偏好对齐。