Appearance
微调种类
(1)按训练目标分类(What)
指令拟合(Instruction Following):让模型学会响应基本任务。
SFT(Supervised Fine-Tuning)
数据形式:
(instruction, input, output)三元组。要求:高质量、多样性数据。
目标:让模型能理解并遵循人类指令,完成基础任务。
偏好优化(Preference Optimization):让模型输出更符合人类偏好。
RLHF(Reinforcement Learning with Human Feedback)
步骤:先训练奖励模型(Reward Model, RM)→ 再用PPO优化策略模型。
优点:能有效减少不当输出,提高“有用性”和“安全性”。
DPO(Direct Preference Optimization)
原理:直接利用排序数据进行优化。
优势:无需训练奖励模型,简化流程,计算成本更低。
(2)按参数更新方式分类(How)
全参数微调(Full Fine-Tuning)
更新所有模型权重。
精度最高,但计算资源消耗大,风险是容易过拟合。
适用:大规模数据与高性能训练环境。
参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)
只训练极少部分参数,成本低、速度快。低秩更新(Low-Rank Adaptation)
LoRA
将权重分解为低秩矩阵,并注入可训练模块。
训练参数仅占原模型的 0.1%–1%。
秩(Rank)越高 → 参数越多 → 效果提升但成本增加。
QLoRA
结合 4-bit量化 + LoRA,显著降低显存占用。
示例:7B模型仅需约6GB显存即可微调。
插层法(Adapter Tuning)
在Transformer层中插入小型MLP,仅训练Adapter部分。
通常插在 FFN层后 或 注意力层后。
支持多任务切换,可独立加载不同adapter模块。
提示词微调(Prompt Tuning)
在嵌入层学习“软提示”(soft prompts)。
不修改模型参数,只调整输入向量。
适合多任务、快速部署场景。
(3)按学习范式分类(How)
有监督学习(Supervised Learning)
对每个输入都有明确输出标签。
代表方法:
SFT:基于人工标注的指令-回答数据训练。
DPO:基于排序对直接优化,无需奖励模型。
强化学习(Reinforcement Learning)
模型通过与外部反馈交互获得奖励信号。
代表方法:
- RLHF:以人类偏好为奖励信号优化输出策略。
(4)按阶段划分(When)
典型训练流程为:
预训练→SFT→RLHF/DPO
SFT阶段:让模型学会“听懂指令”。
RLHF/DPO阶段:让模型学会“说得更好、更安全”。
微调的主要用途
定制模型行为
指令微调:让模型更“听话”。
RLHF/DPO:减少幻觉、提升安全性和可控性。
专业知识注入
- 领域微调:在医疗、法律、金融等特定领域强化理解和术语掌握。
特定任务精通
任务导向微调:赋予模型新技能,如翻译、数学推理、代码生成。
若配合 Chain-of-Thought (CoT) 数据,可显著提升推理能力。
小样本学习(Few-shot Fine-tuning)
即使只有几百条数据,也能显著改善模型在小任务上的表现。
得益于LLM的强大“预训练迁移能力”。
多模态融合(Multimodal Fine-tuning)
- 通过微调视觉模块 + 语言模型,实现图文理解、图像描述等任务。
可能的延伸面试提问角度 & 应答建议
1. RLHF与DPO的核心区别是什么?
示例答句:
“RLHF通过奖励模型间接优化,DPO则直接基于排序数据优化,无需奖励模型,计算更高效。”关键要点清单:
RLHF依赖奖励模型与PPO。
DPO直接利用偏好排序。
DPO收敛更快,稳定性更好。
2. LoRA 与 Adapter 的主要区别?
示例答句:
“LoRA通过矩阵分解注入可训练参数,而Adapter是在Transformer层中插入额外网络模块。”关键要点清单:
LoRA改动更小,参数更少。
Adapter更灵活,可模块化切换任务。
3. 为什么DPO被认为是RLHF的高效替代?
示例答句:
“DPO直接利用人类排序数据,无需单独训练奖励模型,因此显著降低了计算成本与实现复杂度。”关键要点清单:
去掉奖励模型。
降低PPO的不稳定性。
仍能实现人类偏好对齐。
