紫老头聊AI

微调种类

指令拟合（Instruction Following）：让模型学会响应基本任务。
- SFT（Supervised Fine-Tuning）
  - 数据形式：(instruction, input, output) 三元组。
  - 要求：高质量、多样性数据。
  - 目标：让模型能理解并遵循人类指令，完成基础任务。
偏好优化（Preference Optimization）：让模型输出更符合人类偏好。
- RLHF（Reinforcement Learning with Human Feedback）
  - 步骤：先训练奖励模型（Reward Model, RM）→ 再用PPO优化策略模型。
  - 优点：能有效减少不当输出，提高“有用性”和“安全性”。
- DPO（Direct Preference Optimization）
  - 原理：直接利用排序数据进行优化。
  - 优势：无需训练奖励模型，简化流程，计算成本更低。

全参数微调（Full Fine-Tuning）
- 更新所有模型权重。
- 精度最高，但计算资源消耗大，风险是容易过拟合。
- 适用：大规模数据与高性能训练环境。
参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）
只训练极少部分参数，成本低、速度快。
- 低秩更新（Low-Rank Adaptation）
  - LoRA
    - 将权重分解为低秩矩阵，并注入可训练模块。
    - 训练参数仅占原模型的 0.1%–1%。
    - 秩（Rank）越高 → 参数越多 → 效果提升但成本增加。
  - QLoRA
    - 结合 4-bit量化 + LoRA，显著降低显存占用。
    - 示例：7B模型仅需约6GB显存即可微调。
- 插层法（Adapter Tuning）
  - 在Transformer层中插入小型MLP，仅训练Adapter部分。
  - 通常插在 FFN层后 或 注意力层后。
  - 支持多任务切换，可独立加载不同adapter模块。
- 提示词微调（Prompt Tuning）
  - 在嵌入层学习“软提示”（soft prompts）。
  - 不修改模型参数，只调整输入向量。
  - 适合多任务、快速部署场景。

有监督学习（Supervised Learning）
- 对每个输入都有明确输出标签。
- 代表方法：
  - SFT：基于人工标注的指令-回答数据训练。
  - DPO：基于排序对直接优化，无需奖励模型。
强化学习（Reinforcement Learning）
- 模型通过与外部反馈交互获得奖励信号。
- 代表方法：
  - RLHF：以人类偏好为奖励信号优化输出策略。

典型训练流程为：

预训练→SFT→RLHF/DPO

定制模型行为
- 指令微调：让模型更“听话”。
- RLHF/DPO：减少幻觉、提升安全性和可控性。
专业知识注入
- 领域微调：在医疗、法律、金融等特定领域强化理解和术语掌握。
特定任务精通
- 任务导向微调：赋予模型新技能，如翻译、数学推理、代码生成。
- 若配合 Chain-of-Thought (CoT) 数据，可显著提升推理能力。
小样本学习（Few-shot Fine-tuning）
- 即使只有几百条数据，也能显著改善模型在小任务上的表现。
- 得益于LLM的强大“预训练迁移能力”。
多模态融合（Multimodal Fine-tuning）
- 通过微调视觉模块 + 语言模型，实现图文理解、图像描述等任务。