Appearance
什么是RLHF (Reinforcement Learning from Human Feedback)?它在大模型训练中扮演什么角色?
1. 什么是 RLHF?
RLHF 全称 Reinforcement Learning from Human Feedback,即 基于人类反馈的强化学习。
它是一种让大模型学会对人类更有帮助、更符合人类价值观的训练方法,通过人类偏好数据指导模型输出。
核心思想
在预训练阶段,模型只是学会了“统计相关性”(预测下一个词),但并不一定懂得:
哪种回答对用户最有帮助
哪种回答更安全、礼貌
哪种回答更符合道德和法律规范
RLHF 的目标就是让模型不仅能“会说”,还要“说得对、说得好、说得合适”。
2. RLHF 的训练流程(3 个主要阶段)
阶段 1:监督微调(Supervised Fine-tuning, SFT)
用高质量的人类标注数据(问答对)微调预训练模型。
让模型学会更贴近人类风格的回答。
阶段 2:奖励模型训练(Reward Model, RM)
准备大量模型生成的多种候选回答。
人类标注员对这些回答进行排序(哪个更好,哪个更差)。
用这些排序数据训练一个“奖励模型”,让它学会评估回答的好坏。
阶段 3:强化学习优化(Policy Optimization, PPO 常用)
让模型(策略模型)生成答案,并用奖励模型打分。
用强化学习算法(比如 PPO)调整模型权重,让模型倾向于生成高分答案。
流程示意
预训练模型 → SFT → 奖励模型 → PPO 优化策略模型3. RLHF 在大模型训练中的角色
| 训练阶段 | 主要目标 | RLHF 是否参与 |
|---|---|---|
| 预训练 | 学习通用语言知识 | 不涉及 RLHF |
| SFT | 让模型具有人类风格的回答能力 | 第一阶段 |
| 奖励模型训练 | 学会打分 | 第二阶段 |
| 策略优化 | 让输出更符合人类偏好 | 第三阶段 |
角色总结:
价值观对齐(Alignment):让模型行为更符合人类期望,减少有害内容。
提升可用性(Helpfulness):让模型输出更有条理、更专业。
优化用户体验(User-friendly):减少模棱两可和无关的回答。
4. 面试中可能的追问
RLHF 和 SFT 有什么区别?
→ SFT 直接用标注好的“标准答案”训练,RLHF 用人类偏好(排序)+ 奖励模型 + 强化学习调整模型行为。RLHF 会遇到哪些挑战?
→ 成本高(需要人工标注)、标注员主观性、奖励模型偏差(Reward Hacking)。
RLHF 是让大模型“从会说话 → 会说人话”的关键步骤,它通过人类偏好训练奖励模型,并用强化学习优化模型,让输出更有帮助、更安全、更贴近人类价值观。
5. 举个例子 🌰
把大模型想象成一个刚学会说话的小朋友:
SFT 像家长教孩子“正确说法”。
奖励模型 像老师给孩子的作文打分,告诉他哪些表达更好。
PPO 强化学习 像孩子根据分数不断改进表达方式,直到更符合大人期待。
