Skip to content

什么是RLHF (Reinforcement Learning from Human Feedback)?它在大模型训练中扮演什么角色?

1. 什么是 RLHF?

RLHF 全称 Reinforcement Learning from Human Feedback,即 基于人类反馈的强化学习
它是一种让大模型学会对人类更有帮助、更符合人类价值观的训练方法,通过人类偏好数据指导模型输出。

核心思想
在预训练阶段,模型只是学会了“统计相关性”(预测下一个词),但并不一定懂得:

  • 哪种回答对用户最有帮助

  • 哪种回答更安全、礼貌

  • 哪种回答更符合道德和法律规范

RLHF 的目标就是让模型不仅能“会说”,还要“说得对、说得好、说得合适”。

2. RLHF 的训练流程(3 个主要阶段)

阶段 1:监督微调(Supervised Fine-tuning, SFT)

  • 用高质量的人类标注数据(问答对)微调预训练模型。

  • 让模型学会更贴近人类风格的回答。

阶段 2:奖励模型训练(Reward Model, RM)

  • 准备大量模型生成的多种候选回答

  • 人类标注员对这些回答进行排序(哪个更好,哪个更差)。

  • 用这些排序数据训练一个“奖励模型”,让它学会评估回答的好坏。

阶段 3:强化学习优化(Policy Optimization, PPO 常用)

  • 让模型(策略模型)生成答案,并用奖励模型打分。

  • 用强化学习算法(比如 PPO)调整模型权重,让模型倾向于生成高分答案。

流程示意

预训练模型  →  SFT  →  奖励模型  →  PPO 优化策略模型

3. RLHF 在大模型训练中的角色

训练阶段主要目标RLHF 是否参与
预训练学习通用语言知识不涉及 RLHF
SFT让模型具有人类风格的回答能力第一阶段
奖励模型训练学会打分第二阶段
策略优化让输出更符合人类偏好第三阶段

角色总结

  1. 价值观对齐(Alignment):让模型行为更符合人类期望,减少有害内容。

  2. 提升可用性(Helpfulness):让模型输出更有条理、更专业。

  3. 优化用户体验(User-friendly):减少模棱两可和无关的回答。

4. 面试中可能的追问

  • RLHF 和 SFT 有什么区别?
    → SFT 直接用标注好的“标准答案”训练,RLHF 用人类偏好(排序)+ 奖励模型 + 强化学习调整模型行为。

  • RLHF 会遇到哪些挑战?
    → 成本高(需要人工标注)、标注员主观性、奖励模型偏差(Reward Hacking)。

RLHF 是让大模型“从会说话 → 会说人话”的关键步骤,它通过人类偏好训练奖励模型,并用强化学习优化模型,让输出更有帮助、更安全、更贴近人类价值观。

5. 举个例子 🌰

把大模型想象成一个刚学会说话的小朋友:

  1. SFT 像家长教孩子“正确说法”。

  2. 奖励模型 像老师给孩子的作文打分,告诉他哪些表达更好。

  3. PPO 强化学习 像孩子根据分数不断改进表达方式,直到更符合大人期待。