Skip to content

0. 大模型涌现能力及其产生原因

大模型涌现能力(Emergent Ability)是指在训练过程中,模型能够生成超出训练数据提供的、令人惊喜、创造性或新颖的行为或输出。这种能力表现为模型在某些复杂任务上显示出意料之外的能力,而这些能力在小规模模型中通常无法观察到。

主要内容拆解

1. 涌现能力的定义

  • 涌现能力:模型在训练后能够完成原本没有明确训练信号的任务,或产生出新的行为模式、创造性输出。

  • 特点:超越训练数据直接表现、对复杂任务有显著效果、随模型规模增长而出现。

2. 产生原因

  • 评价指标不够平滑

    • 许多任务的评价指标设计严格且离散,例如要求精确答案,否则判定错误。

    • 当模型规模增加时,模型可能突然达到能够满足严格指标的能力,从而出现涌现现象。

    • 对比多选题任务(平滑指标),随着模型增大,效果稳定改善,涌现现象不明显。

  • 复杂任务由多个子任务构成

    • 涉及多个子任务的复杂任务,其子任务性能随着模型规模呈连续提升(符合Scaling Law)。

    • 最终复杂任务的整体性能表现为“跳跃式提升”,体现为涌现现象。

  • Grokking(顿悟)现象

    • 对某些任务 T,相关训练数据量相对稀少。

    • 当模型规模增加并伴随更多预训练数据时,达到最小数据量临界点,模型对任务 T 的能力突然显现。

    • 这种“顿悟”解释了为什么小模型未表现出的能力会在大模型中突然出现。

举例类比记忆

  • 涌现能力 = 小孩学会走路之前只是爬行,突然某一天能够迈出稳定步伐。

  • 评价指标不平滑 = 考试只给满分或零分,没有半分,模型突然达标就像一跳到满分。

  • 复杂任务 vs 子任务 = 修建一栋楼,基础工序逐渐完成后,整栋楼突然“矗立”。

  • Grokking = 薄弱知识积累到临界点后突然理解整章内容。

易错提醒

  • 误区1:认为涌现能力是线性随模型规模增长的。实际上是“跳跃式”出现。

  • 误区2:涌现能力意味着模型在所有任务上都表现更好,仅适用于特定复杂任务。

  • 误区3:涌现能力并不总是可预测,其出现依赖任务复杂度和数据分布。

可能的延伸面试提问角度 & 应答建议

1. 什么任务容易出现涌现能力?

示例答句:
“通常是由多个子任务构成的复杂任务,或对数据量敏感、评价指标严格的任务,更容易出现涌现现象。”

关键要点清单:

  • 任务复杂度高,由多个子任务组成

  • 子任务性能随模型规模连续提升

  • 严格或离散的评价指标

  • 数据量临界点存在

回答模板:
“复杂任务和数据稀少、评价严格的任务更容易在大模型上展现涌现能力,因为模型在子任务上逐步积累,最终达到整体能力跳跃。”

可能延伸追问:

  • 如何通过设计任务评价指标影响涌现现象?

  • 涉及子任务的任务能否通过拆分提前观察涌现?

2. Grokking 是如何解释涌现能力的?

示例答句:
“Grokking 指模型在相关训练数据稀少时,随着规模增加达到临界点,能力突然显现,就像‘顿悟’现象。”

关键要点清单:

  • 小模型未达到能力临界点

  • 数据量与模型规模共同作用

  • 突然提升表现为任务能力涌现

回答模板:
“Grokking 说明当模型规模和相关数据量达到最小要求时,原本潜在的能力会突然出现,从而形成涌现能力。”

可能延伸追问:

  • Grokking 是否能被人为调控?

    示例答句:
    “可以在一定程度上调控,例如通过增加相关任务的训练数据、调整训练步骤或优化训练策略,让模型更早达到能力临界点。”

    关键要点清单:

    • 增加与目标任务相关的数据

    • 调整训练时长或训练步数

    • 使用适当优化器和学习率策略

    回答模板:
    “通过 增加数据量 + 调整训练策略,可以部分控制 Grokking 现象,使模型更快出现预期能力。”

  • 这种能力与训练策略(如长训练或增加数据)有何关系?

    示例答句:
    “长时间训练或增加相关数据量会帮助模型达到能力临界点,从而触发涌现行为。换句话说,训练策略直接影响 Grokking 何时发生。”

    关键要点清单:

    • 长训练:允许模型充分拟合潜在规律

    • 数据增加:提高相关任务样本覆盖

    • 临界点依赖模型规模与数据分布

    回答模板:
    训练策略(如延长训练时间或增加相关数据)会加速模型达到能力临界点,从而更早触发涌现能力。”

1. LLM与普通程序差异

大语言模型与传统程序在本质、设计目标和运行方式上有显著差异。

维度普通程序LLM(大语言模型)
定义由人类编写的明确指令序列基于大量数据训练出的统计模型,通过概率预测生成输出
逻辑控制确定性逻辑,每条指令精确执行概率性逻辑,输出基于上下文概率分布
开发方式人工编写算法和规则数据驱动,通过训练学习模式和规律
输入处理结构化或半结构化数据为主自然语言为主要输入,可处理非结构化数据
输出结果可预测、可复现可能存在不确定性(同一输入可能多次得到不同输出)
扩展性扩展需要显式修改代码扩展依赖数据量和训练规模,模型可泛化到未见场景
错误类型逻辑错误、代码bug幻觉(hallucination)、偏差、上下文理解错误
执行机制指令式执行基于概率分布生成,依赖神经网络推理
适用场景精确计算、业务逻辑处理、系统控制自然语言处理、生成内容、问答、推理、辅助决策

总结

  1. 确定性 vs 概率性:普通程序严格按照代码逻辑执行,而 LLM 输出是概率性预测。

  2. 规则驱动 vs 数据驱动:传统程序依赖人写的规则,LLM 依赖海量数据学习模式。

  3. 可解释性差异:普通程序每一步逻辑可追踪,LLM 内部权重和注意力机制复杂,不易直接解释。

  4. 泛化能力:LLM 能对未见过的问题给出合理回答,而传统程序通常需要明确规则才能处理新情况。