前端analysis | 知其所以然

Ai大模型

2025-10-15

🧭 一、ResNet 是“深度可训练性”的转折点

在 ResNet(2015)之前,深度网络最大的问题是:

越深越难训练。

而 ResNet 首次证明:

“只要设计得当,网络可以无限加深而仍能有效学习。”

这不是一个小改进,而是:

🔹 深度学习从“经验时代”进入“可扩展时代”。

换句话说,ResNet 解决了“深度的痛点”,
为后来的 大规模参数化模型(大模型) 奠定了基础。


⚙️ 二、核心思想的传承关系:ResNet → Transformer → GPT

模型 关键年份 结构核心 与 ResNet 的关系
ResNet (2015) CNN 残差连接(Residual Connection) 首创“恒等路径”思想
Transformer (2017) Attention 每层都加残差 + LayerNorm 完全继承残差思想
BERT / GPT 系列 (2018–2024) Transformer 堆叠 96层、128层甚至更深 残差连接保证训练稳定
Diffusion / Stable Diffusion (2021+) UNet 架构 大量残差模块 以ResNet block为基础
视觉语言模型(CLIP, SAM) Vision Transformer 残差 + 自注意力 ResNet思想融合到视觉Transformer

📘 换句话说:

现代 AI 大模型的每一层,都在某种形式上“是一个 ResNet Block”。


💡 三、思想层面的影响:从“学习残差”到“层层校正”

ResNet 的革命不只是“加一条跳线”,
而是提出了“层间校正思想(Layer-wise Refinement)”

不让每层重造世界,而是让每层对上层结果做微调。

这种思想直接影响了大模型的设计哲学:

思想层面 ResNet Transformer / GPT
学习目标 F(x) = H(x) - x(残差) 新表示 = 旧表示 + 注意力更新
梯度流动 恒等路径保持梯度稳定 残差路径 + LayerNorm 保持稳定训练
层间关系 每层都是“校正器” 每层都是“信息融合器”
深度可扩展性 可堆叠至152层 可堆叠至数百层、千亿参数

这就是为什么:

Transformer 的每一层都形如:
x = x + f(x)
这本质上就是 ResNet 结构的泛化版本


🧬 四、ResNet 与“大模型可扩展性”的关系

大模型(如 GPT-4、Gemini、Claude、LLaMA 等)的成功,本质靠三个支柱:

维度 技术核心 与 ResNet 的关系
算力 GPU/TPU 并行 没有ResNet时代的稳定训练算法,就无法利用大算力
数据 互联网级语料 网络必须够深、够稳,才能学复杂语义
架构 Transformer 堆叠 残差连接使超深网络成为可能

ResNet 解决的是「深度网络的可优化性问题」,
而大模型解决的是「规模化的可泛化问题」。
两者在逻辑上是连续演化的。


🔗 五、现代架构中直接继承 ResNet 的部分

模块 来自 ResNet 的概念 现代实例
残差连接 (Residual Connection) 恒等映射保证梯度稳定 GPT、BERT、ViT
跳跃连接 (Skip Connection) 多层信息融合 UNet、Diffusion Model
层间校正机制 (Add + Norm) 层与层之间的“差分学习” Transformer Encoder/Decoder
可堆叠深层结构 训练超深网络可行 所有大模型 backbone

🧠 六、从 ResNet 到 GPT 的“技术演化链”

1
2
3
4
5
6
7
8
9
10
11
12
13
LeNet → AlexNet → VGG → ResNet


ResNet 残差思想


Transformer (2017)


BERT / GPT (2018+)


多模态大模型 (CLIP / SAM / Sora)

一句话总结:

如果没有 ResNet 的“残差连接”思想,就不会有今天可堆叠百层、千亿参数的大模型。


🔮 七、总结一句话

ResNet 是深度学习走向大模型时代的“桥梁”。
它解决了「网络能否学得深」的问题,
Transformer 与 GPT 解决了「学得广与通」的问题。

📌 所以:

GPT 是“注意力机制 + 残差思想”的自然结果。
没有 ResNet,就没有稳定可训练的 Transformer。

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏