🧭 一、ResNet 是“深度可训练性”的转折点
在 ResNet(2015)之前,深度网络最大的问题是:
越深越难训练。
而 ResNet 首次证明:
“只要设计得当,网络可以无限加深而仍能有效学习。”
这不是一个小改进,而是:
🔹 深度学习从“经验时代”进入“可扩展时代”。
换句话说,ResNet 解决了“深度的痛点”,
为后来的 大规模参数化模型(大模型) 奠定了基础。
⚙️ 二、核心思想的传承关系:ResNet → Transformer → GPT
| 模型 | 关键年份 | 结构核心 | 与 ResNet 的关系 |
|---|---|---|---|
| ResNet (2015) | CNN | 残差连接(Residual Connection) | 首创“恒等路径”思想 |
| Transformer (2017) | Attention | 每层都加残差 + LayerNorm | 完全继承残差思想 |
| BERT / GPT 系列 (2018–2024) | Transformer 堆叠 | 96层、128层甚至更深 | 残差连接保证训练稳定 |
| Diffusion / Stable Diffusion (2021+) | UNet 架构 | 大量残差模块 | 以ResNet block为基础 |
| 视觉语言模型(CLIP, SAM) | Vision Transformer | 残差 + 自注意力 | ResNet思想融合到视觉Transformer |
📘 换句话说:
现代 AI 大模型的每一层,都在某种形式上“是一个 ResNet Block”。
💡 三、思想层面的影响:从“学习残差”到“层层校正”
ResNet 的革命不只是“加一条跳线”,
而是提出了“层间校正思想(Layer-wise Refinement)”:
不让每层重造世界,而是让每层对上层结果做微调。
这种思想直接影响了大模型的设计哲学:
| 思想层面 | ResNet | Transformer / GPT |
|---|---|---|
| 学习目标 | F(x) = H(x) - x(残差) | 新表示 = 旧表示 + 注意力更新 |
| 梯度流动 | 恒等路径保持梯度稳定 | 残差路径 + LayerNorm 保持稳定训练 |
| 层间关系 | 每层都是“校正器” | 每层都是“信息融合器” |
| 深度可扩展性 | 可堆叠至152层 | 可堆叠至数百层、千亿参数 |
这就是为什么:
Transformer 的每一层都形如:
x = x + f(x)
这本质上就是 ResNet 结构的泛化版本。
🧬 四、ResNet 与“大模型可扩展性”的关系
大模型(如 GPT-4、Gemini、Claude、LLaMA 等)的成功,本质靠三个支柱:
| 维度 | 技术核心 | 与 ResNet 的关系 |
|---|---|---|
| 算力 | GPU/TPU 并行 | 没有ResNet时代的稳定训练算法,就无法利用大算力 |
| 数据 | 互联网级语料 | 网络必须够深、够稳,才能学复杂语义 |
| 架构 | Transformer 堆叠 | 残差连接使超深网络成为可能 |
ResNet 解决的是「深度网络的可优化性问题」,
而大模型解决的是「规模化的可泛化问题」。
两者在逻辑上是连续演化的。
🔗 五、现代架构中直接继承 ResNet 的部分
| 模块 | 来自 ResNet 的概念 | 现代实例 |
|---|---|---|
| 残差连接 (Residual Connection) | 恒等映射保证梯度稳定 | GPT、BERT、ViT |
| 跳跃连接 (Skip Connection) | 多层信息融合 | UNet、Diffusion Model |
| 层间校正机制 (Add + Norm) | 层与层之间的“差分学习” | Transformer Encoder/Decoder |
| 可堆叠深层结构 | 训练超深网络可行 | 所有大模型 backbone |
🧠 六、从 ResNet 到 GPT 的“技术演化链”
1 | LeNet → AlexNet → VGG → ResNet |
一句话总结:
如果没有 ResNet 的“残差连接”思想,就不会有今天可堆叠百层、千亿参数的大模型。
🔮 七、总结一句话
ResNet 是深度学习走向大模型时代的“桥梁”。
它解决了「网络能否学得深」的问题,
Transformer 与 GPT 解决了「学得广与通」的问题。
📌 所以:
GPT 是“注意力机制 + 残差思想”的自然结果。
没有 ResNet,就没有稳定可训练的 Transformer。
赏
使用支付宝打赏
使用微信打赏
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏