深度学习架构
"Deep Learning is representation learning."
如果说传统机器学习需要人工设计特征,那么深度学习就是让神经网络自己去"看"、去"听"、去理解。这里是感知的艺术,PyTorch 是你的画笔。
神经网络解剖学
激活函数:非线性的灵魂
为什么不能只堆叠线性层?因为线性层的叠加依然是线性的。**ReLU (Rectified Linear Unit)** 的引入(以及后来的 GeLU, SiLU)解决了梯度消失问题,赋予了网络拟合任意复杂函数的能力。
PyTorch 动态图范式
"Define by Run". 不同于 TensorFlow 1.x 的静态图,PyTorch 像 Python 一样自然。定义一个网络,只需继承 `nn.Module` 并实现 `forward` 方法。
计算机视觉 (CV)
卷积神经网络 (CNN)
卷积 (Convolution) 利用了图像的**局部性**和**平移不变性**。通过 Filter(滤波器)提取边缘、纹理,再通过 Pooling(池化)层降低维度,最终将像素转化为高层语义。
ResNet:越深越好?
深层网络曾面临"退化问题"(层数增加,效果反而变差)。ResNet 通过引入 **Residual Connection (残差连接)**,让网络学习 $F(x) = H(x) - x$,即学习"差异",创造了"梯度高速公路",让训练上千层的网络成为可能。
序列与 NLP 基础
Embedding:万物皆向量
Word2Vec 让计算机理解了 "King - Man + Woman = Queen"。Embedding 层将离散的单词映射到连续的向量空间,这是所有现代 NLP 模型的第一步。
RNN 与 LSTM 的黄昏
在 Transformer 出现之前,LSTM (长短期记忆网络) 统治着序列领域。它通过"门控机制" (Forget Gate, Input Gate) 缓解了长序列遗忘问题。虽然现在已被 Transformer 取代,但在时间序列预测中仍有一席之地。