深度学习架构

"Deep Learning is representation learning."
如果说传统机器学习需要人工设计特征，那么深度学习就是让神经网络自己去"看"、去"听"、去理解。这里是感知的艺术，PyTorch 是你的画笔。

神经网络解剖学

激活函数：非线性的灵魂

为什么不能只堆叠线性层？因为线性层的叠加依然是线性的。**ReLU (Rectified Linear Unit)** 的引入（以及后来的 GeLU, SiLU）解决了梯度消失问题，赋予了网络拟合任意复杂函数的能力。

PyTorch 动态图范式

"Define by Run". 不同于 TensorFlow 1.x 的静态图，PyTorch 像 Python 一样自然。定义一个网络，只需继承 `nn.Module` 并实现 `forward` 方法。

import torch.nn as nn

class SimpleNet(nn.Module):
    def __init__(self):
        super().__init__()
        # 784(Input) -> 128(Hidden) -> 10(Output)
        self.fc1 = nn.Linear(28*28, 128)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = x.view(-1, 28*28) # Flatten
        x = self.relu(self.fc1(x))
        return self.fc2(x)
                    

计算机视觉 (CV)

卷积神经网络 (CNN)

卷积 (Convolution) 利用了图像的**局部性**和**平移不变性**。通过 Filter（滤波器）提取边缘、纹理，再通过 Pooling（池化）层降低维度，最终将像素转化为高层语义。

ResNet：越深越好？

深层网络曾面临"退化问题"（层数增加，效果反而变差）。ResNet 通过引入 **Residual Connection (残差连接)**，让网络学习 $F(x) = H(x) - x$，即学习"差异"，创造了"梯度高速公路"，让训练上千层的网络成为可能。

序列与 NLP 基础

Embedding：万物皆向量

Word2Vec 让计算机理解了 "King - Man + Woman = Queen"。Embedding 层将离散的单词映射到连续的向量空间，这是所有现代 NLP 模型的第一步。

RNN 与 LSTM 的黄昏

在 Transformer 出现之前，LSTM (长短期记忆网络) 统治着序列领域。它通过"门控机制" (Forget Gate, Input Gate) 缓解了长序列遗忘问题。虽然现在已被 Transformer 取代，但在时间序列预测中仍有一席之地。