AI 基础基石

"Talk is cheap, show me the code."
人工智能不仅是调包，更是数学在代码层面的优雅实现。这里汇集了构建 AI 大厦所需的数学直觉与工程能力。

Python 科学计算

为什么是 NumPy？

在 AI 中，我们很少使用 Python 原生的 List 循环，因为太慢。NumPy 提供了基于 C 语言优化的多维数组（Tensor 的前身），以及核心机制：向量化 (Vectorization) 和 广播 (Broadcasting)。

import numpy as np

# 传统方式 (慢)
a = [1, 2, 3]
b = [4, 5, 6]
c = [x*y for x,y in zip(a,b)]

# NumPy 向量化方式 (快，且代码简洁)
arr_a = np.array([1, 2, 3])
arr_b = np.array([4, 5, 6])
arr_c = arr_a * arr_b  # Element-wise multiplication

print(f"Result: {arr_c}")  # Output: [4 10 18]
                    

Pandas 数据清洗

现实世界的数据是脏乱的。Pandas 是数据科学的瑞士军刀，你需要熟练掌握 DataFrame 的索引、透视表 (Pivot Table) 以及缺失值处理。

线性代数核心

矩阵分解 (Matrix Decomposition)

所有的数据（图像、文本 embedding）都可以看作矩阵。SVD (奇异值分解) 是降维算法（如 PCA）、推荐系统甚至 LoRA 微调技术的数学本质。它将一个复杂矩阵分解为三个简单矩阵的乘积。

A = U \cdot Σ \cdot V T

其中 Σ 是奇异值对角矩阵，代表了数据在不同维度上的"能量"或"重要性"。

特征值与特征向量

在深度学习中，我们希望找到数据变换后"方向不变"的轴。这在理解 ResNet 的残差连接稳定性以及图神经网络 (GNN) 中至关重要。

微积分与优化

链式法则 (Chain Rule)

神经网络往往有几十甚至上百层。为了计算第一层的参数对最后一层输出的影响，我们需要像剥洋葱一样，利用链式法则将误差一层层向后传递。这是 反向传播 (Backpropagation) 算法的核心。

\partialL/\partialx = (\partialL/\partialy) \cdot (\partialy/\partialx)

梯度下降 (Gradient Descent)

神经网络的学习过程，本质上就是在损失函数 (Loss Function) 的"山坡"上，沿着梯度的反方向下山，寻找最低点（全局最优解）。

θ new = θ old - α \cdot \nablaJ(θ)

其中 α (Learning Rate) 决定了我们步子迈多大，∇J(θ) 告诉我们往哪个方向走。

概率与统计

贝叶斯定理 (Bayes' Theorem)

AI 的本质是根据已有数据（先验）推断未知（后验）。生成式 AI (AIGC) 的概率分布建模，很大程度上依赖于对条件概率的深刻理解。

P(A|B) = [P(B|A) \cdot P(A)] / P(B)

信息论基础 (Entropy & KL Divergence)

在机器学习中，我们常听说 "Cross-Entropy Loss"（交叉熵损失）。熵 (Entropy) 衡量了系统的不确定性。KL 散度则衡量了两个概率分布之间的差异——也就是模型预测分布与真实分布之间的"距离"。

H(P,Q) = - Σ P(x) log Q(x)