AI 基础基石

"Talk is cheap, show me the code."
人工智能不仅是调包,更是数学在代码层面的优雅实现。这里汇集了构建 AI 大厦所需的数学直觉与工程能力。

Python 科学计算

为什么是 NumPy?

在 AI 中,我们很少使用 Python 原生的 List 循环,因为太慢。NumPy 提供了基于 C 语言优化的多维数组(Tensor 的前身),以及核心机制:向量化 (Vectorization)广播 (Broadcasting)

import numpy as np # 传统方式 (慢) a = [1, 2, 3] b = [4, 5, 6] c = [x*y for x,y in zip(a,b)] # NumPy 向量化方式 (快,且代码简洁) arr_a = np.array([1, 2, 3]) arr_b = np.array([4, 5, 6]) arr_c = arr_a * arr_b # Element-wise multiplication print(f"Result: {arr_c}") # Output: [4 10 18]

Pandas 数据清洗

现实世界的数据是脏乱的。Pandas 是数据科学的瑞士军刀,你需要熟练掌握 DataFrame 的索引、透视表 (Pivot Table) 以及缺失值处理。

线性代数核心

矩阵分解 (Matrix Decomposition)

所有的数据(图像、文本 embedding)都可以看作矩阵。SVD (奇异值分解) 是降维算法(如 PCA)、推荐系统甚至 LoRA 微调技术的数学本质。它将一个复杂矩阵分解为三个简单矩阵的乘积。

A = U · Σ · VT

其中 Σ 是奇异值对角矩阵,代表了数据在不同维度上的"能量"或"重要性"。

特征值与特征向量

在深度学习中,我们希望找到数据变换后"方向不变"的轴。这在理解 ResNet 的残差连接稳定性以及图神经网络 (GNN) 中至关重要。

微积分与优化

链式法则 (Chain Rule)

神经网络往往有几十甚至上百层。为了计算第一层的参数对最后一层输出的影响,我们需要像剥洋葱一样,利用链式法则将误差一层层向后传递。这是 反向传播 (Backpropagation) 算法的核心。

∂L/∂x = (∂L/∂y) · (∂y/∂x)

梯度下降 (Gradient Descent)

神经网络的学习过程,本质上就是在损失函数 (Loss Function) 的"山坡"上,沿着梯度的反方向下山,寻找最低点(全局最优解)。

θnew = θold - α · ∇J(θ)

其中 α (Learning Rate) 决定了我们步子迈多大,∇J(θ) 告诉我们往哪个方向走。

概率与统计

贝叶斯定理 (Bayes' Theorem)

AI 的本质是根据已有数据(先验)推断未知(后验)。生成式 AI (AIGC) 的概率分布建模,很大程度上依赖于对条件概率的深刻理解。

P(A|B) = [P(B|A) · P(A)] / P(B)

信息论基础 (Entropy & KL Divergence)

在机器学习中,我们常听说 "Cross-Entropy Loss"(交叉熵损失)。熵 (Entropy) 衡量了系统的不确定性。KL 散度则衡量了两个概率分布之间的差异——也就是模型预测分布与真实分布之间的"距离"。

H(P,Q) = - Σ P(x) log Q(x)