机器学习实战

"Data is the new oil."
机器学习是从数据中提取规律的艺术。在深度学习大行其道的今天，XGBoost 等经典算法依然统治着结构化表格数据 (Tabular Data) 的世界。

经典监督学习

逻辑回归 (Logistic Regression)

不要被名字欺骗，它是**分类**算法。它是所有神经网络神经元的"祖先"。它使用 Sigmoid 函数将线性输出压缩到 (0,1) 之间，表示概率。

h(x) = 1 / (1 + e -z), where z = wx + b

决策树与随机森林

决策树通过"信息增益" (Information Gain) 或"基尼不纯度" (Gini Impurity) 切割数据。**随机森林**通过"Bagging"思想（有放回采样 + 随机特征），让成百上千棵树投票，极大地降低了模型的方差（过拟合风险）。

集成学习 (The Kaggle Killers)

Gradient Boosting (XGBoost/LightGBM)

如果说随机森林是"并行"的民主投票，那么 Boosting 就是"串行"的精英进化。每一棵新树都在努力修正前一棵树犯下的错误（拟合残差）。XGBoost 凭借二阶泰勒展开和工程优化，成为了竞赛之王。

import xgboost as xgb

# 核心：定义模型与参数
model = xgb.XGBClassifier(
    n_estimators=1000,     # 树的数量
    learning_rate=0.05,    # 步长 (Shrinkage)
    max_depth=6,           # 树的深度 (控制过拟合)
    subsample=0.8,         # 随机采样
    n_jobs=-1
)

model.fit(X_train, y_train)
preds = model.predict(X_test)
                    

模型评估与工程

超越 Accuracy：AUC与F1

在样本不平衡（如欺诈检测，99%是好人）的情况下，准确率是会骗人的。我们需要 **Precision** (查准率), **Recall** (查全率) 和 **F1-Score**。**ROC-AUC** 曲线则衡量了模型在不同阈值下的综合表现。

偏差-方差权衡 (Bias-Variance Tradeoff)

机器学习的核心哲学。模型太简单 = High Bias (欠拟合)；模型太复杂 = High Variance (过拟合)。正则化 (Regularization)、交叉验证 (Cross-Validation) 都是为了在这个天平上找到平衡点。