机器学习实战

"Data is the new oil."
机器学习是从数据中提取规律的艺术。在深度学习大行其道的今天,XGBoost 等经典算法依然统治着结构化表格数据 (Tabular Data) 的世界。

经典监督学习

逻辑回归 (Logistic Regression)

不要被名字欺骗,它是**分类**算法。它是所有神经网络神经元的"祖先"。它使用 Sigmoid 函数将线性输出压缩到 (0,1) 之间,表示概率。

h(x) = 1 / (1 + e-z), where z = wx + b

决策树与随机森林

决策树通过"信息增益" (Information Gain) 或"基尼不纯度" (Gini Impurity) 切割数据。**随机森林**通过"Bagging"思想(有放回采样 + 随机特征),让成百上千棵树投票,极大地降低了模型的方差(过拟合风险)。

集成学习 (The Kaggle Killers)

Gradient Boosting (XGBoost/LightGBM)

如果说随机森林是"并行"的民主投票,那么 Boosting 就是"串行"的精英进化。每一棵新树都在努力修正前一棵树犯下的错误(拟合残差)。XGBoost 凭借二阶泰勒展开和工程优化,成为了竞赛之王。

import xgboost as xgb # 核心:定义模型与参数 model = xgb.XGBClassifier( n_estimators=1000, # 树的数量 learning_rate=0.05, # 步长 (Shrinkage) max_depth=6, # 树的深度 (控制过拟合) subsample=0.8, # 随机采样 n_jobs=-1 ) model.fit(X_train, y_train) preds = model.predict(X_test)

模型评估与工程

超越 Accuracy:AUC与F1

在样本不平衡(如欺诈检测,99%是好人)的情况下,准确率是会骗人的。我们需要 **Precision** (查准率), **Recall** (查全率) 和 **F1-Score**。**ROC-AUC** 曲线则衡量了模型在不同阈值下的综合表现。

偏差-方差权衡 (Bias-Variance Tradeoff)

机器学习的核心哲学。模型太简单 = High Bias (欠拟合);模型太复杂 = High Variance (过拟合)。正则化 (Regularization)、交叉验证 (Cross-Validation) 都是为了在这个天平上找到平衡点。