机器学习实战
"Data is the new oil."
机器学习是从数据中提取规律的艺术。在深度学习大行其道的今天,XGBoost 等经典算法依然统治着结构化表格数据 (Tabular Data) 的世界。
经典监督学习
逻辑回归 (Logistic Regression)
不要被名字欺骗,它是**分类**算法。它是所有神经网络神经元的"祖先"。它使用 Sigmoid 函数将线性输出压缩到 (0,1) 之间,表示概率。
决策树与随机森林
决策树通过"信息增益" (Information Gain) 或"基尼不纯度" (Gini Impurity) 切割数据。**随机森林**通过"Bagging"思想(有放回采样 + 随机特征),让成百上千棵树投票,极大地降低了模型的方差(过拟合风险)。
集成学习 (The Kaggle Killers)
Gradient Boosting (XGBoost/LightGBM)
如果说随机森林是"并行"的民主投票,那么 Boosting 就是"串行"的精英进化。每一棵新树都在努力修正前一棵树犯下的错误(拟合残差)。XGBoost 凭借二阶泰勒展开和工程优化,成为了竞赛之王。
模型评估与工程
超越 Accuracy:AUC与F1
在样本不平衡(如欺诈检测,99%是好人)的情况下,准确率是会骗人的。我们需要 **Precision** (查准率), **Recall** (查全率) 和 **F1-Score**。**ROC-AUC** 曲线则衡量了模型在不同阈值下的综合表现。
偏差-方差权衡 (Bias-Variance Tradeoff)
机器学习的核心哲学。模型太简单 = High Bias (欠拟合);模型太复杂 = High Variance (过拟合)。正则化 (Regularization)、交叉验证 (Cross-Validation) 都是为了在这个天平上找到平衡点。