机器学习方法大全
- 学习类型
- 常用算法
- 数学公式 / 优化方法
- 使用场景
1. 监督学习(Supervised Learning)
目标:已知输入 $x$ 与标签 $y$,学习映射 $f: x \to y$。
1.1 回归(Regression)
| 方法 |
类型 |
公式 / 优化目标 |
使用场景 |
| 线性回归 |
线性 |
$\min_w |y - Xw|^2$ |
数值预测 |
| 岭回归 |
线性 |
$\min_w |y - Xw|^2 + \lambda |w|^2$ |
多重共线性 |
| Lasso 回归 |
线性 |
$\min_w |y - Xw|^2 + \lambda |w|_1$ |
特征选择 |
| 弹性网络 |
线性 |
L1+L2 正则 |
特征多且相关 |
| 多项式回归 |
非线性 |
特征映射+线性回归 |
非线性关系 |
| SVR |
核方法 |
$\min \frac12|w|^2$ s.t. $|y_i - w^T\phi(x_i)|<\epsilon$ |
非线性回归 |
| GBDT 回归 |
集成 |
$F_m=F_{m-1}+\nu h_m$ |
高精度回归 |
| 随机森林回归 |
集成 |
多棵树均值输出 |
鲁棒性好 |
| 神经网络回归 |
深度学习 |
MSE 损失 |
大规模非线性预测 |
1.2 分类(Classification)
| 方法 |
类型 |
公式 / 损失函数 |
使用场景 |
| 逻辑回归 |
线性 |
$P(y=1 |
x) = \sigma(w^Tx)$ |
| Softmax 回归 |
线性 |
$P(y=k) = \frac{e^{w_k^T x}}{\sum_j e^{w_j^T x}}$ |
多分类 |
| LDA |
线性 |
$w=S_W^{-1}(\mu_1-\mu_2)$ |
高斯分布假设 |
| 朴素贝叶斯 |
概率 |
$P(y |
x)\propto P(y)\prod_j P(x_j |
| KNN |
距离 |
最近 K 邻居投票 |
小数据 |
| 决策树 |
树模型 |
基尼/信息增益 |
可解释性 |
| 随机森林 |
集成 |
多树投票 |
泛化好 |
| GBDT / XGBoost |
集成 |
Boosting 提升 |
高精度 |
| SVM |
核方法 |
最大间隔优化 |
高维小样本 |
| MLP |
深度学习 |
交叉熵损失 |
泛化强 |
| CNN |
深度学习 |
卷积+池化 |
图像分类 |
| RNN/LSTM/GRU |
深度学习 |
序列建模 |
NLP、时间序列 |
| Transformer 分类器 |
深度学习 |
自注意力 |
NLP/多模态 |
| GCN/GraphSAGE/GAT |
GNN |
聚合邻居特征 |
图数据分类 |
1.3 排序(Ranking)
| 方法 |
类型 |
核心思想 |
场景 |
| Pointwise |
回归方法排序分数 |
搜索、推荐 |
|
| Pairwise (RankNet) |
样本对顺序优化 |
搜索排序 |
|
| Listwise (LambdaMART) |
全列表优化 |
搜索/广告排序 |
|
1.4 多标签分类(Multi-label)
| 方法 |
类型 |
场景 |
| Binary Relevance |
每标签独立二分类 |
多主题标签 |
| Classifier Chains |
标签依赖建模 |
标签相关性强 |
| 神经网络多输出 |
多任务学习 |
多标签输出 |
2. 无监督学习(Unsupervised Learning)
目标:无标签,发现数据结构。
2.1 聚类(Clustering)
| 方法 |
核心公式 |
场景 |
| K-Means |
$\min \sum_i |x_i - \mu_{c_i}|^2$ |
快速聚类 |
| K-Medoids |
中心点为真实样本 |
噪声鲁棒 |
| GMM |
$p(x)=\sum_k \pi_k \mathcal{N}(x |
\mu_k,\Sigma_k)$ |
| DBSCAN |
密度阈值聚类 |
非球形簇 |
| 谱聚类 |
拉普拉斯矩阵特征分解 |
非凸簇 |
2.2 降维(Dimensionality Reduction)
| 方法 |
核心公式 |
场景 |
| PCA |
最大化投影方差 |
可视化、压缩 |
| t-SNE |
KL 散度最小化 |
高维可视化 |
| UMAP |
保持局部邻域结构 |
可视化 |
| LDA(主题模型) |
文档主题分布 |
文本分析 |
2.3 异常检测
| 方法 |
核心思想 |
场景 |
| One-Class SVM |
学习正类边界 |
欺诈检测 |
| 孤立森林 |
随机切分隔离异常 |
工业异常 |
| 自编码器 |
高重构误差 → 异常 |
图像/时序 |
3. 半监督学习(Semi-supervised)
| 方法 |
核心思想 |
场景 |
| 自训练(Self-training) |
用模型预测伪标签再训练 |
标签稀缺 |
| 一致性正则化(MixMatch/FixMatch) |
增强后预测一致性 |
图像/NLP |
4. 自监督学习(Self-supervised)
| 方法 |
核心思想 |
场景 |
| 对比学习(SimCLR/MoCo) |
最大化正样本相似 |
表征学习 |
| 掩码建模(BERT/MAE) |
预测被遮蔽部分 |
NLP/视觉 |
| 生成式预训练(GPT) |
自回归建模序列 |
NLP、多模态 |
5. 强化学习(Reinforcement Learning, RL)
| 方法 |
核心公式 |
场景 |
| Q-Learning |
$Q(s,a) \leftarrow Q + \alpha(r+\gamma\max_a Q’-Q)$ |
离散动作 |
| DQN |
Q-Learning + 深度网络 |
Atari 游戏 |
| 策略梯度(REINFORCE) |
$\nabla_\theta J = \mathbb{E}[\nabla_\theta \log \pi_\theta(a |
s)R]$ |
| Actor-Critic |
策略+价值函数结合 |
稳定收敛 |
| PPO/A3C |
改进 Actor-Critic |
大规模训练 |
6. 在线学习(Online Learning)
| 方法 |
核心思想 |
场景 |
| Online Gradient Descent |
流式数据增量更新 |
实时预测 |
| FTRL |
稀疏特征在线优化 |
广告 CTR 预估 |
7. 多任务学习(Multi-task Learning)
| 方法 |
核心思想 |
场景 |
| 硬共享参数 |
前几层共享 |
相关任务 |
| 软共享参数 |
参数正则约束 |
异质任务 |
| MMOE |
多专家路由任务输出 |
推荐系统 |
| 方法 |
核心思想 |
场景 |
| MAML |
学习初始参数快速适应 |
Few-shot |
| ProtoNet |
类原型度量 |
小样本分类 |
| Matching Networks |
支持集匹配 |
Few-shot NLP |
9. 生成模型(Generative Models)
| 方法 |
核心思想 |
场景 |
| HMM |
隐状态马尔可夫链 |
序列建模 |
| 贝叶斯网络 |
条件概率图 |
因果推断 |
| PixelCNN/WaveNet |
自回归生成 |
图像/音频 |
| VAE |
潜变量 + 重构损失 |
生成+推断 |
| GAN |
对抗训练生成器 |
图像生成 |
| 扩散模型(DDPM/Stable Diffusion) |
逐步去噪生成 |
文生图/视频 |
10. 其它任务类型
- 推荐系统:协同过滤、矩阵分解、DeepFM、DIN
- 图学习:节点分类、链路预测、图生成
- 多模态学习:CLIP、BLIP、VideoBERT