算法分成五大类,从基础到AI级别,覆盖从描述性分析 → 预测性分析 → 生成性分析的全流程。
🧭 一、总体分类总览
| 算法类型 | 主要目的 | 场景举例 |
|---|---|---|
| ① 描述统计类 | 总结数据特征、发现规律 | 报表分析、KPI监控 |
| ② 诊断分析类 | 找出变化原因与关系 | 异常检测、因果分析 |
| ③ 预测建模类 | 预测未来趋势或结果 | 销售预测、流失预测 |
| ④ 聚类与分群类 | 按特征对数据自动分组 | 用户分群、图像压缩 |
| ⑤ 生成与推荐类(AI) | 自动生成结果或策略 | 推荐系统、生成报告、LLM分析 |
📊 二、描述性与统计分析类算法
| 算法 / 方法 | 作用 | 应用场景 | 工具/实现 |
|---|---|---|---|
| 均值 / 方差 / 中位数 | 描述集中趋势 | 销售额、温度平均值 | Excel, Pandas |
| 相关分析(Correlation) | 衡量两个变量关系强度 | 广告投放与销售关系 | Pandas .corr(), SciPy |
| 主成分分析(PCA) | 降维,提取主要特征 | 多维指标压缩、特征提取 | sklearn.decomposition |
| 偏度 / 峰度 | 检测分布形态 | 数据是否偏态分布 | Pandas, NumPy |
| 时间序列趋势分析 | 观察时间变化规律 | KPI监控、销售季节性 | statsmodels, Prophet |
📘 示例:
用 PCA 分析 50 个财务指标,提炼出 3 个主成分来解释企业健康度。
🔍 三、诊断分析类算法(Why层面)
| 算法 / 方法 | 作用 | 场景 | 工具 |
|---|---|---|---|
| 假设检验 (t-test, ANOVA) | 判断差异是否显著 | AB测试、活动效果对比 | SciPy, R |
| 卡方检验 (Chi-square) | 检查分类变量关联性 | 用户性别与购买偏好 | SciPy |
| 回归诊断 (VIF, Cook’s Distance) | 检测共线性与异常值 | 模型优化 | sklearn |
| 决策树可解释性分析 | 查看重要影响因素 | 销售下滑原因分析 | sklearn.tree |
| 异常检测 (Isolation Forest, DBSCAN) | 自动识别异常样本 | 欺诈检测、系统监控 | sklearn, PyOD |
📘 示例:
用 t-test 检验活动 A 和 B 的转化率差异是否显著。
📈 四、预测建模类算法(Predictive Analytics)
| 算法 | 类型 | 应用场景 | 工具 |
|---|---|---|---|
| 线性回归 (Linear Regression) | 连续预测 | 销售额、房价预测 | sklearn |
| 逻辑回归 (Logistic Regression) | 二分类预测 | 用户流失/转化预测 | sklearn |
| 决策树 (Decision Tree) | 分类与回归 | 客户信用评分、风险评估 | sklearn |
| 随机森林 (Random Forest) | 集成学习 | 特征复杂场景预测 | sklearn |
| XGBoost / LightGBM | 高性能模型 | 大数据、竞赛预测 | XGBoost, LightGBM |
| 时间序列 (ARIMA, Prophet, LSTM) | 序列趋势预测 | 销售趋势、流量预测 | statsmodels, fbprophet, TensorFlow |
| 贝叶斯分析 (Bayesian Inference) | 概率预测 | 医疗诊断、风险概率估计 | PyMC3, Stan |
📘 示例:
用 XGBoost 预测“下月客户流失概率”,并用 SHAP 可解释性图分析关键因素。
🧩 五、聚类与分群分析类算法(Exploratory Analytics)
| 算法 | 类型 | 场景 | 工具 |
|---|---|---|---|
| K-Means | 基于距离的聚类 | 用户分群、图像压缩 | sklearn.cluster |
| DBSCAN | 密度聚类 | 异常检测、地理位置聚合 | sklearn |
| 层次聚类 (Hierarchical) | 层级关系分析 | 客户画像、基因分类 | scipy.cluster |
| GMM(高斯混合模型) | 软聚类 | 市场细分 | sklearn.mixture |
| SOM(自组织映射) | 非线性聚类 | 特征降维、可视化 | minisom |
📘 示例:
用 K-Means 把用户分为「高价值」「中活跃」「潜在流失」三类。
🤖 六、生成性与推荐类算法(AI/Prescriptive Analytics)
| 算法 | 类型 | 场景 | 工具 |
|---|---|---|---|
| 协同过滤 (Collaborative Filtering) | 个性化推荐 | 电商、视频推荐 | Surprise, implicit |
| 矩阵分解 (SVD, NMF) | 隐因子建模 | 推荐系统 | sklearn.decomposition |
| 强化学习 (Reinforcement Learning) | 策略最优决策 | 定价、广告投放优化 | Stable-Baselines3 |
| LLM + 数据分析 | 智能报告、解释模型 | ChatGPT、LangChain + Pandas Agent | OpenAI API |
| GAN / Diffusion / Transformer | 生成数据、图像、文本 | 模拟场景、生成性分析 | PyTorch, HuggingFace |
📘 示例:
用 GPT + 数据源生成自动化分析报告:
“上周销售额下降主要由于东南区域新品点击率降低。”
🧮 七、算法选择思维导图
1 | 📘 目标明确 → 选算法类别: |
🧠 八、应用举例汇总
| 业务场景 | 典型算法 | 输出 |
|---|---|---|
| 电商销售预测 | 时间序列 + XGBoost | 销售趋势与风险预警 |
| 用户画像 | K-Means + PCA | 用户分群与营销定位 |
| 客户流失分析 | 逻辑回归 + 决策树 | 流失率预测与关键因素 |
| 欺诈检测 | Isolation Forest + DBSCAN | 异常交易识别 |
| 营销推荐 | 协同过滤 + 强化学习 | 个性化推荐策略 |
| 智能报告生成 | GPT + LLM Chain | 自动化分析与自然语言报告 |
✅ 九、进阶建议
| 层级 | 学习目标 | 工具 |
|---|---|---|
| 入门 | 描述性 + 回归 + 聚类 | Excel / Pandas / sklearn |
| 进阶 | 集成学习 + 时间序列 + 推荐 | XGBoost / Prophet / Surprise |
| 高阶 | AutoML + LLM生成分析 | PyCaret / MLflow / LangChain |
赏
使用支付宝打赏
使用微信打赏
若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏