前端analysis | 知其所以然

数据分析算法

2025-10-12

算法分成五大类,从基础到AI级别,覆盖从描述性分析 → 预测性分析 → 生成性分析的全流程。


🧭 一、总体分类总览

算法类型 主要目的 场景举例
① 描述统计类 总结数据特征、发现规律 报表分析、KPI监控
② 诊断分析类 找出变化原因与关系 异常检测、因果分析
③ 预测建模类 预测未来趋势或结果 销售预测、流失预测
④ 聚类与分群类 按特征对数据自动分组 用户分群、图像压缩
⑤ 生成与推荐类(AI) 自动生成结果或策略 推荐系统、生成报告、LLM分析

📊 二、描述性与统计分析类算法

算法 / 方法 作用 应用场景 工具/实现
均值 / 方差 / 中位数 描述集中趋势 销售额、温度平均值 Excel, Pandas
相关分析(Correlation) 衡量两个变量关系强度 广告投放与销售关系 Pandas .corr(), SciPy
主成分分析(PCA) 降维,提取主要特征 多维指标压缩、特征提取 sklearn.decomposition
偏度 / 峰度 检测分布形态 数据是否偏态分布 Pandas, NumPy
时间序列趋势分析 观察时间变化规律 KPI监控、销售季节性 statsmodels, Prophet

📘 示例:

用 PCA 分析 50 个财务指标,提炼出 3 个主成分来解释企业健康度。


🔍 三、诊断分析类算法(Why层面)

算法 / 方法 作用 场景 工具
假设检验 (t-test, ANOVA) 判断差异是否显著 AB测试、活动效果对比 SciPy, R
卡方检验 (Chi-square) 检查分类变量关联性 用户性别与购买偏好 SciPy
回归诊断 (VIF, Cook’s Distance) 检测共线性与异常值 模型优化 sklearn
决策树可解释性分析 查看重要影响因素 销售下滑原因分析 sklearn.tree
异常检测 (Isolation Forest, DBSCAN) 自动识别异常样本 欺诈检测、系统监控 sklearn, PyOD

📘 示例:

用 t-test 检验活动 A 和 B 的转化率差异是否显著。


📈 四、预测建模类算法(Predictive Analytics)

算法 类型 应用场景 工具
线性回归 (Linear Regression) 连续预测 销售额、房价预测 sklearn
逻辑回归 (Logistic Regression) 二分类预测 用户流失/转化预测 sklearn
决策树 (Decision Tree) 分类与回归 客户信用评分、风险评估 sklearn
随机森林 (Random Forest) 集成学习 特征复杂场景预测 sklearn
XGBoost / LightGBM 高性能模型 大数据、竞赛预测 XGBoost, LightGBM
时间序列 (ARIMA, Prophet, LSTM) 序列趋势预测 销售趋势、流量预测 statsmodels, fbprophet, TensorFlow
贝叶斯分析 (Bayesian Inference) 概率预测 医疗诊断、风险概率估计 PyMC3, Stan

📘 示例:

用 XGBoost 预测“下月客户流失概率”,并用 SHAP 可解释性图分析关键因素。


🧩 五、聚类与分群分析类算法(Exploratory Analytics)

算法 类型 场景 工具
K-Means 基于距离的聚类 用户分群、图像压缩 sklearn.cluster
DBSCAN 密度聚类 异常检测、地理位置聚合 sklearn
层次聚类 (Hierarchical) 层级关系分析 客户画像、基因分类 scipy.cluster
GMM(高斯混合模型) 软聚类 市场细分 sklearn.mixture
SOM(自组织映射) 非线性聚类 特征降维、可视化 minisom

📘 示例:

用 K-Means 把用户分为「高价值」「中活跃」「潜在流失」三类。


🤖 六、生成性与推荐类算法(AI/Prescriptive Analytics)

算法 类型 场景 工具
协同过滤 (Collaborative Filtering) 个性化推荐 电商、视频推荐 Surprise, implicit
矩阵分解 (SVD, NMF) 隐因子建模 推荐系统 sklearn.decomposition
强化学习 (Reinforcement Learning) 策略最优决策 定价、广告投放优化 Stable-Baselines3
LLM + 数据分析 智能报告、解释模型 ChatGPT、LangChain + Pandas Agent OpenAI API
GAN / Diffusion / Transformer 生成数据、图像、文本 模拟场景、生成性分析 PyTorch, HuggingFace

📘 示例:

用 GPT + 数据源生成自动化分析报告:
“上周销售额下降主要由于东南区域新品点击率降低。”


🧮 七、算法选择思维导图

1
2
3
4
5
6
7
8
📘 目标明确 → 选算法类别:

├─ 了解数据特征 → 描述统计 / 可视化
├─ 想解释“为什么” → 诊断分析
├─ 想预测“接下来” → 回归 / 分类 / 时间序列
├─ 想探索“用户分群” → 聚类 / 降维
├─ 想生成“推荐或策略” → 生成式 / 推荐算法 / 强化学习
└─ 想让AI解释数据 → LLM智能分析

🧠 八、应用举例汇总

业务场景 典型算法 输出
电商销售预测 时间序列 + XGBoost 销售趋势与风险预警
用户画像 K-Means + PCA 用户分群与营销定位
客户流失分析 逻辑回归 + 决策树 流失率预测与关键因素
欺诈检测 Isolation Forest + DBSCAN 异常交易识别
营销推荐 协同过滤 + 强化学习 个性化推荐策略
智能报告生成 GPT + LLM Chain 自动化分析与自然语言报告

✅ 九、进阶建议

层级 学习目标 工具
入门 描述性 + 回归 + 聚类 Excel / Pandas / sklearn
进阶 集成学习 + 时间序列 + 推荐 XGBoost / Prophet / Surprise
高阶 AutoML + LLM生成分析 PyCaret / MLflow / LangChain
使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏