频率
在有限次试验中,某事件发生的实际观测比例
- 频率=\frac{事件发生次数 m}{总试验次数 n}
概率
描述某事件发生的理论可能性,是频率的长期稳定值, P(A)∈[0,1]
- 根据概率的统计定义,可以用频率来近似代替某一事件的概率:
大量重复试验中该随机事件出现的次数占试验总次数的比例 - 在有限样本下,频率只是概率的估计值,两者通常不严格相等,当n充分大时,频率会非常接近概率
分类数据
用于描述对象的类别或标签。
- 通常表示离散的、非数值的分组信息,取值是有限的类别(如性别、颜色、品牌),无法进行算术运算(如加减乘除),但可以计算频率或比例。
均数
- 算术平均数(Mean)
- 所有数据的总和除以数据量(\frac{\sum{x_i}}{n})
- 极端值会显著拉高或拉低平均值
- 调和平均数(Harmonic Mean)
- 数据量除以各数值倒数的和(\frac{n}{\sum{x_i^{-1}}})
- 对极小值极端敏感(因倒数放大作用)
- 众数(Mode)
- 数据集中出现频率最高的数值
- 众数仅依赖数据的出现次数,与具体数值大小无关。
- 中位数
- 中位数是数据集中按大小顺序排列后位于中间位置的值
- 数据量为奇数时,直接取中间位置的数
- 数据量为偶数时,取中间两个数的平均值
- 不受极端值影响
总体
总体是指我们研究的全部对象或个体的集合
- 某研究部门准备在全市 200 万个家庭中抽取 2000 个家庭,据此推断该城市所有职工家庭的年人均收入,这项研究的研究总体是:200 万个家庭,年人均收入是每个家庭的测量指标(即每个家庭的属性),而非研究单位本身。
参数
参数是描述总体特征的数值。
- 常见的参数包括总体均值 μ、总体方差 σ^2、总体标准差 σ 等
总体均值
- 用于描述一组数据的集中趋势。它通过将所有数据值相加并除以数据的个数来计算
- μ=\frac{1}{n}\sum^{n}_{i=1}x_i
总体方差
- 方差是各个数据与其均值差的平方的平均值
- σ^2=\frac{1}{n}\sum^{n}_{i=1}(x_i-μ)^2
样本
样本(Sample是从更大的总体(Population)中选出的一部分个体或观测值,用于代表总体进行研究或分析。
- 样本的目的是通过对部分数据的分析,推断总体的特征(如均值、方差、分布等),从而避免调查全部总体的高成本或不可行性。
- 设总体均值为 100,总体方差为 25,在大样本情况下,无论总体的分布形式如何,样本平均数的分布都服从或近似服从趋近于:N(100, \frac{25}{n})
- 在有限样本下,频率只是概率的估计值,两者通常不严格相等,当n充分大时,频率会非常接近概率。
统计量
统计量是描述样本特征的数值
- 统计量是随机的,因为样本是随机抽取的,每次抽取的样本不同,得到的统计量也会不同
- 常见的统计量包括样本均值 \bar{X} 、样本方差S^2、样本标准差 S 等
样本均值
- 均值是数据集中所有数值的平均值
- \bar X = \frac {1}{n}\sum_{i=1}^{n}X_i,其中 X_i 是数据集中的第 i 个数值,n 是数据集中的数值个数。
- 均值反映了数据集的中心位置
样本方差
- S^2 = \frac {1}{n-1} \sum_{i=1}^{n}{(X_i - \bar x)}^2,其中 X_i 是数据集中的第 i 个数值,\bar X 是数据集的均值,n 是数据集中的数值个数。
- 方差是数据集中每个数值与均值之差的平方的平均值
- 使用 \frac{1}{n-1} 可以使样本方差成为总体方差的无偏估计量, 可用数学证明证明为无偏。
异方差
- 描述的是在回归模型中,误差项的方差不是常数的情况,误差项ϵ_i 的方差 Var(ϵ_i) 随着 X_i 或其他因素的变化而变化, Var(ϵ_i)={σ_i}^2, 其中 {σ_i}^2 不是一个常数
如何识别异方差
- 图形法
- 残差图:绘制残差(e_i)与预测值(\hat Y_i)或自变量的散点图。
- 若散点呈现漏斗形、扇形或非线性模式,可能存在异方差性。
- 示例:
- 预测值增大时,残差波动范围明显扩大 → 异方差性。
- 残差图:绘制残差(e_i)与预测值(\hat Y_i)或自变量的散点图。
- 统计检验
- Breusch-Pagan检验:检验残差方差是否与自变量相关。
- 原假设(H₀):同方差性。若P值<0.05,拒绝H₀,存在异方差性。
- White检验:更通用的检验,适用于非线性关系。
- Breusch-Pagan检验:检验残差方差是否与自变量相关。
如何处理异方差
- 模型变换
- 对数变换:对因变量或自变量取对数,压缩数据尺度,减少方差波动。
- 公式:log(Y)或 log(X)。
- 适用场景:数据呈指数增长趋势(如收入、房价)。
- 加权最小二乘法(WLS)
- 原理:为不同观测值分配权重(通常权重=1/方差),使高方差数据对模型的影响降低。
- 步骤:
- 估计残差方差(如通过辅助回归)。
- 以方差的倒数作为权重,重新拟合模型。
- 广义最小二乘法(GLS)
- LS 是普通最小二乘法(OLS)的扩展,通过对误差项的方差-协方差矩阵进行建模
- 若 Ω为对角矩阵(仅异方差性),GLS 退化为 加权最小二乘法(WLS)。
- 稳健标准误(Huber-White标准误)
- 原理:不改变模型系数,但调整标准误的计算方式,使假设检验(t检验、F检验)结果更可靠。
- 优点:简单易行,无需改变模型结构。
- 重新设定模型
- 添加遗漏变量:异方差可能由模型缺失关键变量引起。
- 引入交互项或高次项:捕捉非线性关系(如X^2或X_1×X_2)。
- 分位数回归
- 原理:估计因变量在不同分位数(如中位数、75分位数)下的关系,不依赖误差项的同方差假设。
- 适用场景:数据分布不均匀或存在极端值。
标准差
- 标准差是方差的平方根
简单随机抽样(Simple Random Sampling)
从包含 N 个单位的总体中,完全随机地抽取 n 个单位作为样本,且每个可能的样本组合被抽中的概率相同。
- 无偏性:每个个体被抽中的概率均等(\frac{n}{N}),保证估计量无偏。
- 独立性:每次抽样互不影响(有放回抽样)或近似独立(无放回抽样,当 n≪N时)。
适用场景
- 总体同质性强(如同一生产线上的产品质量检测)。
- 无明确分层结构(如早期探索性研究)。
- 资源有限,需快速抽样时。
分层抽样(Stratified Sampling)
通过将总体划分为若干互不重叠的层(Strata),再从每层中独立抽样.
- 降低抽样误差:若层内同质性强、层间异质性强,分层抽样的估计量方差显著小于简单随机抽样。
- 保证子群代表性:确保关键子群(如地区、年龄段)不被随机忽略,特别适用于不平衡总体(如少数群体占比低时)。
- 层内同质性越强(即层内个体差异小),抽样误差越小。
- 层间差异越大,分层抽样的优势越明显(简单随机抽样可能无法捕捉极端群体)
适用场景
- 总体存在明显分层结构(如不同收入阶层、教育水平)。
- 需保证少数群体代表性(如少数民族、罕见疾病患者)。
- 资源有限时提高效率(通过最优分配减少所需样本量)。
回归分析
回归分析是一种强大的统计工具,用于研究变量间的依赖关系。
应用场景
- 经济学与金融
- 预测GDP增长、通货膨胀率或失业率
- 评估政策效果(如最低工资政策对就业的影响)
- 分析股票价格与市场指标(如利率、市盈率)的关系
- 医学与公共卫生
- 研究疾病风险因素(如吸烟对肺癌的影响)
- 预测患者治疗效果或住院时长
- 分析公共卫生政策的效果(如疫苗接种率对疾病传播的影响)
- 市场营销与商业
- 预测销售额(基于广告投入、价格、季节性因素)
- 客户行为分析(如购买概率与促销活动的关系)
- 用户流失预警(如订阅服务的退订风险)。
- 社会科学
- 研究教育水平对收入的影响
- 分析犯罪率与社会经济因素(如失业率、贫困率)的关系
- 工程与制造业
- 优化生产工艺(如温度、压力对产品质量的影响)
- 预测设备故障时间(基于使用时长、维护记录)
- 环境科学
- 预测空气质量指数(基于工业排放、气象数据)
- 分析气候变化对农作物产量的影响
- 技术与互联网
- 预测网站流量(基于SEO优化、广告投放)
- 用户推荐系统(如评分预测模型)
- 农业
- 预测农作物产量(基于降雨量、施肥量、土壤类型)
- 优化种植条件(如光照、温度对生长速度的影响)
总平方和(TSS\SST)
表示因变量的总变异(实际观测值与均值之间的差异)
TSS=\sum^ {n}_{i=1}(y_i-\bar {y})^2
- y_i是第 i 个实际值。
- \bar{y}是实际值的均值。
- n 是数据点的总数。
残差平方和(RSS\SSE)
实际观测值与回归模型预测值之间的差异(即未被模型解释的变异)
RSS=\sum^ {n}_{i=1}(y_i-\hat {y_i})^2
- y_i是第 i 个实际值。
- \hat{y_i}是第 i 个预测值。
- n 是数据点的总数。
- SSE 越小,模型拟合越好
回归平方和(SSR)
表示因变量的变异中,能够被回归模型(自变量)解释的部分
SSR=\sum^ {n}_{i=1}(\hat {y_i} - \bar{y})^2
- \hat{y_i}是第 i 个预测值。
- \bar{y}是实际值的均值。
- n 是数据点的总数。
- SSE 越小,模型拟合越好
- SST = SSR + SSE
线性回归
Y_i=β_0+β_1X_i+ε_iY_i中,关于误差项 ε_i 的标准假设是:
- ε_i 通常被称为误差项或扰动项,反应的是除 X 和 Y 的线性关系之外的随机因素对 Y 的影响
- 零均值, E(ε_i)=0对所有i, 误差的期望值为零,模型没有系统性偏差
- 同方差性, Var(ε_i)=σ^2, 误差的方差是常数,不随 X_i 或 Y_i 变化
- 无自相关, Cov(ε_i,ε_j)=0, 不同观测值的误差之间不相关
- 与解释变量无关, Cov(ε_i,X_i)=0, 误差项与解释变量 X_i 不相关
拟合优度
拟合优度用于评估统计模型(如回归模型)对观测数据的解释能力.
判定系数R方
R^2=1−\frac{SSE}{SST}=\frac{SSR}{SST}, 判定系数R方是最常用的拟合优度指标之一,表示模型能解释因变量(Y)变异性的比例。
- SSE(残差平方和):模型未解释的变异,
- SST(总平方和):因变量的总变异
- 接反映模型解释数据变异的百分比
- R^2 会随自变量增加而单调上升,即使新增变量与因变量无关(只是拟合噪声)
- R^2 = 0:模型完全不能解释Y的变异(等同于用均值预测)。
- R^2 = 1:模型完美拟合数据(所有预测值与真实值完全一致)。
- 0 < R^2 < 1:模型解释了部分变异,数值越大,拟合越好。
调整R方
{Adjusted}R^2=1−\frac{SST/(n−1)}{SSE/(n−k−1)}
- 调整R^2, 分母和分子同时除以各自的自由度,惩罚冗余变量
- 若增加变量后调整R^2下降,说明该变量可能是噪声
- 调整R^2可能随变量增加而减小,从而抑制过度复杂的模型
- 引入调整R^2 ,避免R^2 随着引入模型中自变量的个数的增加而趋于 1
过拟合
过拟合是指模型在训练数据上表现得非常好,但在新的、未见过的测试数据上表现较差的现象
- 模型对训练数据的细节和噪声过度学习,导致模型泛化能力差,无法很好地适应新的数据
- 过拟合的原因有模型复杂度过高、训练数据量不足、训练数据质量差
如何识别过拟合
- 训练集与测试集表现差异大
- 训练集上R²高(如0.95),但测试集R²骤降(如0.60)。
- 模型在训练集上误差极低,但测试集误差显著升高。
- 系数异常
- 某些自变量的系数值极大或符号与业务常识相反(如贷款余额与不良贷款负相关)。
- 系数标准误差过大,导致t Stat不稳定。
- 模型复杂度高
- 自变量数量过多(如样本量n=100,但变量k=30),尤其是包含无关变量。
- 交叉验证结果差
- K折交叉验证中,各折的模型表现波动剧烈。
如何处理过拟合
- 简化模型复杂度
- 变量筛选:
- 逐步回归(向前/向后/双向)选择显著变量。
- LASSO回归(L1正则化):自动将不重要变量的系数压缩为0。
- 基于业务知识剔除无关变量(如“贷款项目个数”P值=0.86时可删除)。
- 减少交互项或高次项:
避免不必要的多项式项(如X^2,X^3)或交互项(如X_1×X_2)。
- 使用正则化方法
- 岭回归(Ridge, L2正则化):
通过惩罚系数平方和(λ∑β^2)减小系数值,防止过度波动。- 适合处理共线性问题,但不会将系数压缩为0。
- 弹性网络(Elastic Net):
结合L1和L2正则化,适用于高维数据(变量数>>样本量)。
- 增加数据量
- 扩大样本量:更多数据可降低模型对噪声的敏感度。
- 数据增强:通过合成数据(如SMOTE)或分时段采样扩充数据集。
- 交叉验证
- K折交叉验证(如K=5或10):
多次划分训练集/验证集,确保模型性能稳定。 - 早停法(Early Stopping):
在迭代训练(如梯度下降)中,当验证集误差不再下降时停止训练。
- 集成方法
- 随机森林/梯度提升树(GBM):
通过多棵决策树投票平均,降低单一模型的过拟合风险。 - Bagging:如对回归模型进行Bootstrap聚合。
- 业务逻辑验证
- 系数合理性检查:
如“固定资产投资额”系数为负(减少不良贷款)需符合业务逻辑。 - 模型可解释性:优先选择业务可理解的简单模型。
多重共线性
多重共线性指回归模型中两个或多个自变量高度线性相关
- 在回归分析中,当自变量之间存在很强的相关性时,将产生多重共线性
- 估计失真:回归系数方差增大,统计检验失效(如p值不显著)。
- 解释困难:难以区分单个变量的独立影响。
- 极端情况:完全共线性(如一个变量是另一个的线性组合)会使模型无法求解(矩阵不可逆)。
识别多重共线性问题
- 计算相关系数矩阵:若两个自变量相关系数 >0.8(或 <-0.8),可能存在共线性
- 可视化:用热力图(Heatmap)展示相关系数,快速定位强相关变量。
- 回归系数异常,系数符号与理论预期相反(如广告投入增加但销量系数为负);系数值异常大(如某变量微小变化导致预测值剧烈波动)。
- 方差膨胀因子,VIF < 5:无显著共线性;5 ≤ VIF < 10:中度共线性;VIF ≥ 10:严重共线性(需处理)
- 系数稳定性测试,删除某个变量后,其他系数发生大幅变化。
- 统计显著性矛盾,模型整体显著(F检验通过),但多数变量单独不显著(t检验不通过)。
- 条件指数(Condition Index)与方差比例,若条件指数 >30 且某变量的方差比例 >0.5,提示共线性
方差膨胀因子(VIF)
{VIF}_k = \frac{1}{1 - {R^2}_k}
- 方差膨胀因子是检测方法多重共线性的常见方法
- VIF < 5:可接受
- 5 ≤ VIF ≤ 10:中度共线性
- VIF > 10:严重共线性(需处理)
相关系数矩阵
相关系数矩阵是对称方阵,用于量化多个变量间的线性关系强度与方向
- 绝对值越接近1相关性越强, 1 为完全正相关,-1为完全负相关
- 相关系数矩阵是协方差矩阵的标准化形式:R=D^{−1/2}ΣD^{−1/2}, 其中D=\text{diag}(\Sigma),\Sigma为协方差矩阵。
- 任意两个自变量相关系数 > 0.8 时需警惕,可能存在共线性
自相关
- 自相关是指时间序列中当前观测值与历史观测值之间的相关性,反映数据的"记忆效应"
- 正自相关:当前值与历史值同向变化(如气温连续升高)
- 负自相关:当前值与历史值反向变化(如均值回归现象)
- 一阶自相关:当前值仅与前一值相关
- 高阶自相关:当前值与多个历史值相关(如季度数据可能呈现4阶自相关)
DW(Durbin-Watson)
专门检测一阶自相关(即当前残差与前一期的残差是否存在线性关系)
- d≈2:无自相关。
- d→0:强正自相关(如 d<1.5)。
- d→4:强负自相关(如 d>2.5)。
最小二乘法(OLS)
Y=β_0+β_1X_1+β_2X_2+⋯+β_pX_p+ϵ, 用于估计因变量 Y 与一个或多个自变量 X之间的线性关系。
- Y:因变量(被预测变量)
- X1,X2,…,Xp:自变量(特征)
- β0:截距(偏置项)
- β1,…,βp:回归系数(斜率)
- ϵ:随机误差(服从 N(0,σ^2))
- 核心思想是最小化预测值与真实值之间的残差平方和,从而找到最优的回归系数
- OLS 的解可以通过 正规方程(Normal Equation) 求: \hat{\beta }=(X^TX)^{-1}X^TY
岭回归
\hat{\beta }^{ridge}=(X^TX+\lambda I)^{-1}X^TY,岭回归是一种用于解决线性回归中多重共线性问题的正则化回归方法,防止模型过拟合,并提高在共线性数据下的稳定性。
- X 是自变量矩阵(标准化后更佳)。
- I 是单位矩阵。
- λ 是调节参数(需通过交叉验证选择)。
- 通过引入 L2正则化项(L2 Penalty)来约束回归系数
- 岭回归不会将系数压缩到精确的0,而是让所有系数共同缩小
- 当 λ=0,岭回归退化为OLS回归
- 当 λ→∞,所有系数趋近于0
主成分分析PCA
通过线性变换将高维数据投影到低维空间,同时保留最大方差信息.
- 主成分分析(PCA)是一种无监督降维方法
- 广泛应用于数据压缩、可视化、去噪和特征提取
步骤
- 标准化数据(均值为0,方差为1,避免量纲影响
Z_{ij}=\frac{X_{ij}-μ_j}{σ_j} - 计算协方差矩阵(p×p)
C=\frac{1}{n}Z^TZ - 特征值分解
C=VΛV^T
- Λ:对角矩阵,元素为特征值 λ1≥λ2≥⋯≥λ
- V:特征向量矩阵,每一列是一个主成分方向
按特征值从大到小排序,保留前 kk 个主成分(通常累计方差贡献率 > 80%)
- 投影数据(降维)
T=ZV_k
- V_k:前 k 个特征向量组成的矩阵(p×)。
- T:降维后的数据(n×k)。
正态分布
正态分布是连续型概率分布,又称高斯分布
- f(x)=\frac{1}{σ\sqrt{2π}}e^{−{\frac{(x−μ)^2}{2σ^2}}}
- \mu:均值(分布中心)
- \sigma:标准差(离散程度)
- 对称性:以均值\mu为对称轴,左右完全对称
- 渐近性:曲线向两端无限延伸,永不触及x轴
- N(μ,σ^2) 是正态分布(Normal Distribution)的标准表示方法
- \mu \pm \sigma 包含68.27%数据
- \mu \pm 2\sigma 包含95.45%数据
- \mu \pm 3\sigma 包含99.73%数据
- 当 μ=0、σ^2=1 时,称为标准正态分布,记作:
Z∼N(0,1)
中心极限定理(CLT)
根据中心极限定理(CLT),无论总体服从何种分布,只要样本量足够大(n≥30),样本均值的抽样分布都会趋于正态分布。
- 只有当总体本身是正态分布时,样本均值的抽样分布才在任何样本量下都精确服从正态分布。
- 对于极端偏态或重尾分布,可能需要更大的n才能达到好的近似效果。
二项分布
- 二项分布B(n,p)的正态近似需要满足np≥5且n(1-p)≥5的条件。
- 当n很小或p接近0/1时,正态近似效果很差。
- 极端情况下(如n=1),二项分布本身就是伯努利分布,不能用正态近似。
计算
P(X=k)=C(n,k)*p^k*(1-p)k
- 同时抛 3 枚质地均匀的硬币,恰好有 2 枚正面向上的概率为,3×(0.5)^2×(0.5)^1=0.375
- 另一种计算为\frac{k}{n}=\frac{3}{8}=0.375
逻辑回归
通过输入特征预测一个二分类目标变量,通常标记为0和1。表达式为:\hat y = σ(w⋅x+b),其中σ(z)=\frac {1}{1+e^{−z}}, w⋅x 表示特征向量和权重向量的点积。
- 如果 \hat y大于等于0.5,则预测为1;否则预测为0。
- 逻辑回归模型结构简单,计算复杂度低,适合处理大规模数据集
显著性水平
它用于决定是否拒绝零假设(H0),是犯第一类错误(即错误地拒绝了实际上正确的零假设)的最大可接受概率
- 常见的显著性水平有 0.05、0.01 和 0.10。0.05表示犯第一类错误的概率。
- 通过降低显著性水平α(如从0.05改为0.01)可减少第一类错误,但会增大第二类错误的风险。需权衡两者。
- 具体选择哪个显著性水平取决于研究的具体需求和对错误容忍度的考虑。
第一类错误(Type I Error)
当原假设(H₀)实际上为真时,错误地拒绝了原假设。
第二类错误(Type II Error)
当H₀为假时,未拒绝它(漏检,概率记为β)
F检验
F检验是通过计算两个样本方差的比值(F值)来判断两个总体方差是否相等。
- F=\frac{S^2_1}{S^2_2}
- 如果两个总体方差相等,那么这个比值应该接近1。
- 如果比值显著大于1或小于1,那么可以认为两个总体方差不相等
- F检验要求数据服从正态分布。如果数据不满足正态性假设,可能需要使用非参数检验方法
- F检验对样本大小有要求,样本大小过小可能会影响检验的准确性。一般建议每个样本的大小至少为30
- F检验对异常值敏感。异常值可能会显著影响样本方差的计算结果,从而影响F检验的结论。
计算步骤
- 提出假设:
- 零假设 H0:两个总体方差相等,即 σ^2_1=σ^2_2
- 备择假设 H1:两个总体方差不相等,即 σ^2_1\neq σ^2_2
- 计算F值:
- 计算两个样本的方差σ^2_1和 σ^2_2。
- 计算F值:F=\frac{S^2_1}{S^2_2}
- 确定临界值:
- 根据给定的显著性水平 α(如0.05)和自由度 df_1 和 df_2,从F分布表中查找临界值。
- 做出决策:
- 若F > 临界值,拒绝零假设,认为两个总体方差不相等。
- 若F \leqslant 临界值,不能拒绝零假设,认为两个总体方差相等。
t检验
用于判断两组数据的均值是否存在显著差异。它基于 t分布(Student's t-distribution),适用于小样本(通常 n < 30)或总体标准差未知的情况。
计算步骤
t检验的步骤
- 提出假设(H0和H1)。
- H0(原假设):样本均值和总体均值一致,即\bar X = μ_0,
- H1(备择假设):样本均值和总体均值不一致,即\bar X \neq μ_0(或 >,<)
- 选择显著性水平α(通常α=0.05)。
- 计算t统计量(根据检验类型选择公式)。
t=\frac{\bar X - μ_0}{s/\sqrt{n}}
- s:样本标准差,n:样本量
- 确定临界值:查t分布表或软件获取临界t值(取决于自由度df和α)。
- 做出决策:
- 若 |t| > 临界值 ,则拒绝H0,认为差异显著。
- 若 p 值 < α,则拒绝H0(p值法更常用)。
Z 检验
检验样本均值是否与已知的总体均值有显著差异
- Z=\frac{\bar x - μ}{σ/\sqrt n}
- 若 |Z| > 临界值,我们拒绝零假设 H0
- 双尾检验,我们需要找到 α/2=0.025 对应的 Z 值
p值
p值(p-value) 是统计学假设检验中的一个关键概念,表示在原假设(H0)为真的情况下,观察到当前样本数据(或更极端情况)的概率
- p值是所有假设检验的统一输出,无论使用何种检验方法,最终通过p值与α比较得出结论
如何判断判断统计显著性
- 通常设定一个显著性水平(α,如0.05)。
- 如果 p ≤ α,则拒绝原假设(认为结果显著)。
- 如果 p > α,则无法拒绝原假设(结果不显著)。
如何得到p值
- t检验: 查t分布得p值。
- z检验: 查正态分布得p值。
- F检验: 查F分布得p值。
- 卡方检验:计算χ²值 → 查卡方分布得p值。
数据挖掘
数据挖掘(Data Mining)是从大规模数据中通过算法自动或半自动地提取隐含的、先前未知的、具有潜在价值的信息的过程。
- 本质是知识发现(KDD, Knowledge Discovery in Databases)
数据挖掘核心技术方法
- 分类与预测(监督学习)
根据已知标签数据建立模型,预测新数据的类别或数值。
典型算法:
- 决策树(C4.5, CART):可解释性强,适用于客户分群。
- 随机森林:高精度,抗过拟合,用于信用评分。
- SVM:适合小样本高维数据(如基因分类)。
- 神经网络:处理复杂非线性关系(如图像识别)。
商业应用:
- 金融风控(贷款违约预测)
- 医疗诊断(癌症早期筛查)
- 聚类分析(无监督学习)
将数据分组,组内相似、组间差异大。
典型算法:
- K-Means:快速聚类(用户细分)。
- DBSCAN:处理噪声数据(异常交易检测)。
- 层次聚类:生成树状图(生物物种分类)。
商业应用:
- 市场细分(电商用户画像)
- 社交网络社区发现
- 关联规则挖掘
发现变量间的频繁模式(如"A→B"的购买组合)。
经典算法:
- Apriori:超市购物篮分析(啤酒与尿布)。
- FP-Growth:高效处理大规模数据。
商业应用:
- 交叉销售(推荐系统)
- 医疗方案组合优化
- 异常检测
典型算法:
- 统计模型(Z-score, Grubbs检验)
- 孤立森林(Isolation Forest):高维数据异常点识别。
商业应用:
- 金融反欺诈(信用卡盗刷)
- 工业设备故障预警
- 时序模式挖掘
典型算法:
- ARIMA:传统时间序列预测。
- LSTM:处理长期依赖(股票价格预测)。
商业应用 :
- 销量预测(零售库存管理)
- 能源需求分析
自相关(Autocorrelation)
自相关(Autocorrelation)是指时间序列或回归模型的误差项在时间或空间上存在相关性,违背了经典线性回归中误差项相互独立的假设。
- 时间序列自相关
- 当前时刻的误差与过去时刻的误差相关(如 ϵ_t 与 ϵ_{t−1} 相关)。
- 示例:GDP年度数据中,当前年份的经济波动可能受前一年影响。
- 空间自相关
- 相邻位置的观测值误差相关(如地理数据中相邻地区的经济指标相互影响)。
分布式计算
分布式计算是一种将计算任务分解成多个子任务,分配到多台计算机(节点)上并行执行的计算模式。
- 地理分布性:计算节点可以位于不同地理位置
- 自治性:各节点可以独立运行和管理
- 透明性:对用户隐藏系统分布细节,呈现为单一系统
- 协同性:节点间通过通信协调工作
确定一个随机事件的概率的方法
- 古典概率法:
- 适用于所有可能结果是有限的、等可能的情况。
- 计算公式为:P(A)=\frac {A 包含的基本事件数}{所有可能的基本事件数事件}
- 几何概率法:
- 适用于所有可能结果是无限的、但可以度量(如长度、面积、体积等)的情况。
- 计算公式为:P(A)=\frac {事件 A 对应的度量}{所有可能结果对应的度量}
- 频率概率法:
- 通过大量重复试验来估计事件的概率。
- 计算公式为:P(A)≈\frac {A 发生的次数}{总试验次数事件}
- 主观概率法:
- 根据个人经验、知识和直觉来估计事件的概率。
- 这种方法没有固定的计算公式,更多依赖于个人的判断。
- 条件概率法:
- 在已知某个事件发生的情况下,计算另一个事件发生的概率。
- 计算公式为:P(A|B)=\frac {P(A∩B)}{P(B)},其中 P(B)\neq 0。
- 全概率公式:
- 当事件的样本空间可以被划分为若干个互斥且穷尽的子事件时,可以使用全概率公式计算事件的概率。
- 计算公式为:P(A)=\sum^n_{i=1}P(A|B_i)P(B_i),其中 B_1,B_2,…,B_n 是样本空间的一个划分。
- 贝叶斯公式:
- 在已知某个事件发生的情况下,计算另一个事件发生的概率,且该事件发生的概率已知。
- 计算公式为:P(Bi|A)=\frac {P(A|B_i)P(B_i)}{\sum^n_{j=1}P(A|B_j)P(B_j)},其中 B1,B2,…,Bn 是样本空间的一个划分。
回归分析的基本假定
- 线性关系:
- 因变量(y)与自变量(x)之间存在线性关系。即,因变量可以表示为自变量的线性组合加上一个随机误差项。
- 独立性:
- 自变量之间相互独立,即没有多重共线性。这意味着自变量之间没有线性关系,或者线性关系不显著。
- 正态性:
- 误差项(残差)服从正态分布。即,对于给定的自变量值,因变量的分布是正态分布。
- 同方差性:
- 误差项的方差对于所有自变量的值都是恒定的。即,残差的方差不随自变量的变化而变化。
- 无自相关:
- 误差项之间相互独立,即不存在自相关。这意味着一个误差项的值不会影响另一个误差项的值。
- 无异常值:
- 数据中没有异常值或离群点,这些值可能会对回归模型的拟合产生较大影响。
- 正确指定模型:
- 模型中包含了所有重要的自变量,且自变量的函数形式正确。即,没有遗漏变量,也没有错误地将非线性关系指定为线性关系。
数据维度灾难
当数据的维度(特征数量)增加时,数据的性质和处理方式会发生显著变化,导致许多算法的性能急剧下降,甚至变得不可行。
如何识别
- 数据稀疏性:随着维度增加,数据点在高维空间中变得越来越稀疏。例如,在二维空间中,数据点可能聚集在一起;但在高维空间中,每个数据点都可能成为孤立的点,距离其他点非常远。
- 距离失效:在高维空间中,传统的距离度量(如欧几里得距离)变得不再有效。因为所有数据点之间的距离趋于一致,难以区分“近”和“远”。
- 计算复杂度增加:高维数据的处理需要更多的计算资源。例如,计算距离、进行矩阵运算等操作的复杂度会随着维度的增加而显著上升。
- 模型过拟合:高维数据容易导致模型学习到数据中的噪声,而不是数据的真实分布,从而引发过拟合问题。
如何避免
- 特征选择(Feature Selection)
- 定义:从原始特征中选择最重要的特征子集,去除无关或冗余的特征。
- 方法:
- 基于统计的方法:使用相关系数、卡方检验等统计方法筛选与目标变量相关性高的特征。
- 基于模型的方法:利用模型的特征重要性评分(如决策树的特征重要性、L1正则化中的稀疏性)来选择特征。
- 递归特征消除(RFE):通过递归地训练模型并消除最不重要的特征,逐步缩小特征集。
- 特征提取(Feature Extraction)
- 定义:将原始特征转换为新的低维特征空间,同时保留数据的主要信息。
- 方法:
- 主成分分析(PCA):通过线性变换将数据投影到方差最大的方向上,减少数据的维度,同时保留数据的主要结构。
- 线性判别分析(LDA):在降维的同时,最大化类间距离,最小化类内距离,适用于分类问题。
- t-SNE(t-分布随机邻域嵌入):一种非线性降维方法,特别适用于高维数据的可视化,能够将数据嵌入到二维或三维空间中。
- 自编码器(Autoencoder):一种基于神经网络的降维方法,通过编码器将数据压缩到低维空间,再通过解码器重建数据。
- 正则化(Regularization)
- 定义:通过在损失函数中添加正则化项,限制模型的复杂度,防止过拟合。
- 方法:
- L1正则化(Lasso):通过在损失函数中添加特征权重的绝对值,使一些特征权重变为零,实现特征选择。
- L2正则化(Ridge):通过在损失函数中添加特征权重的平方,限制特征权重的大小,防止模型过拟合。
- 弹性网络(Elastic Net):结合L1和L2正则化,同时具有特征选择和防止过拟合的优点。
- 数据采样(Sampling)
- 定义:通过减少数据量来降低计算复杂度,同时避免数据稀疏性问题。
- 方法:
- 降采样(Downsampling):减少数据点的数量,例如通过随机抽样或聚类中心点代替原始数据点。
- 近似方法:使用近似算法(如近似最近邻搜索)来减少计算量,而不是精确计算。
- 使用树模型或集成方法
- 定义:这些方法对高维数据具有较好的鲁棒性。
- 方法:
- 决策树:通过递归划分特征空间,能够自动处理高维数据。
- 随机森林(Random Forest):通过随机抽样特征和数据点,构建多个决策树,集成结果以提高模型的泛化能力。
- 梯度提升树(Gradient Boosting Trees):通过逐步优化模型,能够处理高维数据并防止过拟合。
监督学习(Supervised Learning)
使用已标注数据(输入-输出对)训练模型,使模型能够根据输入预测输出
- 学习从输入X到输出Y的映射关系f(X), 使得Y=f(X)
- 当有明确的预测目标,且能获取足够标注数据(如房价预测、疾病诊断)。
优点
- 预测能力强:适用于明确的预测任务(如分类、回归)。
- 评估直接:可通过准确率、均方误差等指标量化模型性能。
- 可解释性:部分模型(如决策树、线性回归)易于解释。
缺点
- 依赖标注数据:获取高质量标注数据成本高(如医学影像标注)。
- 过拟合风险:如果数据量不足或噪声多,模型可能泛化能力差。
- 无法发现未知模式:只能学习已有标签的规律,不能探索新结构。
应用场景
- 分类问题:
- 垃圾邮件过滤(输入:邮件内容,输出:垃圾/正常)。
- 图像识别(输入:图片,输出:物体类别)。
- 回归问题:
- 股票价格预测(输入:历史数据,输出:未来价格)。
- 医疗诊断(输入:患者数据,输出:患病概率)。
非监督学习
使用未标注数据,让模型自行发现数据中的模式或结构
- 当数据无标签,或需要探索数据内在结构(如市场细分、异常检测)。
优点
- 无需标注数据:适用于无标签数据(如用户行为日志)。
- 发现隐藏模式:能挖掘数据中的潜在结构(如客户分群)。
- 灵活性高:适用于探索性数据分析(EDA)。
缺点
- 评估困难:缺乏明确指标衡量模型好坏(如聚类质量)。
- 结果难解释:发现的模式可能不符合业务逻辑(需人工验证)。
- 不确定性高:不同算法可能给出不同结果(如聚类数目的选择)。
应用场景
- 聚类分析:
- 市场细分(将客户分组以便精准营销)。
- 社交网络分析(发现社区结构)。
- 降维:
- 数据可视化(将高维数据降至2D/3D)。
- 特征提取(减少计算复杂度)。
- 异常检测:
- 信用卡欺诈检测(发现异常交易模式)。