总体平方和(TSS)
- 总体平方和的计算公式为:
, 为总体平均值 - 衡量因变量的总变异
回归平方和(ESS)
- 总体平方和的计算公式为:
, 为预测值, 为总体平均值 - 衡量由回归模型解释的因变量的变异
残差平方和(RSS)
- 残差平方和的计算公式为:
, 为预测值 - 残差平方和越小,说明模型的预测值与实际值越接近,模型的拟合效果越好
- 衡量回归模型未解释的因变量的变异
- 它们之间的关系是: TSS=ESS+RSS
判定系数
- 判定系数的计算公式为:
,其中 是残差平方和, 是总平方和 - 判定系数的值越接近1,说明回归模型解释的变异占总变异的比例越大,模型的拟合效果越好
标准差
- 总体标准差定义为:
, 是总体均值 - 样本标准差定义为:
, 样本均值 - 标准差越大,数据的分布越分散;标准差越小,数据的分布越集中。
方差
- 总体方差定义为:
, 是总体均值 - 样本标准差定义为:
, 样本均值,取n−1 而不是 n 作为分母,是应为样本均值的随机性导致样本方差的计算会低估总体方差。通过使用 n−1 作为分母,我们可以得到一个期望值等于总体方差的样本方差估计 - 方差总是非负的
- 方差对异常值(outliers)非常敏感,因为异常值会显著增加数据的离散程度
标准正态分布(z分布)
- 标准正态分布的概率密度函数为:
- 任何正态分布都可以通过标准化转换为标准正态分布
- 标准正态分布关于 z=0对称,即 f(z)=f(−z)
- 标准正态分布的取值范围为 (−∞,+∞)
- 标准正态分布的均值为0,标准差为1
z检验
- Z检验基于标准正态分布(Z分布),它适用于样本量较大(通常 n≥30)且总体标准差已知的情况
- Z检验(Z-test)是一种统计假设检验,用于确定样本均值与总体均值之间是否存在显著差异,或者两个样本均值之间是否存在显著差异。 Z检验的步骤通常包括:
- 提出假设:零假设(H0)通常假设均值之间没有差异,备择假设(H1)假设存在差异。
- 计算Z统计量:根据样本数据计算Z统计量,其公式取决于Z检验的类型。
- 确定显著性水平:选择一个显著性水平(例如0.05)。
- 查找临界值:在Z分布表中查找给定显著性水平下的临界值。
- 比较Z统计量和临界值:如果Z统计量的绝对值大于临界值,则拒绝零假设,认为均值差异在统计上是显著的。
- 通过Z检验,我们可以确定观察到的均值差异是否可能由随机误差造成,从而为科学决策提供依据。
Z统计量
卡方分布
- 卡方分布定义为 k 个独立的标准正态分布(Standard normal distribution)随机变量的平方和:
- 卡方分布是非对称的,其形状通常偏右
- 卡方分布的取值范围为 [0,+∞)[0,+∞)
- 卡方分布的期望为 k,方差为 2k
F分布
- F分布定义为两个独立U/V的卡方分布(Chi-square distribution)随机变量的比值,每个都除以其自由度d1/d2:
- F分布的取值范围为 [0,+∞)[0,+∞)
- F分布的期望和方差存在,但形式较为复杂,通常需要通过数学软件或查表来计算
F检验(卡方检验)
F检验的步骤包括:
- 提出假设:检验统计量在零假设下服从F分布。
- 计算检验统计量,并得出对应的值。
- 如果计算的F值小于事先确定的显著性水平时,拒绝原假设,认为模型中的至少有一个参数是显著的
- 通过卡方检验,我们可以判断分类变量之间是否独立,或者一个分类变量与理论分布之间是否有显著差异。
f统计量
t分布
- t分布用于估计正态分布总体的均值,当总体标准差未知且样本量较小时。
- t分布的定义为:
- t分布关于0对称,即 f(t)=f(−t)f(t)=f(−t)
- t分布有一个自由度参数 nn,表示卡方分布的自由度
- t分布的取值范围为 (−∞,+∞)(−∞,+∞)
- t分布的期望为0,方差为
(当 n>2 时)
t检验
t检验的步骤通常包括:
- 提出假设:零假设(H0)通常假设两个均值之间没有差异,备择假设(H1)假设存在差异。
- 计算t统计量:根据样本数据计算t统计量,其公式取决于t检验的类型。
- 确定自由度:根据样本量计算自由度。
- 查找临界值:在t分布表中查找给定自由度和显著性水平下的临界值。
- 比较t统计量和临界值:如果t统计量的绝对值大于临界值,则拒绝零假设,认为均值差异在统计上是显著的。
- 通过t检验,我们可以确定观察到的均值差异是否可能由随机误差造成,从而为科学决策提供依据。
t统计量
最小二乘法
- 最小二乘法(Least Squares Method)的基本思想是:给定一组观测数据点,我们希望找到一个函数(通常是线性函数),使得这个函数与实际数据点之间的误差(即残差)的平方和最小
- 最小二乘法求解函数为:
,使得 最小。 - 计算步骤为:
- 定义目标函数:目标函数是误差的平方和 S。
- 求导数:对目标函数 S 分别对 β0 和 β1 求偏导数。
- 设置导数为零:将偏导数设置为零,得到一组方程。
- 解方程:解这组方程,得到 β0 和 β1 的值。
- 最小二乘法对异常值(outliers)非常敏感,因为异常值会显著增加误差的平方和
异方差
异方差(Heteroscedasticity)是指在回归模型中,误差项的方差不是恒定的,而是随着解释变量的变化而变化。
异方差及对普通最小二乘估计量的影响
- 参数估计量的非有效性
- 参数估计量仍然是线性无偏
- 显著性检验的失效
- 预测精度的降低
- 估计量的高方差
多重共线性
- 多重共线性(Multicollinearity)是指在回归模型中,两个或多个自变量(预测变量)之间存在强烈的线性相关性。
- 检测方法:
- 方差膨胀因子(VIF),一般认为,VIF值大于5或者10表明存在严重的多重共线性,需要进一步处理
- 容忍度(Tolerance):这是VIF的倒数,较低的容忍度值(通常小于0.1)表明高共线性
- 相关系数矩阵:检查预测变量之间的相关系数。高度相关(例如,相关系数大于0.8或小于-0.8)可能指示共线性
- 处理策略:
- 移除变量:如果某些变量之间存在高共线性,可以考虑从模型中移除一些变量。
- 合并变量:将相关的变量合并为一个新变量,例如,通过计算几个相关变量的平均值