应用回归 | IohannesLong

总体平方和（TSS）

总体平方和的计算公式为: $T S S = \sum_{i = 1}^{n} (y_{i} - \bar{y_{i}})^{2}$ ， $\bar{y_{i}}$ 为总体平均值
衡量因变量的总变异

回归平方和（ESS）

总体平方和的计算公式为: $T S S = \sum_{i = 1}^{n} (\hat{y_{i}} - \bar{y_{i}})^{2}$ ， $\hat{y_{i}}$ 为预测值， $\bar{y_{i}}$ 为总体平均值
衡量由回归模型解释的因变量的变异

残差平方和（RSS）

残差平方和的计算公式为: $R S S = \sum_{i = 1}^{n} (y_{i} - \hat{y_{i}})^{2}$ ， $\hat{y_{i}}$ 为预测值
残差平方和越小，说明模型的预测值与实际值越接近，模型的拟合效果越好
衡量回归模型未解释的因变量的变异
它们之间的关系是： TSS=ESS+RSS

判定系数

判定系数的计算公式为： $R^{2} = 1 - \frac{S S_{r e s}}{S S_{t o t}}$ ，其中 $S S_{r e s}$ 是残差平方和， $S S_{t o t}$ 是总平方和
判定系数的值越接近1，说明回归模型解释的变异占总变异的比例越大，模型的拟合效果越好

标准差

总体标准差定义为： $σ = \sqrt{\frac{1}{N} \sum_{i = 1}^{n} (x_{i} - μ)^{2}}$ ， $μ$ 是总体均值
样本标准差定义为： $s = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}$ ， $\bar{x}$ 样本均值
标准差越大，数据的分布越分散；标准差越小，数据的分布越集中。

方差

总体方差定义为： $σ = \frac{1}{N} \sum_{i = 1}^{n} (x_{i} - μ)^{2}$ ， $μ$ 是总体均值
样本标准差定义为： $s = \frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}$ ， $\bar{x}$ 样本均值，取n−1 而不是 n 作为分母，是应为样本均值的随机性导致样本方差的计算会低估总体方差。通过使用 n−1 作为分母，我们可以得到一个期望值等于总体方差的样本方差估计
方差总是非负的
方差对异常值（outliers）非常敏感，因为异常值会显著增加数据的离散程度

标准正态分布（z分布）

标准正态分布的概率密度函数为： $f (z) = \frac{1}{\sqrt{2 π}} e^{- \frac{z^{2}}{2}}$
任何正态分布都可以通过标准化转换为标准正态分布
标准正态分布关于 z=0对称，即 f(z)=f(−z)
标准正态分布的取值范围为 (−∞,+∞)
标准正态分布的均值为0，标准差为1

z检验

Z检验基于标准正态分布（Z分布），它适用于样本量较大（通常 n≥30）且总体标准差已知的情况
Z检验（Z-test）是一种统计假设检验，用于确定样本均值与总体均值之间是否存在显著差异，或者两个样本均值之间是否存在显著差异。 Z检验的步骤通常包括：

提出假设：零假设（H0）通常假设均值之间没有差异，备择假设（H1）假设存在差异。
计算Z统计量：根据样本数据计算Z统计量，其公式取决于Z检验的类型。
确定显著性水平：选择一个显著性水平（例如0.05）。
查找临界值：在Z分布表中查找给定显著性水平下的临界值。
比较Z统计量和临界值：如果Z统计量的绝对值大于临界值，则拒绝零假设，认为均值差异在统计上是显著的。
通过Z检验，我们可以确定观察到的均值差异是否可能由随机误差造成，从而为科学决策提供依据。

Z统计量

$z = \frac{\bar{x} - μ}{σ \sqrt{n}}$ ，其中 $\bar{x}$ 为样本均值， $μ$ 为总体均值， $σ$ 为总体标准差，n为样本量

卡方分布

卡方分布定义为 k 个独立的标准正态分布（Standard normal distribution）随机变量的平方和: $χ^{2} = {Z_{1}}^{2} + {Z_{2}}^{2} + . . . + {Z_{k}}^{2}$
卡方分布是非对称的，其形状通常偏右
卡方分布的取值范围为 [0,+∞)[0,+∞)
卡方分布的期望为 k，方差为 2k

F分布

F分布定义为两个独立U/V的卡方分布（Chi-square distribution）随机变量的比值，每个都除以其自由度d1/d2： $F = \frac{U / d 1}{V / d 2}$
F分布的取值范围为 [0,+∞)[0,+∞)
F分布的期望和方差存在，但形式较为复杂，通常需要通过数学软件或查表来计算

F检验（卡方检验）

F检验的步骤包括：

提出假设：检验统计量在零假设下服从F分布。
计算检验统计量，并得出对应的值。
如果计算的F值小于事先确定的显著性水平时，拒绝原假设，认为模型中的至少有一个参数是显著的
通过卡方检验，我们可以判断分类变量之间是否独立，或者一个分类变量与理论分布之间是否有显著差异。

f统计量

$F = \frac{M S_{b e t w e e n}}{M S_{w i t h i n}}$ ，其中 $M S_{b e t w e e n}$ 是组间均方， $M S_{w i t h i n}$ 是组内均方

t分布

t分布用于估计正态分布总体的均值，当总体标准差未知且样本量较小时。
t分布的定义为： $T = \frac{Z}{\sqrt{\frac{x^{2}}{n}}}$
t分布关于0对称，即 f(t)=f(−t)f(t)=f(−t)
t分布有一个自由度参数 nn，表示卡方分布的自由度
t分布的取值范围为 (−∞,+∞)(−∞,+∞)
t分布的期望为0，方差为 $\frac{n}{n - 2}$ （当 n>2 时）

t检验

t检验的步骤通常包括：

提出假设：零假设（H0）通常假设两个均值之间没有差异，备择假设（H1）假设存在差异。
计算t统计量：根据样本数据计算t统计量，其公式取决于t检验的类型。
确定自由度：根据样本量计算自由度。
查找临界值：在t分布表中查找给定自由度和显著性水平下的临界值。
比较t统计量和临界值：如果t统计量的绝对值大于临界值，则拒绝零假设，认为均值差异在统计上是显著的。
通过t检验，我们可以确定观察到的均值差异是否可能由随机误差造成，从而为科学决策提供依据。

t统计量

$t = \frac{\bar{x_{1}} - \bar{x_{2}}}{\sqrt{\frac{{s_{1}}^{2}}{n_{1}} + \frac{{s_{2}}^{2}}{n_{2}}}}$ ，其中 $\bar{x_{1}}$ 、 $\bar{x_{2}}$ 为样本均值， $s_{1}$ 、 $s_{2}$ 为样本标准差， $n_{1}$ 、 $n_{2}$ 样本量

最小二乘法

最小二乘法（Least Squares Method）的基本思想是：给定一组观测数据点，我们希望找到一个函数（通常是线性函数），使得这个函数与实际数据点之间的误差（即残差）的平方和最小
最小二乘法求解函数为： $F_{l s m} = β_{0} + β_{1} x_{i}$ ，使得 $S = \sum_{i = 1}^{n} (y_{i} - (β_{0} + β_{1} x_{i}))^{2}$ 最小。
计算步骤为：

定义目标函数：目标函数是误差的平方和 S。
求导数：对目标函数 S 分别对 β0 和 β1 求偏导数。
设置导数为零：将偏导数设置为零，得到一组方程。
解方程：解这组方程，得到 β0 和 β1 的值。

最小二乘法对异常值（outliers）非常敏感，因为异常值会显著增加误差的平方和

异方差

异方差（Heteroscedasticity）是指在回归模型中，误差项的方差不是恒定的，而是随着解释变量的变化而变化。

异方差及对普通最小二乘估计量的影响

参数估计量的非有效性
参数估计量仍然是线性无偏
显著性检验的失效
预测精度的降低
估计量的高方差

多重共线性

多重共线性（Multicollinearity）是指在回归模型中，两个或多个自变量（预测变量）之间存在强烈的线性相关性。
检测方法：

方差膨胀因子（VIF），一般认为，VIF值大于5或者10表明存在严重的多重共线性，需要进一步处理
容忍度（Tolerance）：这是VIF的倒数，较低的容忍度值（通常小于0.1）表明高共线性
相关系数矩阵：检查预测变量之间的相关系数。高度相关（例如，相关系数大于0.8或小于-0.8）可能指示共线性

处理策略：

移除变量：如果某些变量之间存在高共线性，可以考虑从模型中移除一些变量。
合并变量：将相关的变量合并为一个新变量，例如，通过计算几个相关变量的平均值

总体平方和（TSS） ​

回归平方和（ESS） ​

残差平方和（RSS） ​

判定系数 ​

标准差 ​

方差 ​

标准正态分布（z分布） ​

z检验 ​

Z统计量 ​

卡方分布 ​

F分布 ​

F检验（卡方检验） ​

f统计量 ​

t分布 ​

t检验 ​

t统计量 ​

最小二乘法 ​

异方差 ​

异方差及对普通最小二乘估计量的影响 ​

多重共线性 ​