数据类型
分类数据、顺序数据、数值型数据
- 分类数据(categorical data),只能归于某一类别的非数字型数据,一般用文字表示,如“男性”、“女性”等
- 顺序数据(rank data),只能归于某一有序类别的非数字型数据,如“高信用等级”、“中信用等级”、“低信用等级”等
- 数值型数据(numetric data),是按数字尺度测量的观察值,如股票价格、交易量等
定性数据、定量数据
- 定性数据或品质数据(qualitative data),用来描述事物的品质特征,分类数据和顺序数据是定性数据
- 定量数据或数量数据(quantitative data),用了描述事物的数量特征,数值型数据是定量数据
观测数据、实验数据
- 观测数据(observational data),在没有对事物人为控制的条件下,通过调查或观测而收集到的数据,如“银行财务数据”、“贷款违约数据”等
- 实验数据(experimental data),在实验中控制实验对象而收集到的数据,如对一种新药疗效或新农作物品种的实验数据
截面数据、时间序列数据、版面数据
- 截面数据(cross-sectional data),在相同或近似相同的时间点上收集的数据,通常在不同空间上获得的数据,如2016年Q4,16家上市商业银行的资产负债数据
- 时间序列数据(time series data),按时间顺序收集得到数据,通常是在同一空间上获得的数据,如2002年1月-2018年8月,货币供应量M2
- 面板数据(panel data),由数据集中每个横截面单位的一个时间序列组成,对同一单位的不同时期进行重复观测的结果,如16家上市商业银行2006Q1-2017年Q4的资产负债数据
平衡面板数据、非平衡面板数据
- 平衡面板数据,在一个特定的时间段内,每个观测对象都有完整的观测值。,对于每一个体,在每一个时间点上的数据都是齐全的
- 非平衡面板数据,存在观测对象在某些时间点上缺失数据的情况,即不同观测对象或者在不同的时间点上的观测次数可能不同
多元线性回归模型
是截距项,表示当所有自变量为零时因变量的期望值 、 ... 是斜率系数,分别表示自变量 、 ... ,对因变量Y的影响程度 是误差项
误差
- 多元线性回归模型中的
是误差项 - 同方差,
不随自变量x变化而变化,即 , 为方差 - 在理想情况下,误差项的期望值(均值)应为零
- 在许多统计模型中,假设误差项服从正态分布,这有助于进行假设检验和置信区间的估计,
方差
方差为各个数据点与均值差值的平方和的平均数,总体方差为
残差
残差为观测值与模型预测值之间的差异,
协方差
协方差(Covariance)是统计学中衡量两个变量之间线性关系强度和方向的一个指标,总体协方差为
- 正的协方差表示两个变量正相关,即一个变量增加时,另一个变量也倾向于增加。
- 负的协方差表示两个变量负相关,即一个变量增加时,另一个变量倾向于减少。
- 零的协方差表示两个变量之间没有线性关系。
- 当两个变量相同时,协方差等于方差
相关系数
- 相关系数为协方差除以两个变量的标准差,总体相关系数为
,样本相关系数为
一阶距、二阶距
一阶距和二阶距在统计学中通常指的是随机变量的期望值和方差
最小二乘法(Ordinary Least Squares, OLS)
寻找一个线性回归模型,使得
微观计量经济模型
当被解释变量是离散变量、受限变量或者计数数据时,应考虑应用微观计量经济模型
- Probit模型,当观测数据为标准正态分布时采用,使用标准正态分布的累积分布函数 (CDF) 来将线性预测器映射到概率
- Logit模型,当观测数据为逻辑分布时采用,使用Logistic分布函数,将线性预测器映射到概率区间 [0,1]
自相关函数ACF
自相关函数用于描述一个时间序列与其自身在不同时间点上的相关性,对于时间序列 {
白噪声
白噪声是一个随机过程,其中每个时间点上的值都是随机的、独立的,并且具有相同的概率分布
- 白噪声序列的均值通常为零。
- 白噪声序列的方差是一个常数,即所有时间点上的值具有相同的方差。
- 白噪声序列中的值相互独立,即一个时间点上的值不影响其他时间点上的值。
- 白噪声序列的自相关函数(ACF)在滞后1或更大的值时为零,表示序列中不存在时间依赖性。
- 如果所有样本自相关函数接近于零,则认为该序列是白噪声序列。
自回归模型(AR)
自回归模型(Autoregressive Model,AR模型)用于描述一个时间序列与其自身过去值之间的关系,模型为:
移动平均模型(MA)
移动平均模型(Moving Average Model,MA模型)用于描述一个时间序列与其自身过去预测误差之间的关系,模型为:
自回归移动平均模型(ARMA)
ARMA模型用于描述一个时间序列与其自身过去值和过去误差之间的关系,模型为:
单整自回归移动平均模型(ARIMA)
假设一个随机过程含有d个单位根,其经过d次差分后可以变换为一个平稳的自回归移动平均过程,则该随机过程称为单积(整)自回归移动平均过程
平稳序列
平稳序列是指其统计特性(如均值、方差和自相关性)不随时间变化的时间序列。平稳序列具有以下特点:
- 序列的均值随时间保持不变。
- 序列的方差随时间保持不变。
- 序列的自相关性仅依赖于时间间隔(滞后),而不依赖于具体的时间点。
- 序列的协方差仅依赖于时间间隔,而不依赖于具体的时间点。
非平稳序列
非平稳序列是指其统计特性随时间变化的时间序列。非平稳序列具有以下特点:
- 列的均值随时间变化。
- 序列的方差随时间变化。
- 序列的自相关性依赖于具体的时间点。
- 非平稳序列可能表现出明显的趋势或季节性模式。
特征方程
对于一个 p 阶自回归模型(AR(p)),其特征方程是通过将模型的自回归部分设为零得到的:
单位根
单位根是指一个时间序列变量的特征方程的根等于1时,该序列具有单位根。
- 单位根的存在表示序列的非平稳性。具有单位根的序列表现出随机游走特性,其方差随时间增大,均值不稳定。
- 常用的单位根检验方法包括增强迪基-富勒(ADF)检验和菲利普斯-佩伦(PP)检验。这些检验用于确定序列中是否存在单位根,从而评估序列的平稳性。
- 如果一个时间序列出现单位根,通常需要在建模前进行差分运算使其静止。差分包括减去连续的观测值,以消除趋势并实现静态