计量笔记 | 01_导论和简单线性回归

PyStaData

发布于 2020-10-10 17:02:01

5.6K0

文章被收录于专栏：PyStaDataPyStaData

0.导论

0.0 初、中、高级计量经济学

初级以计量经济学的数理统计学基础知识和经典的线性单方程模型理论与方法为主要内容；

中级以用矩阵描述的经典的线性单方程模型理论与方法、经典的线性联立方程模型理论与方法，以及传统的应用模型为主要内容；

高级以非经典的、现代的计量经济学模型理论、方法与应用为主要内容。

0.1 经验经济分析的步骤

经验分析就是利用数据来检验某个理论或估计某种关系。

1.对所关心问题的详细阐述。在某些情形下，特别是涉及到对经济理论的检验时，就要构造一个规范的经济模型。经济模型总是由描述各种关系的数理方程构成。

2.经济模型变成计量模型。先了解一下计量模型和经济模型有何关系。与经济分析不同，在进行计量经济分析之前，必须明确函数的形式。通过设定一个特定的计量经济模型，就解决了经济模型中内在的不确定性。在多数情况下，计量经济分析是从对一个计量经济模型的设定开始的，而没有考虑模型构造的细节。一旦设定了一个计量模型，所关心的各种假设便可用未知参数来表述。

3.搜集相关变量的数据。

4.用计量方法来估计计量模型中的参数，并规范地检验所关心的假设。在某些情况下，计量模型还用于对理论的检验或对政策影响的研究。

0.2 数据类型

横截面数据（cross-sectional data set）
时间序列数据（time series data）
混合截面数据（pooled cross section）
面板数据（panel data）

0.3 因果关系和其他条件不变

因果关系：在多数对经济理论的检验中，经济学家的目标就是要推定一个变量对另一个变量具有因果效应。虽然简单地发现两个或多个变量之间有某种联系很诱人，但除非能得到某种因果关系，否则这种联系很难令人信服。

其他（相关）因素保持不变：在研究两个变量之间的关系时，所有其他的相关因素都必须固定不变。因为社会科学中所搜集到的多数数据都具有非实验特征，所以发现其中的因果关系极具挑战性。

如何保证其他条件不变？

基于实验数据：
- 受控实验
- 随机实验
基于观测数据：用计量方法模拟出一个其他条件不变的实验

1. 简单线性回归模型

1.1 零条件均值假定

假定：

E(u)=0

均值独立：

的平均值与

的值无关，即

E(u|x)=E(u)

零条件均值假定：

E(u|x)=E(u)=0

。

零条件均值假定的意义：

零条件均值假设给出

\beta_1

的另一种有用解释。以

为条件取期望值，并利用

E(u|x)=0

，便可得到

E(y|x)=\beta_0+\beta_1x

。方程表明：总体回归函数（PRF）

E(y|x)

是

的一个线性函数，线性意味着

变化一单位，将使

的期望值改变

\beta_1

。对于给定的

值，

的分布都以

E(y|x)

为中心。

\beta_1

为斜率参数。

给定零条件均值假定

E(u|x)=0

，把方程中的

看成两个部分是比较有用的。

一部分是表示

E(y|x)

的

\beta_0+\beta_1

，被称为

的系统部分，即由

解释的那一部分；

另一个部分是被称为非系统部分的

，即不能由

解释的那一部分。

1.2 普通最小二乘法的推导

从总体中找出一个样本，令

\{(x_i,y_i):1=1,2,...,n\}

表示从总体中抽取一个容量为

的随机样本。则有：

y_i = \beta_0 + \beta_1x_i+u_i

在总体中，

和

不相关。因此：

E(U) = 0

Cov(x,u)=E(x,u)=0

用可观测变量

和

以及未知参数

\beta_0

和

\beta_1

表示为：

E(y-\beta_0-\beta_1x)=0

E[x(y-\beta_0-\beta_1x)]=0

得到：

\frac{1}{n}\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0

\frac{1}{n}\sum_{i=1}^nx_i(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)=0

由这两个方程解出

\hat{\beta_0}

和

\hat{\beta_1}

，

\bar{y}=\hat{\beta_0}+\hat{\beta_1}\bar{x}

，则

\hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x}

。

一旦得到斜率的估计值

\hat{\beta_1}

，则有：

\sum_{i=1}^nx_i[y_i-(\bar{y}-\hat{\beta_1}\bar{x})-\hat{\beta_1}x_i]=0

整理后可得：

\sum_{i=1}^nx_i(y_i-\bar{y})=\hat{\beta_1}\sum_{i=1}^nx_i(x_i-\bar{x})

根据求和运算的基本性质，有：

\sum_{i=1}^nx_i(x_i-\bar{x})=\sum_{i=1}^n(x_i-\bar{x})^2

\sum_{i=1}^nx_i(y_i-\bar{y})=\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})

因此，只要有：

\sum_{i=1}^n(x_i-\bar{x})^2 >0

估计的斜率就为：

\hat{\beta_1}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}

所给出的估计值为

\beta_0

和

\beta_1

的普通最小二乘（OLS）估计值。

【补充】求和运算：

\sum_{i=1}^nX_i=X_1+X_2+...+X_n

，简记为

\sum X_i

一些重要性质：

为常数，则有

\sum_{i=1}^nk=nk

为常数，则有

\sum kX_i=k\sum X_i

\sum(X_i+Y_i)=\sum X_i+\sum Y_i

\sum (a+bX_i)=na+b\sum X_i

几条简单的推论：

\sum X_i=n\bar{X}

\sum (X_i-\bar{X})=0

\sum (X_i-\bar{X_i})^2=\sum (X_i-\bar{X})X_i

1.3 OLS 的操作技巧

1.3.1 拟合值和残差

拟合值：

\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i

残差：

\hat{u_i}=y_i-\hat{y_i}=y_i-\hat{\beta_0}-\hat{\beta_1}x_i

1.3.2 定义总平方和（SST）、解释平方和（SSE）和残差平方和（SSR）

SST = \sum_{i=1}^n(y_i-\bar{y})^2

SSE = \sum_{i=1}^n (\hat{y_i}-\bar{y})^2

SSR = \sum_{i=1}^n \hat{u_i}^2

SST 度量了

y_i

中总样本的变异，即度量了

y_i

在样本中的分散程度；SSE 度量了

y_i

的样本变异，SSR 度量了

u_i

的样本变异。

的总变异总能表示成解释了的变异 SSE 和未能解释的变异 SSR 之和。因此：

SST=SSR+SSE

。

证明：

SST=SSE+SSR

\sum_{i=1}^n (y_i-\bar{y})^2 = \sum_{i=1}^n [(y_i-\hat{y_i})+(\hat{y_i}-\bar{y})]^2

=\sum_{i=1}^n [\hat{u_i}+(\hat{y_i}-\bar{y})]^2

= \sum_{i=1}^n\hat{u_i}^2+2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y})+\sum_{i=1}^n(\hat{y_i}-\bar{y})^2

= SSR + 2\sum_{i=1}^n \hat{u_i}(\hat{y_i}-\bar{y}) +SSE

因为残差和拟合值之间的样本协方差为零，这个协方差正是

\sum_{i=1}^n \hat{u_i}(\hat{y_i}-\bar{y})=0

除以

n-1

的结果。故得证。

【注释】不同的教材对 SST, SSR 和 SSE 的写法不同。

在伍德里奇的教材中：

总平方和：total sum of squares, SST
解释平方和：explained sum of squares, SSE
残差平方和：residual sum of squares, SSR 不能把残差平方和（SSR）误差平方和（error sum of squares）混淆，因为误差和残差是不同的两个量。

在 Stata 的汇报结果中：

1.3.3 拟合优度

拟合优度

R^2

，又称为判定系数：

R^2 = \frac{SSE}{SST} = 1 - \frac{SSR}{SST}

R^2

是解释变异与总变异之比，因此被解释成

的样本变异中被

解释的部分。因为 SSE 不可能大于 SST，所以

R^2

的值总介于 0 和 1 之间。

R^2

等于

y_i

的实际值与其拟合值

y_i

之间相关系数的平方。即：

R^2=\frac{[\sum_{i=1}^n(y_i-\bar{y})(\hat{y_i}-\bar{\hat{y}})]^2}{[\sum_{i=1}^n(y_i-\bar{y})^2][\sum_{i=1}^n(\bar{y}-\bar{\hat{y}}]^2]}

回归方程中的

R^2

过低是很正常的，对于横截面分析来说，一个看似很低的

R^2

值，并不意味着 OLS 回归方程没有用。

在模型中增加自变量，

R^2

会变大还是变小？

在回归中多增加一个自变量后，它绝对不会减小，而且通常会增大。因为在模型中多增加一个回归元时，按照定义，残差平方和绝对不会增加。回归中增加任何一个变量都不会使

R^2

减小的事实，使得用

R^2

作为判断是否应该在模型中增加一个或几个变量的工具很不适当。判断一个解释变量是否应放入模型的因素是，这个解释变量在总体中对

的偏效应是否非零。

1.4 度量单位和函数形式

1.4.1 改变度量单位对 OLS 统计量的影响

当因变量的度量单位改变时，很容易计算出截距和斜率估计值的变化。若因变量乘以一个常数

（意味着样本中的每个数据都乘以

），则 OLS 截距和斜率的估计值都扩大为原来的

倍。

若自变量被除以或乘以一个非零常数

，则 OLS 斜率系数也会分别被乘以或者除以

。

仅改变自变量的度量单位，不会影响截距估计值。
模型的拟合优度不依赖于变量的度量单位。利用

R^2

的定义可知，

R^2

事实上不因

或

的单位变化而改变。

1.4.2 对数函数的几种形式

1.5 OLS 估计量的期望和方差

1.5.1 OLS 的无偏性

1.5.1.1 相关假定

SLR.1 线性于参数

在总体模型中，因变量

与自变量

和误差项

的关系如下：

y = \beta_0 + \beta_1x+u

其中，

\beta_0

和

\beta_1

分别表示总体的截距和斜率参数。

SLR.2 随机抽样

假如有一个样本容量为

的随机样本

\{(x_i,y_i):(i=1,2,...,n)\}

，它服从 SLR.1 中的总体模型。

SLR.3 解释变量的样本有波动

的样本结果即

\{x_i:i=1,2...,n\}

不是完全相同的数值。

SLR.4 零条件均值

给定解释变量的任何值，误差的期望值都为零。换言之：

E(u|x)=0

。

\hat{\beta_1}

和

\beta_1

的差异：

利用

\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})=\sum_{i=1}^n(x_i-\bar{x})y_i

（证明见附录 A. 1），可将斜率估计量写成：

\hat{\beta_1}= \frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{SST_x}

= \frac{\sum_{i=1}^n(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{SST_x}

其中，为简化起见，令

SST_x = \sum_{i=1}^n(x_i-\bar{x})^2

。利用代数求和运算，可将

\hat{\beta_1}

的分子写成：

\sum_{i=1}^n(x_i-\bar{x})\beta_0 + \sum_{i=1}^n(x_i-\bar{x})\beta_1x_i+\sum_{i=1}^nu_i

= \beta_0\sum_{i=1}^n(x_i-\bar{x}) + \beta_1\sum_{i=1}^n(x_i-\bar{x}) + \sum_{i=1}^nu_i

因为

\sum_{i=1}^n(x_i-\bar{x})=0

和

\sum_{i=1}^n(x_i-\bar{x})x_i=\sum_{i=1}^n(x_i-\bar{x})^2=SST_x

。

所以可将

\hat{\beta_1}

的分子写为

\beta_1SST_x+\sum_{i=1}^n(x_i-\bar{x})u_i

。将其置于分母之上，可得：

\hat{\beta_1} = \beta_1 +\frac{\sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}

= \beta_1 + \frac{1}{SST_x} \sum_{i=1}^n d_iu_i

其中，

d_i=x_i-\bar{x}

。通过上式可看出，

\hat{\beta_1}

的估计量等于总体斜率

\beta_1

加上误差

\{u_1,u_2,...,u_n\}

的一个线性组合。以

x_i

为条件，

\beta_1

的随机性完全来自样本中的误差。这些误差一般不为零的事实。正是

\hat{\beta_1}

和

\beta_1

有差异的原因。

1.5.1.2 OLS 的无偏性及其证明

利用 SLR.1~SLR.4，对

\beta_0

和

\beta_1

的任何值，有：

E(\hat{\beta_0}) = \beta_0, E(\hat{\beta_1})=\beta_1

换言之，

\hat{\beta_0}

对

\beta_0

、

\hat{\beta_1}

对

\beta_1

是无偏的。证明如下：

E(\hat{\beta_1})= \beta_1 + E[\frac{1}{SST_x}\sum_{i=1}^nd_iu_u]

= \beta_1 + (\frac{1}{SST_x})\sum_{i=1}^nE(d_iu_i)

= \beta_1 + (\frac{1}{SST_x})\sum_{i=1}^nd_iE(u_i)

= \beta_1 + (\frac{1}{SST_x})\sum_{i=1}^nd_i\cdot0

= \beta_1

根据 SLR.1 和 SLR.4 有

E(\bar{u})=0

，于是以

x_i

的值为条件，有：

E(\hat{\beta_0}) = \beta_0 + E[(\beta_1-\hat{\beta_1})\bar{x}]+E(\bar{u})

= \beta_0 + E[(\beta_1-\hat{\beta_1})\bar{x}]

E(\bar{\beta_1})=\beta_1

，这意味着

E[(\hat{\beta_1}-\beta_1)]=0

。因此，

E(\hat{\beta_0})=\beta_0

1.5.2 OLS 估计量的方差

1.5.2.1 相关假定

SLR.5 同方差性

给定解释变量的任何值，误差都具有相同方差。换言之：

Var(u|x)=\sigma^2

。

SLR.5 假定对证明

\beta_0

和

\beta_1

的无偏性毫无作用，作出此假定的意义在于简化

\hat{\beta_0}

和

\hat{\beta_1}

方差的计算，而且它还意味着 OLS 具有有效性。

1.6 过原点回归

规范地，选择一个斜率估计量(称之为

\tilde{\beta_1}

)和如下形式的一条线：

\tilde{y} = \tilde{\beta_1}x

因为直线经过

x=0, \tilde{y}=0

，所以得到的方程又被称为过原点回归（regression through the origin）。

使用普通最小二乘法，此时最小化的残差平方和为：

\sum_{i=1}^n(y_i-\tilde{\beta_1}x)^2

利用一元微积分知识可知，

\tilde{\beta_1}

必须满足一阶条件：

\sum_{i=1}^n(y_i-\tilde{{\beta_1}}x_i)=0

从而解出

\tilde{\beta_1}

为：

\tilde{\beta_1} = \frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}

当且仅当

\bar{x}=0

时，这两个估计值才是相同的。

在应用研究中，用过原点回归求

\beta_1

估计值并不常见。这是因为：如果截距

\beta_0 \neq 0

，那么

\tilde{\beta_1}

就是

\beta_1

的有偏估计量。（证明见课后习题 8）

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-10-02，如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自 PyStaData 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度