Practice makes perfect
文献集锦
如何理论创新?
管理学理论集锦
Python实际应用
聚类标准误与固定效应
巫师3:狂猎
Stata应用技巧
Python知识与技巧
双重差分法(DID)
创新文献阅读与摘要
计量经济学
Python绘图相关
聚类标准误与固定效应的理解
type
status
date
slug
summary
tags
category
icon
password
网址
作者
标签
文章链接
发布时间
来源
普通标准误、稳健标准误和聚类稳健标准误
普通标准误(robust standard error)
普通标准误的计算公式是在高斯马尔科夫假定下推导来的,其中有一个重要的假定就是同方差假定。那么一旦存在异方差,普通标准误就不是真实的标准误了,随之影响 统计量的真实性(系数值/标准误)。因此,如果能证明不存在异方差,普通的标准误是没有问题的。
稳健标准误(Heteroskedasticity-Robust Standard Error)
当出现异方差时,最简单的解决办法就是采用稳健标准误对普通标准误进行调整,使结论更可靠。稳健标准误又叫异方差稳健的标准误,由White在1980提出,其推导过程没有用到同方差假定。
多应用于横截面数据,横截面数据有多个不同个体,通常都存在异方差问题,因此对于横截面数据我们一般都会使用异方差稳健的标准误。
聚类稳健标准误(Cluster-Robust Standard Errors)
聚类稳健的标准误比异方差稳健的标准误要求更为严格,其在推导过程中也没有用到同方差假定,所以聚类稳健标准误都是异方差稳健的。
聚类稳健标准误多应用于面板数据,面板数据是截面数据与时间序列数据的结合体,前者意味着不同个体之间可能存在异方差,后者意味着同一个体在不同时期的扰动项之间可能存在自相关。因此,对于面板数据,使用普通标准误或是异方差稳健的标准误都是有问题的, 统计量也会随之失效。此时,应该使用聚类稳健标准误。
在面板数据中,每位个体不同时期的所有观测值即构成一个“聚类”(cluster),在同一聚类里的观测值互相相关,而不同聚类之间的观测值则不相关。
应该聚类到哪个层级
论文中普遍聚类到更高层级。比如,解释变量是市级层面,被解释变量是企业层面,一般选择更严格的聚类到市级层面。举例来说:假如你研究的问题是城市空气污染对职工薪酬的影响,你的被解释变量是企业层面的变量wage,而解释变量中既有市级层面也有企业层面变量。
- 若聚类到企业层面,就相当于假设同一个企业在不同时间上的观测值之间是相互关联的,但是不同企业的观测值之间是没有关联的。
- 若聚类到市级层面,就相当于假设同一个城市内任何两个观测值之间都是相互关联的,而不同城市的企业之间是没有关联的。
对这一问题来说,聚类到市级的假设是更符合实际情况的,因为同一个城市内的几家企业之间难免存在竞合,这也是为什么论文中大家都是聚类到更高层级的原因。当然,如果你的被解释变量和解释变量都是处在同一层面上,直接聚类到这一层面上就好了。
总结:
稳健标准误解决的是异方差问题;聚类标准误解决的则是自相关和异方差问题。
三个标准误的联系
从标准误数值大小上来说,通常情况下都是聚类稳健标准误>异方差稳健的标准误>普通标准误,因此多数情况下,使用普通的标准误会显著,而一旦使用异方差稳健的标准误或是聚类稳健的标准误就不再显著。
标准误的Stata写法
行业(企业)层面聚类与行业(企业)固定效应
行业(企业)层面聚类等同于行业(企业)固定效应,二者也都相当于额外的控制变量
聚类到行业层面
行业固定效应(聚类到行业层面)是指控制行业层面不随时间变化的不可观测特征。简单来说,每个行业都具有一个可能影响被解释变量的独有特征(难以观测或难以衡量) ,且该特征在整个时间维度上一直存在,独立于其他行业,不受其他行业影响。
从扰动项的角度来看:假设扰动项在行业之间不相关,而在同一个行业内的企业之间存在相关性。
聚类到企业层面
企业固定效应(聚类到企业层面)是指控制企业层面不随时间变化的不可观测特征。简单来说,每个企业都具有一个可能影响被解释变量的独有特征(例如企业文化) ,且该特征在整个时间维度上一直存在,独立于其他企业,不受其他企业影响。
从扰动项的角度来看:假设扰动项在企业之间不相关,而在同一个企业内不同观测值之间存在相关性。
为什么要对扰动项进行聚类处理呢?
首先来看最基本的稳健标准误(robust standard error)。我们知道,OLS的基本假设之一是扰动项的分布服从
同方差。当出现异方差时,为了得到可靠的结论,最简单的解决办法就是采用稳健标准误对普通标准误进行调整。接着考虑复杂一点的情况,即聚类(cluster)稳健标准误。以企业面板数据为例,同方差条件下,扰动项的方差-协方差矩阵是这个样子:

对于企业面板数据来说,同一个企业内部之间的扰动项往往是相关的,即非主对角线上的值往往并不为0,如下所示:

这个时候同方差假设并不满足,因而需要对扰动项进行调整。可以发现,尽管严格的同方差不满足,但如果把同一个企业的所有扰动项当成一个整体,同方差假设依然成立:

更进一步地,对于企业面板数据,同一个行业内部的扰动项往往也可能是相关的(就不画图了)。这时候就可以采用类似的思路,将标准误聚类到行业层面。
参考文献
- Stata:聚类调整后的标准误-Cluster-SE - [Link] -
Prev
日志(logging)系统详解
Next
解读回归系数的经济意义
Loading...