Practice makes perfect
文献集锦
如何理论创新?
管理学理论集锦
Python实际应用
聚类标准误与固定效应
巫师3:狂猎
Stata应用技巧
Python知识与技巧
双重差分法(DID)
创新文献阅读与摘要
计量经济学
Python绘图相关
遗漏变量偏误检验
聚类标准误与固定效应的理解
type
Post
status
Published
date
slug
summary
tags
category
聚类标准误与固定效应
icon
password
网址
作者
标签
文章链接
发布时间
来源
普通标准误、稳健标准误和聚类稳健标准误
普通标准误(robust standard error)
普通标准误的计算公式是在高斯马尔科夫假定下推导来的,其中有一个重要的假定就是同方差假定。那么一旦存在异方差,普通标准误就不是真实的标准误了,随之影响 统计量的真实性(系数值/标准误)。因此,如果能证明不存在异方差,普通的标准误是没有问题的。
稳健标准误(Heteroskedasticity-Robust Standard Error)
当出现异方差时,最简单的解决办法就是采用稳健标准误对普通标准误进行调整,使结论更可靠。稳健标准误又叫异方差稳健的标准误,由White在1980提出,其推导过程没有用到同方差假定。
多应用于横截面数据,横截面数据有多个不同个体,通常都存在异方差问题,因此对于横截面数据我们一般都会使用异方差稳健的标准误。
聚类稳健标准误(Cluster-Robust Standard Errors)
聚类稳健的标准误比异方差稳健的标准误要求更为严格,其在推导过程中也没有用到同方差假定,所以聚类稳健标准误都是异方差稳健的。
聚类稳健标准误多应用于面板数据,面板数据是截面数据与时间序列数据的结合体,前者意味着不同个体之间可能存在异方差,后者意味着同一个体在不同时期的扰动项之间可能存在自相关。因此,对于面板数据,使用普通标准误或是异方差稳健的标准误都是有问题的, 统计量也会随之失效。此时,应该使用聚类稳健标准误。
在面板数据中,每位个体不同时期的所有观测值即构成一个“聚类”(cluster),在同一聚类里的观测值互相相关,而不同聚类之间的观测值则不相关。
应该聚类到哪个层级
论文中普遍聚类到更高层级。比如,解释变量是市级层面,被解释变量是企业层面,一般选择更严格的聚类到市级层面。举例来说:假如你研究的问题是城市空气污染对职工薪酬的影响,你的被解释变量是企业层面的变量wage,而解释变量中既有市级层面也有企业层面变量。
- 若聚类到企业层面,就相当于假设同一个企业在不同时间上的观测值之间是相互关联的,但是不同企业的观测值之间是没有关联的。
- 若聚类到市级层面,就相当于假设同一个城市内任何两个观测值之间都是相互关联的,而不同城市的企业之间是没有关联的。
对这一问题来说,聚类到市级的假设是更符合实际情况的,因为同一个城市内的几家企业之间难免存在竞合,这也是为什么论文中大家都是聚类到更高层级的原因。当然,如果你的被解释变量和解释变量都是处在同一层面上,直接聚类到这一层面上就好了。
总结:
稳健标准误解决的是异方差问题;聚类标准误解决的则是自相关和异方差问题。
三个标准误的联系
从标准误数值大小上来说,通常情况下都是聚类稳健标准误>异方差稳健的标准误>普通标准误,因此多数情况下,使用普通的标准误会显著,而一旦使用异方差稳健的标准误或是聚类稳健的标准误就不再显著。
标准误的Stata写法
行业(企业)层面聚类与行业(企业)固定效应
行业(企业)层面聚类等同于行业(企业)固定效应,二者也都相当于额外的控制变量
聚类到行业层面
行业固定效应(聚类到行业层面)是指控制行业层面不随时间变化的不可观测特征。简单来说,每个行业都具有一个可能影响被解释变量的独有特征(难以观测或难以衡量) ,且该特征在整个时间维度上一直存在,独立于其他行业,不受其他行业影响。
从扰动项的角度来看:假设扰动项在行业之间不相关,而在同一个行业内的企业之间存在相关性。
聚类到企业层面
企业固定效应(聚类到企业层面)是指控制企业层面不随时间变化的不可观测特征。简单来说,每个企业都具有一个可能影响被解释变量的独有特征(例如企业文化) ,且该特征在整个时间维度上一直存在,独立于其他企业,不受其他企业影响。
从扰动项的角度来看:假设扰动项在企业之间不相关,而在同一个企业内不同观测值之间存在相关性。
为什么要对扰动项进行聚类处理呢?
首先来看最基本的稳健标准误(robust standard error)。我们知道,OLS的基本假设之一是扰动项的分布服从
同方差。当出现异方差时,为了得到可靠的结论,最简单的解决办法就是采用稳健标准误对普通标准误进行调整。接着考虑复杂一点的情况,即聚类(cluster)稳健标准误。以企业面板数据为例,同方差条件下,扰动项的方差-协方差矩阵是这个样子:

对于企业面板数据来说,同一个企业内部之间的扰动项往往是相关的,即非主对角线上的值往往并不为0,如下所示:

这个时候同方差假设并不满足,因而需要对扰动项进行调整。可以发现,尽管严格的同方差不满足,但如果把同一个企业的所有扰动项当成一个整体,同方差假设依然成立:

更进一步地,对于企业面板数据,同一个行业内部的扰动项往往也可能是相关的(就不画图了)。这时候就可以采用类似的思路,将标准误聚类到行业层面。
参考文献
- Stata:聚类调整后的标准误-Cluster-SE - [Link] -
上一篇
日志(logging)系统详解
下一篇
解读回归系数的经济意义
Loading...