文献集锦

制度复杂性：央地政府诉求冲突与企业行为策略

结构洞发挥作用的约束条件

目标设定与组织学习

如何理论创新？

管理学理论集锦

Python实际应用

避开Cloudflare检测：Undetected ChromeDriver

聚类标准误与固定效应

巫师3：狂猎

Stata应用技巧

Python知识与技巧

Python中的enumerate函数详解

结合 groupby 和 .transform()

如何使用fillna处理缺失值

如何读取HDF5文件？

在 Pandas 中将 DataFrame 列转换为日期时间

如何在 Pandas DataFrame 中创建一个空列

Pandas：stack() 和 unstack()

双重差分法（DID）

队列DID

创新文献阅读与摘要

溢出式探索 vs 广泛探索

计量经济学

固定效应模型可以加入被解释变量的滞后项作为控制变量么？

Python绘图相关

sns.lineplot()

plt.legend()

聚类标准误与固定效应的理解

type

Post

status

Published

date

slug

summary

普通标准误、稳健标准误和聚类稳健标准误

普通标准误（robust standard error）

普通标准误的计算公式是在高斯马尔科夫假定下推导来的，其中有一个重要的假定就是同方差假定。那么一旦存在异方差，普通标准误就不是真实的标准误了，随之影响统计量的真实性（系数值/标准误）。因此，如果能证明不存在异方差，普通的标准误是没有问题的。

稳健标准误（Heteroskedasticity-Robust Standard Error）

当出现异方差时，最简单的解决办法就是采用稳健标准误对普通标准误进行调整，使结论更可靠。稳健标准误又叫异方差稳健的标准误，由White在1980提出，其推导过程没有用到同方差假定。

多应用于横截面数据，横截面数据有多个不同个体，通常都存在异方差问题，因此对于横截面数据我们一般都会使用异方差稳健的标准误。

聚类稳健标准误（Cluster-Robust Standard Errors）

聚类稳健的标准误比异方差稳健的标准误要求更为严格，其在推导过程中也没有用到同方差假定，所以聚类稳健标准误都是异方差稳健的。

聚类稳健标准误多应用于面板数据，面板数据是截面数据与时间序列数据的结合体，前者意味着不同个体之间可能存在异方差，后者意味着同一个体在不同时期的扰动项之间可能存在自相关。因此，对于面板数据，使用普通标准误或是异方差稳健的标准误都是有问题的，统计量也会随之失效。此时，应该使用聚类稳健标准误。

在面板数据中，每位个体不同时期的所有观测值即构成一个“聚类”（cluster），在同一聚类里的观测值互相相关，而不同聚类之间的观测值则不相关。

应该聚类到哪个层级

论文中普遍聚类到更高层级。比如，解释变量是市级层面，被解释变量是企业层面，一般选择更严格的聚类到市级层面。举例来说：假如你研究的问题是城市空气污染对职工薪酬的影响，你的被解释变量是企业层面的变量wage，而解释变量中既有市级层面也有企业层面变量。

若聚类到企业层面，就相当于假设同一个企业在不同时间上的观测值之间是相互关联的，但是不同企业的观测值之间是没有关联的。

若聚类到市级层面，就相当于假设同一个城市内任何两个观测值之间都是相互关联的，而不同城市的企业之间是没有关联的。

对这一问题来说，聚类到市级的假设是更符合实际情况的，因为同一个城市内的几家企业之间难免存在竞合，这也是为什么论文中大家都是聚类到更高层级的原因。当然，如果你的被解释变量和解释变量都是处在同一层面上，直接聚类到这一层面上就好了。

总结：

稳健标准误解决的是异方差问题；聚类标准误解决的则是自相关和异方差问题。

三个标准误的联系

从标准误数值大小上来说，通常情况下都是聚类稳健标准误>异方差稳健的标准误>普通标准误，因此多数情况下，使用普通的标准误会显著，而一旦使用异方差稳健的标准误或是聚类稳健的标准误就不再显著。

标准误的Stata写法

行业（企业）层面聚类与行业（企业）固定效应

行业（企业）层面聚类等同于行业（企业）固定效应，二者也都相当于额外的控制变量

聚类到行业层面

行业固定效应（聚类到行业层面）是指控制行业层面不随时间变化的不可观测特征。简单来说，每个行业都具有一个可能影响被解释变量的独有特征（难以观测或难以衡量），且该特征在整个时间维度上一直存在，独立于其他行业，不受其他行业影响。

从扰动项的角度来看：假设扰动项在行业之间不相关，而在同一个行业内的企业之间存在相关性。

聚类到企业层面

企业固定效应（聚类到企业层面）是指控制企业层面不随时间变化的不可观测特征。简单来说，每个企业都具有一个可能影响被解释变量的独有特征（例如企业文化），且该特征在整个时间维度上一直存在，独立于其他企业，不受其他企业影响。

从扰动项的角度来看：假设扰动项在企业之间不相关，而在同一个企业内不同观测值之间存在相关性。

为什么要对扰动项进行聚类处理呢？

首先来看最基本的稳健标准误(robust standard error)。我们知道，OLS的基本假设之一是扰动项的分布服从同方差。当出现异方差时，为了得到可靠的结论，最简单的解决办法就是采用稳健标准误对普通标准误进行调整。

接着考虑复杂一点的情况，即聚类(cluster)稳健标准误。以企业面板数据为例，同方差条件下，扰动项的方差-协方差矩阵是这个样子：

对于企业面板数据来说，同一个企业内部之间的扰动项往往是相关的，即非主对角线上的值往往并不为0，如下所示：

这个时候同方差假设并不满足，因而需要对扰动项进行调整。可以发现，尽管严格的同方差不满足，但如果把同一个企业的所有扰动项当成一个整体，同方差假设依然成立：

更进一步地，对于企业面板数据，同一个行业内部的扰动项往往也可能是相关的(就不画图了)。这时候就可以采用类似的思路，将标准误聚类到行业层面。

参考文献

Stata：聚类调整后的标准误-Cluster-SE - [Link] -

日志(logging)系统详解

解读回归系数的经济意义

Catalog

Last update: 2024-10-16

Hi, welcome to my blog!

本人设计了一款商科外文期刊信息查询小软件，可以查询期刊基本信息、英国ABS评级信息、澳洲ABDC评级信息、JCR分区及影响因子信息、中科院分区信息、FMS评级信息等，只需输入期刊名或其ISSN值即可，支持模糊搜索。目前已经更新至2025年中科院分区，可以点击此处下载、体验！

本人构建了一个基于 Python 的事件研究法（Event Study）计算与分析项目，用于计算上市公司在特定事件发生前后的异常收益率（AR）和累积异常收益率（CAR），并进行统计检验。本项目支持多进程并行计算，能够高效处理大规模的事件数据。点击此处可查看详情