文献集锦

制度复杂性：央地政府诉求冲突与企业行为策略

结构洞发挥作用的约束条件

目标设定与组织学习

弱知产保护与跨国公司的技术探索

政府资本进入，是否一定会推动企业绿色创新？

如何理论创新？

管理学理论集锦

Python实际应用

避开Cloudflare检测：Undetected ChromeDriver

聚类标准误与固定效应

巫师3：狂猎

Stata应用技巧

Python知识与技巧

Python中的enumerate函数详解

结合 groupby 和 .transform()

如何使用fillna处理缺失值

如何读取HDF5文件？

在 Pandas 中将 DataFrame 列转换为日期时间

如何在 Pandas DataFrame 中创建一个空列

Pandas：stack() 和 unstack()

Parquet：面向大数据分析的列式存储格式

回归系数的经济意义

双重差分法（DID）

创新文献阅读与摘要

计量经济学

固定效应模型可以加入被解释变量的滞后项作为控制变量么？

Python绘图相关

sns.lineplot()

plt.legend()

遗漏变量偏误检验

遗漏变量偏误检验方法：ITCV 与 RIR

Stata: konfound

Stata: pkonfound

ITCV / RIR表述摘录

统计数据的唯一观测值数量

type

Post

status

Published

date

Jul 28, 2025

slug

summary

1. 使用 `distinct` 命令 (推荐，需要安装)

distinct 命令是用户编写的外部命令，但它非常方便和常用。

安装 distinct 命令 (如果尚未安装):

ssc install distinct

统计 ID 列的唯一值数量:

distinct id_column_name

Stata 会在结果中直接显示 id_column_name 的唯一值数量。

2. 使用 `codebook` 命令

codebook 命令可以为变量提供详细的描述性统计信息，其中就包括独特值的数量。

统计 ID 列的独特值数量:

codebook id_column_name

在输出中，你会看到 "Unique values" 行，后面跟着数量。

3. 使用 `egen, tag()` 和 `count`

这是一种更基础但同样有效的方法，不需要安装额外的命令。它利用了 egen 命令的 tag() 函数来标记每个唯一组的第一个观测，然后计算这些标记。

步骤:

标记每个唯一 ID 的第一个观测:

egen tag_id = tag(id_column_name)

这会创建一个名为 tag_id 的新变量。对于每个 id_column_name 的第一个出现，tag_id 的值为 1；对于同一 ID 的后续出现，其值为 0。

计数 tag_id 为 1 的观测数量:

count if tag_id == 1

count 命令会直接显示满足条件的观测数量，这就是你的独特 ID 数量。

一步到位 (如果你不需要保留 tag_id 变量):

bysort id_column_name: gen byte is_first = (_n == 1)
count if is_first == 1
drop is_first // 如果不再需要这个临时变量

这里的 bysort id_column_name: gen byte is_first = (_n == 1) 与 egen tag_id = tag(id_column_name) 的效果类似，都是标记每个组的第一个观测。_n == 1 是在 by 组内判断当前观测是否是该组的第一个观测。

选择哪种方法？

对于快速查看，distinct id_column_name 或 codebook id_column_name 是最简单直接的。

如果你需要在代码中进一步使用这个数量（例如，保存为宏），那么 egen tag_id = tag(id_column_name) 后跟 count if tag_id == 1 是很好的选择，因为 count 命令会将结果存储在 r(N) 中。例如：

egen tag_id = tag(id_column_name)
count if tag_id == 1
local num_unique_ids = r(N)
display "独特ID的数量是: `num_unique_ids'"

绩效反馈研究：如何计算参考值

Stata18的绘图风格变化

Last update: 2025-07-28

Hi, welcome to my blog!

统计数据的唯一观测值数量

1. 使用 distinct 命令 (推荐，需要安装)

2. 使用 codebook 命令

3. 使用 egen, tag() 和 count

1. 使用 `distinct` 命令 (推荐，需要安装)

2. 使用 `codebook` 命令

3. 使用 `egen, tag()` 和 `count`