超大CSV解析

美国专利数据介绍

Latex 语法备忘清单

往期整理

Ctrl+K

Practice makes perfect

AMJ | 如何让你的研究变得“有趣”？

如何在PPT中插入python代码高亮

（新）古典经济学与马克思主义经济学的区别

研究的三大主导逻辑：演绎|归纳|溯因

发明专利申请的五个审批阶段

科研绘图：如何导出高DPI的图片

与“光”有关的管理学效应

漂绿（Greenwashing）

如何完整下载国自然结题报告？

美国专利类型

如何读懂中国专利文献及获取专利文献信息

文献集锦

制度复杂性：央地政府诉求冲突与企业行为策略

结构洞发挥作用的约束条件

目标设定与组织学习

弱知产保护与跨国公司的技术探索

政府资本进入，是否一定会推动企业绿色创新？

如何理论创新？

理论创新之假说对立

管理学理论集锦

期望效应理论与前景理论

新制度理论的相关文章【加深理解】

行为代理理论

Python实际应用

自然对数的转换方法

如何使用Python实现变量的缩尾

避开Cloudflare检测：Undetected ChromeDriver

基于百度地图API进行（逆）地理解码

爬取空气质量数据

腾讯 NLP 的情感分析教程

机器学习：预测连续目标变量

基于 Python 的事件研究法

CSR Scope & Emphasis

聚类标准误与固定效应

解读固定效应

聚类标准误与固定效应的理解

巫师3：狂猎

巫师3如何安装mod

《巫师3：狂猎》控制台代码（下）

《巫师3：狂猎》控制台代码（上

Stata应用技巧

绩效反馈研究：如何计算参考值

统计数据的唯一观测值数量

Stata18的绘图风格变化

如何开展边际效应分析？

local和global的使用区别

stata命令之esttab

Stata中时间变量的格式转换

Python知识与技巧

Python中的enumerate函数详解

如何读取.dta文件

针对DataFrame的切片操作

针对列表、元组、字符串的切片操作

os.path 模块用法详解

结合 groupby 和 .transform()

如何使用fillna处理缺失值

如何读取HDF5文件？

在 Pandas 中将 DataFrame 列转换为日期时间

如何在 Pandas DataFrame 中创建一个空列

用split函数切割字符串

Faker 库详细使用指南

日志(logging)系统详解

如何将数据连续写入csv

Pandas数据压缩与解压

Pandas：stack() 和 unstack()

Parquet：面向大数据分析的列式存储格式

回归系数的经济意义

解读回归系数的经济意义

解读lnY的回归系数经济含义

双重差分法（DID）

创新文献阅读与摘要

溢出式探索 vs 广泛探索

计量经济学

固定效应模型可以加入被解释变量的滞后项作为控制变量么？

Python绘图相关

遗漏变量偏误检验

遗漏变量偏误检验方法：ITCV 与 RIR

Stata: konfound

Stata: pkonfound

ITCV / RIR表述摘录

如何读取.dta文件

type

Post

status

Published

date

Apr 30, 2025

slug

summary

tags

category

Python知识与技巧

icon

password

网址

作者

标签

文章链接

发布时间

来源

在 Python 中，可以使用 pandas 库或 pyreadstat 库来读取 Stata 的 .dta 文件。以下是两种方法的示例：

方法 1：使用 `pandas`（推荐）

pandas 提供了 read_stata() 函数，可以直接读取 .dta 文件：

参数说明

convert_dates=True（默认）：自动转换日期变量。

convert_categoricals=True（默认）：将 Stata 的分类变量转为 pandas 的 category 类型。

preserve_dtypes=True（默认）：尽量保持 Stata 的数据类型。

columns=None：可选，指定要读取的列名列表。

index_col=None：可选，指定索引列。

示例（带参数）

方法 2：使用 `pyreadstat`（适用于大文件或特殊编码）

pyreadstat 是一个更高效的库，特别适合处理大型 .dta 文件或需要更精细控制的情况：

参数说明

apply_value_formats=True：是否应用 Stata 的标签（如分类变量的值标签）。

encoding="latin1"：指定编码（某些旧版 Stata 文件可能需要）。

usecols=["var1", "var2"]：只读取指定变量。

示例（带参数）

如何选择？

一般情况：直接用 pandas.read_stata()，简单方便。

大数据或特殊需求：用 pyreadstat，速度更快，支持更多格式选项。

中文乱码问题：如果遇到中文乱码，可以尝试：

注意事项

Stata 版本：pandas 默认支持 Stata 13-15 格式，较新的 Stata 17 文件可能需要更新库。如果报错，尝试：

分类变量：如果 Stata 文件包含带标签的分类变量，pandas 会自动转为 category 类型。

缺失值：Stata 的缺失值（如 ., .a, .b）会被转为 NaN。

读取大型dta文件并逐个保存为xlsx文件

如果dta文件过大，想逐个拆分并保存为xlsx文件，代码如下

Python中的enumerate函数详解

针对DataFrame的切片操作

Loading...

目录

Last update: 2025-04-30

Hi, welcome to my blog!

文章列表

Practice makes perfect

AMJ | 如何让你的研究变得“有趣”？

如何在PPT中插入python代码高亮

（新）古典经济学与马克思主义经济学的区别

研究的三大主导逻辑：演绎|归纳|溯因

发明专利申请的五个审批阶段

科研绘图：如何导出高DPI的图片

与“光”有关的管理学效应

漂绿（Greenwashing）

如何完整下载国自然结题报告？

美国专利类型

如何读懂中国专利文献及获取专利文献信息

文献集锦

制度复杂性：央地政府诉求冲突与企业行为策略

结构洞发挥作用的约束条件

目标设定与组织学习

弱知产保护与跨国公司的技术探索

政府资本进入，是否一定会推动企业绿色创新？

如何理论创新？

理论创新之假说对立

管理学理论集锦

期望效应理论与前景理论

新制度理论的相关文章【加深理解】

行为代理理论

Python实际应用

自然对数的转换方法

如何使用Python实现变量的缩尾

避开Cloudflare检测：Undetected ChromeDriver

基于百度地图API进行（逆）地理解码

爬取空气质量数据

腾讯 NLP 的情感分析教程

机器学习：预测连续目标变量

基于 Python 的事件研究法

CSR Scope & Emphasis

聚类标准误与固定效应

解读固定效应

聚类标准误与固定效应的理解

巫师3：狂猎

巫师3如何安装mod

《巫师3：狂猎》控制台代码（下）

《巫师3：狂猎》控制台代码（上

Stata应用技巧

绩效反馈研究：如何计算参考值

统计数据的唯一观测值数量

Stata18的绘图风格变化

如何开展边际效应分析？

local和global的使用区别

stata命令之esttab

Stata中时间变量的格式转换

Python知识与技巧

Python中的enumerate函数详解

如何读取.dta文件

针对DataFrame的切片操作

针对列表、元组、字符串的切片操作

os.path 模块用法详解

结合 groupby 和 .transform()

如何使用fillna处理缺失值

如何读取HDF5文件？

在 Pandas 中将 DataFrame 列转换为日期时间

如何在 Pandas DataFrame 中创建一个空列

用split函数切割字符串

Faker 库详细使用指南

日志(logging)系统详解

如何将数据连续写入csv

Pandas数据压缩与解压

Pandas：stack() 和 unstack()

Parquet：面向大数据分析的列式存储格式

回归系数的经济意义

解读回归系数的经济意义

解读lnY的回归系数经济含义

双重差分法（DID）

创新文献阅读与摘要

溢出式探索 vs 广泛探索

计量经济学

固定效应模型可以加入被解释变量的滞后项作为控制变量么？

Python绘图相关

遗漏变量偏误检验

遗漏变量偏误检验方法：ITCV 与 RIR

Stata: konfound

Stata: pkonfound

ITCV / RIR表述摘录