超大CSV解析

美国专利数据介绍

Latex 语法备忘清单

往期整理

Ctrl+K

Practice makes perfect

AMJ | 如何让你的研究变得“有趣”？

如何在PPT中插入python代码高亮

（新）古典经济学与马克思主义经济学的区别

研究的三大主导逻辑：演绎|归纳|溯因

发明专利申请的五个审批阶段

科研绘图：如何导出高DPI的图片

与“光”有关的管理学效应

漂绿（Greenwashing）

如何完整下载国自然结题报告？

美国专利类型

如何读懂中国专利文献及获取专利文献信息

文献集锦

制度复杂性：央地政府诉求冲突与企业行为策略

结构洞发挥作用的约束条件

目标设定与组织学习

弱知产保护与跨国公司的技术探索

政府资本进入，是否一定会推动企业绿色创新？

如何理论创新？

理论创新之假说对立

管理学理论集锦

期望效应理论与前景理论

新制度理论的相关文章【加深理解】

行为代理理论

Python实际应用

自然对数的转换方法

如何使用Python实现变量的缩尾

避开Cloudflare检测：Undetected ChromeDriver

基于百度地图API进行（逆）地理解码

爬取空气质量数据

腾讯 NLP 的情感分析教程

机器学习：预测连续目标变量

基于 Python 的事件研究法

CSR Scope & Emphasis

聚类标准误与固定效应

解读固定效应

聚类标准误与固定效应的理解

巫师3：狂猎

巫师3如何安装mod

《巫师3：狂猎》控制台代码（下）

《巫师3：狂猎》控制台代码（上

Stata应用技巧

绩效反馈研究：如何计算参考值

统计数据的唯一观测值数量

Stata18的绘图风格变化

如何开展边际效应分析？

local和global的使用区别

stata命令之esttab

Stata中时间变量的格式转换

Python知识与技巧

Python中的enumerate函数详解

如何读取.dta文件

针对DataFrame的切片操作

针对列表、元组、字符串的切片操作

os.path 模块用法详解

结合 groupby 和 .transform()

如何使用fillna处理缺失值

如何读取HDF5文件？

在 Pandas 中将 DataFrame 列转换为日期时间

如何在 Pandas DataFrame 中创建一个空列

用split函数切割字符串

Faker 库详细使用指南

日志(logging)系统详解

如何将数据连续写入csv

Pandas数据压缩与解压

Pandas：stack() 和 unstack()

Parquet：面向大数据分析的列式存储格式

回归系数的经济意义

解读回归系数的经济意义

解读lnY的回归系数经济含义

双重差分法（DID）

创新文献阅读与摘要

溢出式探索 vs 广泛探索

计量经济学

固定效应模型可以加入被解释变量的滞后项作为控制变量么？

Python绘图相关

遗漏变量偏误检验

遗漏变量偏误检验方法：ITCV 与 RIR

Stata: konfound

Stata: pkonfound

ITCV / RIR表述摘录

pd.cut()

type

Post

status

Published

date

Nov 30, 2025

slug

summary

tags

category

Python知识与技巧

icon

password

网址

作者

标签

文章链接

发布时间

来源

pd.cut 是 Pandas 库中一个非常实用的函数，用于将连续的数值数据（如年龄、收入、分数等）离散化 (Discretization)，将其划分到不同的区间或分箱 (Bins) 中。简而言之，它将一个数值列转换为一个类别列 (Categorical)。

1. `pd.cut` 的核心功能

pd.cut 函数将数据根据用户定义的边缘 (Edges) 或分箱数量 (Number of Bins) 进行划分。

例如：将一个 0 到 100 的分数数据划分为三个区间：[0, 60], (60, 80], (80, 100]。

基本语法

2. 常用参数详解与示例

示例数据准备

(1) 按分箱边缘列表划分（最常用）

这是最精确的划分方式，需要手动指定区间的边界点。

输出结果：

(2) 按分箱数量划分

如果只传入一个整数给 bins，Pandas 会自动计算等宽的分箱。

输出结果：

(3) 控制区间开闭性 (`right` 和 `include_lowest`)

right=True (默认)：区间右侧是闭合的，如 (a, b]。

right=False：区间左侧是闭合的，如 [a, b)。

include_lowest=True：确保包含数据的最小值，即使它是区间的左边界。

3. `pd.cut` vs `pd.qcut`

函数	划分依据	区间大小	适用场景
`pd.cut`	基于数值范围	区间宽度相同或用户指定	数据分布均匀，或需要按固定规则（如年龄段、分数线）划分时。
`pd.qcut`	基于样本数量 (Quartiles)	每个区间包含大致相同的样本数量	数据分布不均匀，或需要划分百分位数（如四分位数、十分位数）时。

示例：`pd.qcut`

输出结果：

总结：

当你知道具体的划分标准（如 60 分及格，80 分优秀）时，使用 pd.cut。当你想要根据数据的百分位平均分配样本时，使用 pd.qcut。

Pandas：stack() 和 unstack()

Loading...

目录

Last update: 2025-11-30

Hi, welcome to my blog!

文章列表

Practice makes perfect

AMJ | 如何让你的研究变得“有趣”？

如何在PPT中插入python代码高亮

（新）古典经济学与马克思主义经济学的区别

研究的三大主导逻辑：演绎|归纳|溯因

发明专利申请的五个审批阶段

科研绘图：如何导出高DPI的图片

与“光”有关的管理学效应

漂绿（Greenwashing）

如何完整下载国自然结题报告？

美国专利类型

如何读懂中国专利文献及获取专利文献信息

文献集锦

制度复杂性：央地政府诉求冲突与企业行为策略

结构洞发挥作用的约束条件

目标设定与组织学习

弱知产保护与跨国公司的技术探索

政府资本进入，是否一定会推动企业绿色创新？

如何理论创新？

理论创新之假说对立

管理学理论集锦

期望效应理论与前景理论

新制度理论的相关文章【加深理解】

行为代理理论

Python实际应用

自然对数的转换方法

如何使用Python实现变量的缩尾

避开Cloudflare检测：Undetected ChromeDriver

基于百度地图API进行（逆）地理解码

爬取空气质量数据

腾讯 NLP 的情感分析教程

机器学习：预测连续目标变量

基于 Python 的事件研究法

CSR Scope & Emphasis

聚类标准误与固定效应

解读固定效应

聚类标准误与固定效应的理解

巫师3：狂猎

巫师3如何安装mod

《巫师3：狂猎》控制台代码（下）

《巫师3：狂猎》控制台代码（上

Stata应用技巧

绩效反馈研究：如何计算参考值

统计数据的唯一观测值数量

Stata18的绘图风格变化

如何开展边际效应分析？

local和global的使用区别

stata命令之esttab

Stata中时间变量的格式转换

Python知识与技巧

Python中的enumerate函数详解

如何读取.dta文件

针对DataFrame的切片操作

针对列表、元组、字符串的切片操作

os.path 模块用法详解

结合 groupby 和 .transform()

如何使用fillna处理缺失值

如何读取HDF5文件？

在 Pandas 中将 DataFrame 列转换为日期时间

如何在 Pandas DataFrame 中创建一个空列

用split函数切割字符串

Faker 库详细使用指南

日志(logging)系统详解

如何将数据连续写入csv

Pandas数据压缩与解压

Pandas：stack() 和 unstack()

Parquet：面向大数据分析的列式存储格式

回归系数的经济意义

解读回归系数的经济意义

解读lnY的回归系数经济含义

双重差分法（DID）

创新文献阅读与摘要

溢出式探索 vs 广泛探索

计量经济学

固定效应模型可以加入被解释变量的滞后项作为控制变量么？

Python绘图相关

遗漏变量偏误检验

遗漏变量偏误检验方法：ITCV 与 RIR

Stata: konfound

Stata: pkonfound

ITCV / RIR表述摘录