Python Pandas 库详解教程

Pandas 是一个强大的数据分析库，广泛应用于数据清洗、处理、分析、可视化等任务。它提供了高效的工具来操作结构化数据，尤其是 DataFrame，非常适合用于表格数据的处理。本文将详细介绍 Pandas 库的基本用法，涵盖数据的加载、清洗、处理、分析和可视化。

1. 安装 Pandas

首先，确保你已安装 Pandas 库。如果没有安装，可以通过以下命令进行安装：

pip install pandas

2. 导入 Pandas

在 Python 脚本中导入 Pandas 库，通常使用 pd 作为别名：

import pandas as pd

3. Pandas 的核心数据结构

Pandas 的两个核心数据结构是：

Series：一维数据结构，类似于列表或数组。
DataFrame：二维数据结构，类似于表格或电子表格。

3.1 Series：一维数据结构

Series 是一个带有索引的数组，类似于 Python 中的列表，但它可以使用自定义的索引。

import pandas as pd

# 创建一个简单的 Series
s = pd.Series([1, 2, 3, 4, 5])

# 打印 Series
print(s)

输出：

0    1
1    2
2    3
3    4
4    5
dtype: int64

Series 支持使用自定义的索引：

s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(s)

输出：

a    1
b    2
c    3
d    4
e    5
dtype: int64

3.2 DataFrame：二维数据结构

DataFrame 是一个带有行和列的二维数据结构，类似于一个表格。

import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 27, 22],
    'City': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# 打印 DataFrame
print(df)

输出：

      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago

4. 数据的导入与导出

Pandas 提供了多种方法来读取和写入数据文件。常见的文件类型包括 CSV、Excel、SQL 等。

4.1 读取 CSV 文件

df = pd.read_csv('file.csv')

4.2 写入 CSV 文件

df.to_csv('output.csv', index=False)

4.3 读取 Excel 文件

df = pd.read_excel('file.xlsx')

4.4 写入 Excel 文件

df.to_excel('output.xlsx', index=False)

5. DataFrame 操作

Pandas 提供了丰富的操作方法来对 DataFrame 进行各种处理。

5.1 查看数据

# 查看前几行数据
print(df.head())  # 默认显示前5行

# 查看后几行数据
print(df.tail())  # 默认显示最后5行

# 获取数据的维度
print(df.shape)  # (行数, 列数)

# 获取列名
print(df.columns)

# 获取数据类型
print(df.dtypes)

5.2 选择特定列

可以通过列名选择 DataFrame 中的单独一列：

# 选择单列
print(df['Name'])

# 选择多列
print(df[['Name', 'Age']])

5.3 选择特定行

使用 .loc[] 或 .iloc[] 可以选择特定的行。

.loc[]：通过标签选择数据。
.iloc[]：通过位置选择数据。

# 通过标签选择行
print(df.loc[0])  # 选择第1行

# 通过位置选择行
print(df.iloc[0])  # 选择第1行

5.4 条件过滤

# 选择 Age 大于 25 的行
print(df[df['Age'] > 25])

5.5 增加新列

可以通过直接赋值的方式添加新的列。

df['Country'] = ['USA', 'USA', 'USA']
print(df)

5.6 删除列

# 删除单列
df.drop('Country', axis=1, inplace=True)

5.7 数据排序

# 根据某一列进行升序排序
df_sorted = df.sort_values(by='Age', ascending=True)
print(df_sorted)

6. 数据清洗与处理

数据清洗是数据分析的基础，Pandas 提供了强大的功能来处理缺失值、重复值和数据类型转换等。

6.1 处理缺失值

Pandas 提供了两种常用方法来处理缺失值：

dropna()：删除包含缺失值的行或列
fillna()：填充缺失值

# 删除包含缺失值的行
df.dropna()

# 填充缺失值
df.fillna(value=0)

6.2 处理重复值

# 删除重复的行
df.drop_duplicates(inplace=True)

6.3 数据类型转换

# 将 Age 列转换为字符串类型
df['Age'] = df['Age'].astype(str)

7. 数据分组与聚合

Pandas 提供了强大的分组与聚合功能，可以对数据进行分组后进行统计汇总。

7.1 分组

# 按照 'City' 列进行分组
grouped = df.groupby('City')

7.2 聚合

# 对每组进行聚合操作（例如，计算 Age 的平均值）
grouped['Age'].mean()

8. 数据合并与连接

Pandas 提供了多种方法来合并和连接不同的数据集。

8.1 合并（`merge()`）

df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['A', 'B', 'D'], 'value': [4, 5, 6]})

merged = pd.merge(df1, df2, on='key', how='inner')
print(merged)

8.2 拼接（`concat()`）

# 按行拼接
df_concat = pd.concat([df1, df2], axis=0)

# 按列拼接
df_concat = pd.concat([df1, df2], axis=1)

9. 数据可视化

Pandas 与 Matplotlib 等库集成，允许我们直接在 DataFrame 上绘制各种图表。

pip install matplotlib

9.1 绘制折线图

import matplotlib.pyplot as plt

# 绘制简单的折线图
df['Age'].plot(kind='line')
plt.show()

9.2 绘制柱状图

df['Age'].plot(kind='bar')
plt.show()

9.3 绘制散点图

df.plot(kind='scatter', x='Age', y='Name')
plt.show()

10. 高级功能

Pandas 还提供了许多高级功能，包括处理时间序列数据、窗口函数、分层索引等。

10.1 时间序列

# 生成日期范围
dates = pd.date_range('2025-01-01', periods=5, freq='D')

# 使用日期创建 DataFrame
df_time = pd.DataFrame({'Date': dates, 'Value': [10, 20, 30, 40, 50]})
print(df_time)

10.2 分层索引

# 使用多级索引
df_multi = df.set_index(['City', 'Name'])
print(df_multi)

总结

Pandas 是一个非常强大的数据分析工具，提供了非常多的功能来进行数据清洗、处理、统计和可视化。通过本教程，你已经学习了 Pandas 的基础操作，包括：

DataFrame 和 Series 的创建与操作
数据的加载与存储
数据清洗与处理
数据分组与聚合
数据的可视化
高级功能（如时间序列、分层索引等）

掌握这些基础内容后，你可以使用 Pandas 进行更复杂的数据分析任务，帮助你更高效地处理和分析数据。

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Python——Pandas库，超详细教程

Python Pandas 库详解教程

1. 安装 Pandas

2. 导入 Pandas

3. Pandas 的核心数据结构

3.1 Series：一维数据结构

3.2 DataFrame：二维数据结构

4. 数据的导入与导出

4.1 读取 CSV 文件

4.2 写入 CSV 文件

4.3 读取 Excel 文件

4.4 写入 Excel 文件

5. DataFrame 操作

5.1 查看数据

5.2 选择特定列

5.3 选择特定行

5.4 条件过滤

5.5 增加新列

5.6 删除列

5.7 数据排序

6. 数据清洗与处理

6.1 处理缺失值

6.2 处理重复值

6.3 数据类型转换

7. 数据分组与聚合

7.1 分组

7.2 聚合

8. 数据合并与连接

8.1 合并（`merge()`）

8.2 拼接（`concat()`）

9. 数据可视化

9.1 绘制折线图

9.2 绘制柱状图

9.3 绘制散点图

10. 高级功能

10.1 时间序列

10.2 分层索引

总结

lichongyang

发表回复取消回复

Python——Pandas库，超详细教程

Python Pandas 库详解教程

1. 安装 Pandas

2. 导入 Pandas

3. Pandas 的核心数据结构

3.1 Series：一维数据结构

3.2 DataFrame：二维数据结构

4. 数据的导入与导出

4.1 读取 CSV 文件

4.2 写入 CSV 文件

4.3 读取 Excel 文件

4.4 写入 Excel 文件

5. DataFrame 操作

5.1 查看数据

5.2 选择特定列

5.3 选择特定行

5.4 条件过滤

5.5 增加新列

5.6 删除列

5.7 数据排序

6. 数据清洗与处理

6.1 处理缺失值

6.2 处理重复值

6.3 数据类型转换

7. 数据分组与聚合

7.1 分组

7.2 聚合

8. 数据合并与连接

8.1 合并（merge()）

8.2 拼接（concat()）

9. 数据可视化

9.1 绘制折线图

9.2 绘制柱状图

9.3 绘制散点图

10. 高级功能

10.1 时间序列

10.2 分层索引

总结

lichongyang

发表回复 取消回复

8.1 合并（`merge()`）

8.2 拼接（`concat()`）

发表回复取消回复