掌握pandas排列输出技巧让数据分析结果更直观易懂提升工作效率

威震华夏关云长 · 发表于 2025-10-4 00:40:01

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

引言

在数据分析和处理过程中，pandas作为Python生态中最核心的数据处理库，其强大的数据操作能力为数据分析师和科学家提供了极大的便利。然而，仅仅掌握基础的数据操作是不够的，如何将分析结果以直观、易懂的方式呈现出来，是提升工作效率和沟通效果的关键。本文将深入探讨pandas中的排列输出技巧，帮助你更好地展示数据，提升数据分析的整体效率。

pandas基础排序方法

sort_values()方法

sort_values()是pandas中最常用的排序方法，它可以根据一个或多个列的值对DataFrame进行排序。

import pandas as pd
import numpy as np
# 创建示例DataFrame
data = {
'姓名': ['张三', '李四', '王五', '赵六', '钱七'],
'年龄': [28, 34, 29, 45, 22],
'薪资': [15000, 20000, 18000, 30000, 12000],
'部门': ['技术', '市场', '技术', '管理', '技术']
}
df = pd.DataFrame(data)
# 按年龄升序排序
df_sorted_by_age = df.sort_values(by='年龄')
print("按年龄升序排序:")
print(df_sorted_by_age)
# 按薪资降序排序
df_sorted_by_salary = df.sort_values(by='薪资', ascending=False)
print("\n按薪资降序排序:")
print(df_sorted_by_salary)
# 先按部门升序，再按薪资降序排序
df_sorted_multi = df.sort_values(by=['部门', '薪资'], ascending=[True, False])
print("\n多列排序(部门升序,薪资降序):")
print(df_sorted_multi)

复制代码

sort_index()方法

sort_index()方法用于根据行索引或列索引进行排序。

# 创建一个无序索引的DataFrame
df_unordered = pd.DataFrame({
'A': np.random.randn(5),
'B': np.random.randn(5)
}, index=[3, 1, 4, 0, 2])
# 按行索引升序排序
df_sorted_index = df_unordered.sort_index()
print("按行索引升序排序:")
print(df_sorted_index)
# 按行索引降序排序
df_sorted_index_desc = df_unordered.sort_index(ascending=False)
print("\n按行索引降序排序:")
print(df_sorted_index_desc)
# 按列名排序
df_sorted_columns = df_unordered.sort_index(axis=1)
print("\n按列名排序:")
print(df_sorted_columns)

复制代码

高级排列技巧

nlargest()和nsmallest()方法

当你只需要获取最大或最小的几个值时，nlargest()和nsmallest()方法比完整排序更高效。

# 获取薪资最高的3个人
top_3_salaries = df.nlargest(3, '薪资')
print("薪资最高的3个人:")
print(top_3_salaries)
# 获取年龄最小的2个人
youngest_2 = df.nsmallest(2, '年龄')
print("\n年龄最小的2个人:")
print(youngest_2)

复制代码

按自定义顺序排序

有时候，我们需要按照特定的非字母或非数字顺序进行排序，这时可以使用Categorical类型。

# 创建示例DataFrame
df_dept = pd.DataFrame({
'员工': ['张三', '李四', '王五', '赵六', '钱七'],
'绩效等级': ['B', 'A', 'C', 'A+', 'B+']
})
# 定义绩效等级的自定义顺序
performance_order = ['C', 'B', 'B+', 'A', 'A+']
# 将绩效等级转换为Categorical类型，并指定顺序
df_dept['绩效等级'] = pd.Categorical(
df_dept['绩效等级'],
categories=performance_order,
ordered=True
)
# 按自定义绩效等级排序
df_sorted_performance = df_dept.sort_values('绩效等级')
print("按自定义绩效等级排序:")
print(df_sorted_performance)

复制代码

分组后的排序

在数据分析中，我们经常需要对分组后的数据进行排序，以获取每个组中的特定信息。

# 创建更大的示例数据集
np.random.seed(42)
big_data = {
'部门': np.random.choice(['技术', '市场', '财务', '人力'], 100),
'员工': [f'员工{i}' for i in range(1, 101)],
'销售额': np.random.randint(1000, 10000, 100),
'工作年限': np.random.randint(1, 10, 100)
}
big_df = pd.DataFrame(big_data)
# 按部门分组，并获取每个部门销售额最高的员工
top_performers = big_df.groupby('部门').apply(
lambda x: x.nlargest(2, '销售额')
).reset_index(drop=True)
print("各部门销售额最高的2名员工:")
print(top_performers)
# 按部门分组，并计算每个部门的平均销售额，然后按平均销售额排序
dept_avg_sales = big_df.groupby('部门')['销售额'].mean().sort_values(ascending=False)
print("\n各部门平均销售额排序:")
print(dept_avg_sales)

复制代码

自定义输出格式

设置显示选项

pandas提供了多种选项来自定义数据的显示方式，使其更符合我们的需求。

# 获取当前的显示选项
print("当前最大显示行数:", pd.get_option('display.max_rows'))
print("当前最大显示列数:", pd.get_option('display.max_columns'))
# 设置显示选项
pd.set_option('display.max_rows', 20) # 最多显示20行
pd.set_option('display.max_columns', 10) # 最多显示10列
pd.set_option('display.width', 100) # 显示宽度为100字符
pd.set_option('display.precision', 2) # 浮点数精度为2
pd.set_option('display.float_format', '{:,.2f}'.format) # 浮点数格式化
# 创建一个包含大量数据的DataFrame
large_df = pd.DataFrame(np.random.randn(20, 8), columns=[f'列{i}' for i in range(1, 9)])
print("\n自定义显示选项后的DataFrame:")
print(large_df)
# 恢复默认设置
pd.reset_option('all')

复制代码

使用style属性美化输出

pandas的style属性提供了丰富的数据可视化选项，可以帮助我们创建更美观的表格。

# 创建示例数据
sales_data = {
'产品': ['产品A', '产品B', '产品C', '产品D', '产品E'],
'Q1': [12000, 15000, 8000, 18000, 10000],
'Q2': [14000, 16000, 8500, 17000, 12000],
'Q3': [13000, 15500, 9000, 19000, 11000],
'Q4': [15000, 16500, 9500, 20000, 13000]
}
sales_df = pd.DataFrame(sales_data)
# 使用style属性美化表格
styled_df = (
sales_df.style
.background_gradient(cmap='Blues') # 添加背景渐变色
.highlight_max(axis=0) # 高亮每列的最大值
.format({'Q1': '${:,.0f}', 'Q2': '${:,.0f}', 'Q3': '${:,.0f}', 'Q4': '${:,.0f}'}) # 格式化数字
.set_caption('产品季度销售额') # 添加标题
.set_properties(**{'text-align': 'center'}) # 设置文本居中
)
# 显示美化的表格
styled_df

复制代码

条件格式化

条件格式化可以帮助我们根据数据的值来应用不同的样式，使数据中的模式和异常更加明显。

# 创建示例数据
student_data = {
'姓名': ['张三', '李四', '王五', '赵六', '钱七', '孙八'],
'语文': [85, 92, 78, 65, 88, 95],
'数学': [90, 88, 82, 70, 85, 98],
'英语': [80, 85, 75, 60, 90, 92],
'综合': [87, 90, 80, 68, 86, 96]
}
student_df = pd.DataFrame(student_data)
# 设置条件格式化
styled_student = (
student_df.style
.hide_index() # 隐藏索引
.set_caption('学生成绩表') # 添加标题
.applymap(lambda x: 'color: red' if x < 70 else 'color: black') # 分数小于70的标红
.applymap(lambda x: 'font-weight: bold' if x >= 90 else '') # 分数大于等于90的加粗
.background_gradient(cmap='YlOrRd', subset=['语文', '数学', '英语', '综合']) # 添加背景渐变色
.format({'语文': '{:.0f}', '数学': '{:.0f}', '英语': '{:.0f}', '综合': '{:.0f}'}) # 格式化数字
)
# 显示条件格式化的表格
styled_student

复制代码

实用案例分析

案例一：销售数据分析与可视化

假设我们是一家零售公司的数据分析师，需要分析各产品的销售情况，并生成一份直观的报告。

# 创建销售数据
np.random.seed(42)
months = ['1月', '2月', '3月', '4月', '5月', '6月']
products = ['产品A', '产品B', '产品C', '产品D', '产品E']
sales_data = []
for month in months:
for product in products:
sales_data.append({
'月份': month,
'产品': product,
'销售额': np.random.randint(5000, 20000),
'销售量': np.random.randint(50, 200),
'客户满意度': np.random.uniform(3.5, 5.0)
})
sales_df = pd.DataFrame(sales_data)
# 计算每个产品的总销售额和平均客户满意度
product_summary = sales_df.groupby('产品').agg({
'销售额': 'sum',
'销售量': 'sum',
'客户满意度': 'mean'
}).reset_index()
# 按总销售额降序排序
product_summary = product_summary.sort_values('销售额', ascending=False)
# 美化输出
styled_product_summary = (
product_summary.style
.background_gradient(cmap='Blues', subset=['销售额', '销售量'])
.background_gradient(cmap='Greens', subset=['客户满意度'])
.format({
'销售额': '${:,.0f}',
'销售量': '{:,}件',
'客户满意度': '{:.2f}'
})
.set_caption('产品销售汇总表')
.hide_index()
)
styled_product_summary
# 计算每月的销售总额
monthly_sales = sales_df.groupby('月份')['销售额'].sum().reset_index()
# 确保月份按正确顺序排序
monthly_sales['月份'] = pd.Categorical(
monthly_sales['月份'],
categories=months,
ordered=True
)
monthly_sales = monthly_sales.sort_values('月份')
# 美化输出
styled_monthly_sales = (
monthly_sales.style
.background_gradient(cmap='Reds')
.format({'销售额': '${:,.0f}'})
.set_caption('月度销售总额')
.hide_index()
)
styled_monthly_sales

复制代码

案例二：多维度数据分析与展示

在这个案例中，我们将分析一个包含多个维度的数据集，并通过不同的排序和展示方式来发现数据中的模式。

# 创建多维度数据集
np.random.seed(42)
regions = ['华东', '华南', '华北', '西南', '西北']
categories = ['电子产品', '服装', '食品', '家居', '图书']
quarters = ['Q1', 'Q2', 'Q3', 'Q4']
multi_dim_data = []
for region in regions:
for category in categories:
for quarter in quarters:
multi_dim_data.append({
'地区': region,
'类别': category,
'季度': quarter,
'销售额': np.random.randint(10000, 100000),
'利润': np.random.randint(1000, 20000),
'客户数': np.random.randint(100, 1000),
'满意度': np.random.uniform(3.0, 5.0)
})
multi_dim_df = pd.DataFrame(multi_dim_data)
# 计算利润率
multi_dim_df['利润率'] = multi_dim_df['利润'] / multi_dim_df['销售额']
# 分析各地区总销售额和平均利润率
region_analysis = multi_dim_df.groupby('地区').agg({
'销售额': 'sum',
'利润': 'sum',
'利润率': 'mean',
'客户数': 'sum',
'满意度': 'mean'
}).reset_index()
# 按销售额降序排序
region_analysis = region_analysis.sort_values('销售额', ascending=False)
# 美化输出
styled_region = (
region_analysis.style
.background_gradient(cmap='Blues', subset=['销售额', '利润'])
.background_gradient(cmap='Greens', subset=['利润率'])
.background_gradient(cmap='Reds', subset=['客户数'])
.background_gradient(cmap='Purples', subset=['满意度'])
.format({
'销售额': '${:,.0f}',
'利润': '${:,.0f}',
'利润率': '{:.2%}',
'客户数': '{:,}',
'满意度': '{:.2f}'
})
.set_caption('地区销售分析')
.hide_index()
)
styled_region
# 分析各类别在各季度的表现
category_quarter = multi_dim_df.pivot_table(
index='类别',
columns='季度',
values='销售额',
aggfunc='sum'
)
# 按总销售额降序排序类别
category_quarter['总计'] = category_quarter.sum(axis=1)
category_quarter = category_quarter.sort_values('总计', ascending=False)
category_quarter = category_quarter.drop('总计', axis=1)
# 美化输出
styled_category_quarter = (
category_quarter.style
.background_gradient(cmap='Blues', axis=1)
.format('${:,.0f}')
.set_caption('各类别季度销售额')
)
styled_category_quarter

复制代码

性能优化与最佳实践

大数据集的排序技巧

当处理大型数据集时，排序操作可能会变得很慢。以下是一些优化技巧：

# 创建一个大型数据集
large_dataset = pd.DataFrame({
'id': range(1, 1000001),
'value': np.random.randn(1000000),
'category': np.random.choice(['A', 'B', 'C', 'D', 'E'], 1000000),
'date': pd.date_range('2020-01-01', periods=1000000, freq='H')
})
# 方法1：使用sort_values()进行排序
import time
start_time = time.time()
sorted_large = large_dataset.sort_values('value')
end_time = time.time()
print(f"使用sort_values()排序耗时: {end_time - start_time:.2f}秒")
# 方法2：先转换为Categorical类型再排序（适用于类别型数据）
start_time = time.time()
large_dataset['category'] = large_dataset['category'].astype('category')
sorted_category = large_dataset.sort_values('category')
end_time = time.time()
print(f"转换为Categorical后排序耗时: {end_time - start_time:.2f}秒")
# 方法3：只选择需要的列进行排序
start_time = time.time()
selected_cols = large_dataset[['id', 'value']].sort_values('value')
end_time = time.time()
print(f"选择部分列排序耗时: {end_time - start_time:.2f}秒")
# 方法4：使用nlargest()或nsmallest()获取前N个值
start_time = time.time()
top_1000 = large_dataset.nlargest(1000, 'value')
end_time = time.time()
print(f"使用nlargest()获取前1000条耗时: {end_time - start_time:.2f}秒")

复制代码

内存优化技巧

处理大型数据集时，内存使用是一个重要考虑因素。以下是一些减少内存使用的技巧：

# 检查原始数据集的内存使用
print(f"原始数据集内存使用: {large_dataset.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
# 优化1：转换数据类型以减少内存使用
optimized_dataset = large_dataset.copy()
# 将整数类型转换为更小的类型
optimized_dataset['id'] = optimized_dataset['id'].astype('int32')
# 将浮点数类型转换为更小的类型
optimized_dataset['value'] = optimized_dataset['value'].astype('float32')
# 将字符串类型转换为category类型（当唯一值较少时）
optimized_dataset['category'] = optimized_dataset['category'].astype('category')
print(f"优化后数据集内存使用: {optimized_dataset.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
# 优化2：使用分块处理大型数据集
def process_large_dataset_in_chunks(df, chunk_size=100000):
chunks = []
for i in range(0, len(df), chunk_size):
chunk = df.iloc[i:i+chunk_size]
# 对每个块进行处理
processed_chunk = chunk.sort_values('value')
chunks.append(processed_chunk)
# 合并所有块
return pd.concat(chunks)
start_time = time.time()
processed_chunks = process_large_dataset_in_chunks(large_dataset)
end_time = time.time()
print(f"分块处理耗时: {end_time - start_time:.2f}秒")

复制代码

最佳实践总结

1. 选择合适的排序方法：对于简单排序，使用sort_values()对于获取最大/最小值，使用nlargest()/nsmallest()对于按索引排序，使用sort_index()
2. 对于简单排序，使用sort_values()
3. 对于获取最大/最小值，使用nlargest()/nsmallest()
4. 对于按索引排序，使用sort_index()
5. 优化数据类型：将整数转换为适当大小的类型（如int8,int16,int32）将浮点数转换为float32（如果精度允许）将低基数字符串列转换为category类型
6. 将整数转换为适当大小的类型（如int8,int16,int32）
7. 将浮点数转换为float32（如果精度允许）
8. 将低基数字符串列转换为category类型
9. 处理大型数据集：考虑分块处理只选择需要的列进行操作考虑使用Dask或Modin等库处理超大型数据集
10. 考虑分块处理
11. 只选择需要的列进行操作
12. 考虑使用Dask或Modin等库处理超大型数据集
13. 美观输出：使用style属性增强可视化效果应用条件格式化突出重要信息适当格式化数字（如货币、百分比等）
14. 使用style属性增强可视化效果
15. 应用条件格式化突出重要信息
16. 适当格式化数字（如货币、百分比等）

选择合适的排序方法：

• 对于简单排序，使用sort_values()
• 对于获取最大/最小值，使用nlargest()/nsmallest()
• 对于按索引排序，使用sort_index()

优化数据类型：

• 将整数转换为适当大小的类型（如int8,int16,int32）
• 将浮点数转换为float32（如果精度允许）
• 将低基数字符串列转换为category类型

处理大型数据集：

• 考虑分块处理
• 只选择需要的列进行操作
• 考虑使用Dask或Modin等库处理超大型数据集

美观输出：

• 使用style属性增强可视化效果
• 应用条件格式化突出重要信息
• 适当格式化数字（如货币、百分比等）

总结

在数据分析工作中，数据的排列和输出方式直接影响着分析结果的直观性和工作效率。通过掌握pandas中的各种排列输出技巧，我们可以：

1. 更高效地对数据进行排序和筛选，快速找到关键信息
2. 通过美化和格式化输出，使分析结果更加直观易懂
3. 优化处理大型数据集的性能，提高工作效率
4. 创建专业、美观的数据报告，提升沟通效果

本文介绍了从基础的排序方法到高级的排列技巧，从自定义输出格式到实用案例分析，再到性能优化与最佳实践，全面覆盖了pandas排列输出的各个方面。希望这些技巧能够帮助你在日常数据分析工作中更加得心应手，让数据分析结果更加直观易懂，从而提升整体工作效率。

记住，好的数据排列和输出不仅是技术的展示，更是有效沟通的桥梁。在实际应用中，根据具体需求灵活运用这些技巧，才能真正发挥pandas的强大功能。

版权声明

1、转载或引用本网站内容(掌握pandas排列输出技巧让数据分析结果更直观易懂提升工作效率)须注明原网址及作者(威震华夏关云长)，并标明本网站网址(https://www.pixtech.cc/)。

2、对于不当转载或引用本网站内容而引起的民事纷争、行政处理或其他损失，本网站不承担责任。

3、对不遵守本声明或其他违法、恶意使用本网站内容者，本网站保留追究其法律责任的权利。

本文地址: https://www.pixtech.cc/thread-40993-1-1.html

	通知：是的！我们正在计划一个大动作！	11-02 12:46
	通知：Telegram 推送频道https://t.me/+2tB3a7aKXlw2YjA1 及时接收第一手论坛帖子信息～	10-23 09:32
	通知：本站资源由网友上传分享，如有违规等问题请到版务模块进行投诉，将及时处理！	10-23 09:31
	通知：加入QQ社群吧 https://qm.qq.com/q/QZibQd1hiq	10-23 09:28
	通知：签到时间调整为每日4:00（东八区）	10-23 09:26

活动公告

掌握pandas排列输出技巧让数据分析结果更直观易懂提升工作效率

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

版权声明

浏览过的版块

财Doro

三倍冰淇淋

无人之境【一阶】

立华奏

小樱（小丑装）

⑨的冰沙

以外的星空【二阶】

友情链接

频道订阅

加入社群