第五章:数据分析基础

2025年2月19日

在这一章中,楠姐将带领大家踏入数据分析的世界,介绍Python中最常用的库,这些库不仅对数据科学家和数据分析师至关重要,也对想要在其他领域运用数据能力的开发者们相当有帮助。我们会从NumPy开始,学习数组的操作和数值计算;然后深入到Pandas,了解如何轻松处理和分析数据;最后,我们将通过Matplotlib和Seaborn进行数据可视化,帮助大家将数据更直观地展示出来。让我们一起开启这段数据分析之旅吧!

5.1 NumPy基础

NumPy是Python中进行数值计算的基础库,提供了强大的数组对象和许多用于操作数组的函数。今天,楠姐先从NumPy的数组操作说起。

首先,我们需要安装NumPy库,可以使用以下命令:

pip install numpy

在安装好之后,我们可以通过导入NumPy来开始我们的工作:

import numpy as np

NumPy的主要数据结构是ndarray(多维数组)。我们可以通过下面的例子创建一个一维数组:

arr = np.array([1, 2, 3, 4, 5])
print(arr)

输出将是:

[1 2 3 4 5]

NumPy数组的优势在于它们支持大量的数学函数,比如我们可以快速计算数组的均值:

mean_value = np.mean(arr)
print("均值:", mean_value)

如果我们想进行更复杂的操作,比如生成一个包含0到9的数组并进行重塑:

arr2 = np.arange(10).reshape(2, 5)
print(arr2)

输出为:

[[0 1 2 3 4]
 [5 6 7 8 9]]

这就是NumPy的基础操作,它可以帮助我们高效地进行数值运算,尤其是在处理大规模数据时。

5.2 Pandas入门

接下来,楠姐要跟大家介绍Pandas,Python数据分析的强大工具。Pandas特别擅长处理表格形式的数据,因此在数据清洗和分析中不可或缺。

同样地,我们首先需要安装Pandas库:

pip install pandas

安装完成后,我们可以导入Pandas:

import pandas as pd

Pandas中最重要的数据结构是DataFrame,它类似于数据库中的表格。下面是如何创建一个简单的DataFrame:

data = {
    '姓名': ['小明', '小红', '小刚'],
    '年龄': [15, 18, 16],
    '成绩': [88, 92, 79]
}
df = pd.DataFrame(data)
print(df)

输出将会是:

    姓名  年龄  成绩
0  小明   15   88
1  小红   18   92
2  小刚   16   79

我们可以通过Pandas提供的函数快速查看数据的基本信息:

print(df.describe())

通过这个函数,我们可以看到年龄和成绩的统计信息,例如均值、标准差等。还有很多处理数据的功能,比如数据选择、过滤和分组等。比如,我们可以选出成绩大于80的学生:

filtered_df = df[df['成绩'] > 80]
print(filtered_df)

通过这些基础知识,你可以开始探索和分析数据了。

5.3 数据可视化

最后,楠姐想和大家分享如何将数据可视化,Matplotlib和Seaborn是Python中最流行的可视化库,可以帮助我们将数据信息以图形化形式展现,更容易理解。

首先,我们需要安装这两个库:

pip install matplotlib seaborn

导入后,我们可以开始绘制图表:

import matplotlib.pyplot as plt
import seaborn as sns

# 生成一个简单的饼图
sizes = [50, 30, 20]
labels = ['A', 'B', 'C']
plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=90)
plt.axis('equal')  # 使饼图为圆形
plt.title('饼图示例')
plt.show()

Seaborn更高级,适合 statistical graphics。它集成了Matplotlib的功能,并且提供了更简洁的绘图接口。下面是用Seaborn绘制条形图的例子:

sns.barplot(x='姓名', y='成绩', data=df)
plt.title('学生成绩条形图')
plt.show()

通过直观的图形展示数据,可以帮助我们更好地理解数据背后的信息,是数据分析的重要组成部分。

这一章的内容就到这里,楠姐希望大家能通过这些工具掌握数据分析的基础,为后续更深入的学习打下良好的基础。接下来,我们将在第六章探索Python在AI领域的实用应用,敬请期待!