第5章:データ分析の基礎
こんにちは、今日はデータ分析の基礎についてお話しします。最近、データは企業や研究において重要な資産となっており、Pythonはその分析を行うための強力なツールです。この章では、データ分析に欠かせないライブラリであるNumPy、Pandas、そしてデータの可視化を行うためのMatplotlibとSeabornについて学んでいきましょう。実際のデータを使って、具体的な手法を見ていきますので、是非一緒に学んでいきましょう!
5.1 NumPyの基礎
NumPyはPythonでの数値計算に特化したライブラリで、効率的な配列操作が可能です。NumPyを使用すると、大規模なデータセットを瞬時に処理することができます。まずは、NumPyをインストールしましょう。
pip install numpy
次に、基本的な配列を作成してみましょう。
import numpy as np
# 1次元配列の作成
array_1d = np.array([1, 2, 3, 4, 5])
print("1次元配列:", array_1d)
# 2次元配列の作成
array_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("2次元配列:\n", array_2d)
配列に対して行える基本的な演算もお見せします。
# 配列の加算
array_sum = array_1d + 5
print("加算結果:", array_sum)
# 配列の平均
mean_value = np.mean(array_1d)
print("平均値:", mean_value)
このように、NumPyを使用することで、簡単に数値計算を行うことができます。
5.2 Pandas入門
次に、データの操作・処理に特化したPandasライブラリを見ていきます。Pandasを使えば、データフレームという形式でデータを扱うことができ、効率的にデータ分析を行うことができます。まず、Pandasをインストールしましょう。
pip install pandas
データフレームを作成する基本的な方法を示します。
import pandas as pd
# データフレームの作成
data = {
'名前': ['Alice', 'Bob', 'Charlie'],
'年齢': [24, 27, 22],
'職業': ['エンジニア', 'デザイナー', 'テスター']
}
df = pd.DataFrame(data)
print(df)
データフレームを用いた基本的な操作も紹介します。
# 列を選択
age_series = df['年齢']
print("年齢列:\n", age_series)
# フィルタリング
young_people = df[df['年齢'] < 25]
print("25歳未満の人々:\n", young_people)
Pandasの強力な機能を活用することによって、大量のデータを効率的に処理できます。
5.3 データの可視化
最後に、データ分析の結果を視覚的に表現するための可視化ライブラリについて学びます。MatplotlibとSeabornは、強力で使いやすいデータの可視化ツールです。まず、これらのライブラリをインストールしましょう。
pip install matplotlib seaborn
ここで、Matplotlibを使って基本的なグラフを作成してみましょう。
import matplotlib.pyplot as plt
# サンプルデータ
x = [1, 2, 3, 4]
y = [10, 15, 7, 10]
plt.plot(x, y)
plt.title("基本的なラインプロット")
plt.xlabel("X軸")
plt.ylabel("Y軸")
plt.show()
次は、Seabornを使用してデータフレームから更に美しいビジュアルを生成します。
import seaborn as sns
# Seabornによるヒストグラムの描画
sns.histplot(df['年齢'], bins=5, kde=True)
plt.title("年齢のヒストグラム")
plt.xlabel("年齢")
plt.ylabel("頻度")
plt.show()
データの可視化は、分析結果を理解しやすくするための重要な手段です。これらのライブラリを活用して、データ分析をさらに深めていきましょう。
以上が第5章の内容です。データ分析はPythonの非常に重要な要素の一つですので、これらのツールをマスターして、実際のデータ分析に役立ててください!次の章では、AI分野におけるPythonの応用について学んでいきますので、楽しみにしていてくださいね。