Pythonでデータ分析③: Pandasの「サマリー」と「マップ」
1. データのサマリー(Summary)
Pandasでは、データフレームやシリーズから統計的なサマリー(要約)を取得するための多くの関数を提供しています。以下に一例を挙げます。
describe()関数: 数値型の列について、カウント、平均、標準偏差、最小値、最大値、四分位数などの統計量を返します。
df.describe()
value_counts()関数: ユニークな要素の数をカウントします(シリーズオブジェクトのみ)。
df['column'].value_counts()
unique()関数: 存在するユニークな「値」を配列として返します。
df['column'].unique()
corr()関数: 列間の相関係数を計算します。
df.corr()
2. マップ (Mapping)
マップ関数は、データフレームやシリーズの各要素に対する操作を行います。以下に主な関数を示します。
map()関数: シリーズのすべての値を変換します。主に値の変換や代入に使用。
# 全ての値をその値自身の二乗に変換
df['column'] = df['column'].map(lambda x: x**2)
apply()関数: 行または列に対し関数を適用します。データフレーム全体の変換や特定の列に対し関数を適用する。
# column列すべてに平方根を適用
df['column'] = df['column'].apply(np.sqrt)
# 各列の値を合計
df = df.apply(np.sum, axis=0)
applymap()関数: データフレームの各要素(セル)に対し関数を適用する。
# すべての要素に平方根を適用
df = df.applymap(np.sqrt)