見出し画像

Pythonでデータ分析③: Pandasの「サマリー」と「マップ」

1. データのサマリー(Summary)

Pandasでは、データフレームやシリーズから統計的なサマリー(要約)を取得するための多くの関数を提供しています。以下に一例を挙げます。

describe()関数: 数値型の列について、カウント、平均、標準偏差、最小値、最大値、四分位数などの統計量を返します。

df.describe()

value_counts()関数: ユニークな要素の数をカウントします(シリーズオブジェクトのみ)。

df['column'].value_counts()

unique()関数: 存在するユニークな「値」を配列として返します。

df['column'].unique()

corr()関数: 列間の相関係数を計算します。

df.corr()

2. マップ (Mapping)

マップ関数は、データフレームやシリーズの各要素に対する操作を行います。以下に主な関数を示します。

map()関数: シリーズのすべての値を変換します。主に値の変換や代入に使用。

# 全ての値をその値自身の二乗に変換
df['column'] = df['column'].map(lambda x: x**2)

apply()関数: 行または列に対し関数を適用します。データフレーム全体の変換や特定の列に対し関数を適用する。

# column列すべてに平方根を適用
df['column'] = df['column'].apply(np.sqrt)

# 各列の値を合計
df = df.apply(np.sum, axis=0)

applymap()関数: データフレームの各要素(セル)に対し関数を適用する。

# すべての要素に平方根を適用
df = df.applymap(np.sqrt)

いいなと思ったら応援しよう!