Pandasで知っておくべきメソッドまとめ
Pandasの必須メソッドについて、以下のように体系的にまとめて、各項目を詳細に説明します。
Pandasの必須メソッド
1. データ構造
Series(): 一次元の配列にラベルを付けたデータ構造。
DataFrame(): 二次元の表形式データ構造で、行と列にラベルがある。
2. データ生成
read_csv(): CSVファイルを読み込む。
read_excel(): Excelファイルを読み込む。
read_json(): JSONファイルを読み込む。
dict(): Pythonの辞書型からデータフレームを生成する。
3. データ確認
head(): データの先頭を表示する。
tail(): データの末尾を表示する。
info(): データフレームの情報を表示する。
describe(): 統計量を表示する。
shape: 行と列の数を表示する。
columns: 列名を表示する。
dtypes: 各列のデータ型を表示する。
4. データ操作
assign(): 新しい列を追加する。
drop(): 行や列を削除する。
rename(): 行や列の名前を変更する。
replace(): 特定の値を置き換える。
sort_values(): データをソートする。
sort_index(): インデックスでソートする。
reset_index(): インデックスをリセットする。
melt(): データフレームを「溶かして」長い形式に変換する。
5. グルーピング
groupby(): データをグループ化する。
agg(): 集約操作を行う。
apply(): 関数を適用する。
transform(): 変換操作を行う。
filter(): 条件に基づいてフィルタリングする。
6. データ整形
dropna(): 欠損値を持つ行や列を削除する。
fillna(): 欠損値を特定の値で埋める。
isna(): 欠損値を確認する。
interpolate(): 欠損値を補間する。
duplicated(): 重複した行を確認する。
7. 時系列処理
to_datetime(): 日付データを日時形式に変換する。
date_range(): 日付範囲を生成する。
resample(): 時系列データをリサンプリングする。
shift(): データをシフトする。
rolling(): ローリングウィンドウ計算を行う。
8. インデックス・順序操作
set_index(): インデックスを設定する。
reset_index(): インデックスをリセットする。
sort_index(): インデックスでソートする。
sort_values(): 値でソートする。
9. データ結合
merge(): データフレームを結合する。
join(): データフレームを結合する。
concat(): データフレームを連結する。
append(): 行を追加する。
10. データ選択
loc[]: ラベルベースのインデックス指定でデータを選択する。
iloc[]: 整数ベースのインデックス指定でデータを選択する。
iat[]: 特定のインデックス位置の要素を選択する。
at[]: 特定のラベル位置の要素を選択する。
filter(): 列や行をフィルタリングする。
11. 視覚化
plot(): データをプロットする。
hist(): ヒストグラムを表示する。
boxplot(): 箱ひげ図を表示する。
scatter_matrix(): 散布図行列を表示する。
12. 出力
to_csv(): CSVファイルとしてデータを出力する。
to_excel(): Excelファイルとしてデータを出力する。
13. 統計量
mean(): 平均値を計算する。
median(): 中央値を計算する。
mode(): 最頻値を計算する。
std(): 標準偏差を計算する。
var(): 分散を計算する。
min(): 最小値を計算する。
max(): 最大値を計算する。
count(): 要素数を計算する。
14. window関数
rolling(): ローリングウィンドウを適用する。
expanding(): 拡張ウィンドウを適用する。
これらのメソッドは、データの生成、確認、操作、整形、グルーピング、結合、選択、視覚化、出力、統計量の計算、時系列処理など、Pandasの様々な機能を網羅しています。それぞれのメソッドを使用することで、効率的にデータを操作・分析することができます。