pandas入門 Part.1 / Python Tips.
インストール
pip install pandas
使い方
pandasで主に扱う型は2種類あります。
1. Series(シリーズ)
1列のみを扱うデータ型です。numpyのarrayと同じようなもの。
2. DataFrame(データフレーム)
行列です。
このDataFrameの操作が主になるかと思います。
DataFrame
1) 作成
>>> df = pd.DataFrame([[1, 2, 3], ["a", "b", "c"]])
>>> df
0 1 2
0 1 2 3
1 a b c
このように2次元リストだけ渡すと勝手にindexとcolumnの名前が付きます。
名前をつけたいときは
>>> df = pd.DataFrame({"col1": [1, 2, 3], "col2": ["a", "b", "c"]})
>>> df
col1 col2
0 1 a
1 2 b
2 3 c
ディクショナリのオブジェクトを渡すことで名前がつけられます。
index名も任意でつけられます。
>>> df = pd.DataFrame({"col1": [1, 2, 3], "col2": ["a", "b", "c"]}, index=["A", "B", "C"])
>>> df
col1 col2
A 1 a
B 2 b
C 3 c
2) アクセス
2-1) 列抽出
>>> df["col1"]
A 1
B 2
C 3
Name: col1, dtype: int64
2-2) 行抽出
iloc, loc, ixの3種類があり、それぞれ
iloc: 数字のみ
loc: 名前のみ
ix: 両方
を指定して抽出できます。
>>> df.loc["A"]
col1 1
col2 a
Name: A, dtype: object
>>> df.iloc[0]
col1 1
col2 a
Name: A, dtype: object
>>> df.ix["A"]
col1 1
col2 a
Name: A, dtype: object
2-3) セル抽出
先の3種類は実はセル指定できる
>>> df.iloc[0, 1]
'a'
>>> df.loc["A", "col2"]
'a'
>>> df.ix["A", 1]
'a'