![見出し画像](https://assets.st-note.com/production/uploads/images/120768947/rectangle_large_type_2_572f98213b22c2c0d577832ac4c08638.png?width=1200)
Photo by
shunsukesatake
Pythonでデータ分析①: Pandasの基本的な使い方とデータ操作
pandasとは、python用データ分析ライブラリです。"Panel Data"(パネルデータ)から由来していて、特に数値表や時間系列データの操作に向いています。以下のコードでPandasをインポートすることができます。
import pandas as pd
データの作成
pandasにはDataFrameとSeriesという2つのコアオブジェクトがあります。
① DataFrame(データフレーム)
データフレームは、二次元のラベル付きデータ構造(テーブル)です。
# データフレームの作成と保存
df = pd.DataFrame({
'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 22, 35, 58],
'City': ['New York', 'Paris', 'Berlin', 'London']
})
# データフレームを表示
print(df)
以下のような出力になります。
Name Age City
0 John 28 New York
1 Anna 22 Paris
2 Peter 35 Berlin
3 Linda 58 London
② Series(シリーズ)
シリーズは1次元のラベル付き配列で、複数のシリーズを組み合わせるとデータフレームになると考えることができます。
# データを提供
data = ['John', 'Anna', 'Peter', 'Linda']
# シリーズを作成します
s = pd.Series(data, name='Name')
# シリーズを表示します
print(s)
以下のような出力になります。
0 John
1 Anna
2 Peter
3 Linda
Name: Name, dtype: object
データファイルの読み込み
データフレームやシリーズを手作業で作ることができますが、実際はすでにあるデータを読み込んで作成する場合がほとんどです。
例えば、csv("Comma-Separated Values":カンマ区切りのデータ形式)のファイルを読み込む場合は、pd.read_csv()関数を使います。pd.read_csv()関数は充実しており、30以上のオプション・パラメータを指定できます。
# CSVファイルの読み込み
df = pd.read_csv('filename.csv')
データの確認
Shape:データ構造の形状(行数と列数)を表すタプルを返す
# データセットの作成
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda'],
'Age': [28, 22, 35, 58],
'City': ['New York', 'Paris', 'Berlin', 'London']
}
# データフレームの作成
df = pd.DataFrame(data)
# データフレームの形状を表示
print(df.shape)
このコードは(4, 3)を出力します。これは、データフレームが4行と3列から成ることを示しています。
head():DataFrameの最初のX行を表示する
# 先頭の5行を表示
print(df.head())
デフォルトでは5行の表示で、カッコ内に任意の数字を書くことで表示する行数を変更できます。
データの書き出し
to_csv関数を使ってデータフレームをCSVファイルとして保存することができます。
df.to_csv('filename.csv', index=True)