pandas,numpy,matplotlib
Pythonでデータをいろいろ操作するための基礎知識。
[環境]
macOS High Sierra
python + anaconda + Jupyter
1)最初に呪文
Jupyterに新規にノートを作ったら最初に記載する呪文。
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
2)pandasでCSVのロード
train = pd.read_csv("foo.txt")
ヘッダーがない場合は、
train = pd.read_csv("foo.txt", header=None)
3)基礎統計量の確認
数値データの範囲とか確認しておく
train.describe()
4)欠損値の確認
各カラムごとに、欠損値の数がでる。
train.isnull().sum()
欠損値は、0にしたり、平均値を埋めたり、欠損値のデータを除外したり。
0にする場合
train.fillna(0)
平均値で埋める場合
avg = train["foo"].mean()
train["foo"].fillna(avg)
欠損値のあるデータを除外する
train.dropna(subset=["foo"])