pandas,numpy,matplotlib

Pythonでデータをいろいろ操作するための基礎知識。

[環境]
macOS High Sierra
python + anaconda + Jupyter

1)最初に呪文
Jupyterに新規にノートを作ったら最初に記載する呪文。

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

2)pandasでCSVのロード

train = pd.read_csv("foo.txt")

ヘッダーがない場合は、

train = pd.read_csv("foo.txt", header=None)

3)基礎統計量の確認
数値データの範囲とか確認しておく

train.describe()

4)欠損値の確認
各カラムごとに、欠損値の数がでる。

train.isnull().sum()

欠損値は、0にしたり、平均値を埋めたり、欠損値のデータを除外したり。

0にする場合
 train.fillna(0)
平均値で埋める場合
 avg = train["foo"].mean()
 train["foo"].fillna(avg)
欠損値のあるデータを除外する
 train.dropna(subset=["foo"])

いいなと思ったら応援しよう!