欠損値・外れ値
今日は本格的に統計の内容を勉強しました。
確率変数(データ)には離散型と連続型があること。
大数の法則
正規分布
最尤法
ピアソンの積率相関係数
などなどいかにもそれっぽいキーワードを並べてみましたが、三割も理解できていないですが、この講座の重要なのはおそらく、データの前処理をできるかどうかだと思います。そのため、今回の課題(まだ半分しか終わってない)は欠損値の補完をおこなったり、外れ値の処理を行いました。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
score = pd.read_csv('score_missing.csv')
def fill_median(score):
return score.fillna(score.median())
fill_median(score).sum().sum()
#欠損値を中央値で保管する
def find_outliers(input_array):
q1,q3=np.percentile(input_array, [25, 75])
iqr=q3-q1
lower=q1-1.5*iqr
upper=q3+1.5*iqr
print(input_array[(input_array<lower) |(input_array>upper)])
find_outliers(np.array([30,39,-100,29,95,70,67,200,29,1000,56,45,68]))
#入力された配列の外れ値を省く
今回の外れ値は―100 200 1000
少しずつ難しくなってきているけど、逃げずに食らいつきます!