Kaggleの流れ(ヒートマップの作り方)
1 データの概要をチェック
コンペの目的、データの概要をチェック
2 各データの意味や値をチェック
データは目的変数と関係あるか?しっかり分析する必要あるか?意味がわからないところは調べる
データが多い場合ヒートマップを用いる
ヒートマップの作り方(例としてKaggleのhome priceのtrain dataを用いた)
#必要なライブラリのインポート
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
#相関係数の表示
df_house=pd.read_csv("train.csv",index_col=0)
df_house_corr=df_house.corr()
df_house_corr
#ヒートマップの作成
fig,ax=plt.subplots(figsize=(12,9))
sns.heatmap(df_house_corr,square=True,vmax=1,vmin=-1,center=0)
square=True:ヒートマップのサイズを正方形に
vmax,vmin,center:最大値、最小値、真ん中の設定
annot=Trueでラベルを晴れる。