比例尺度を順序尺度に変換、色々な統計量をみる
年齢のデータを20代、30代という風に分けたいとき
価格のデータを安い、普通、高いという風に分けたい時に使える
#ageのヒストグラムを表示
sns.distplot(titanic["Age"])
これを~20歳、20~40歳、40~60、60~というふうに分ける
#レベル分けした関数を作る
def convert(i):
a=0
if i<20:
a="young"
elif i>=20 and i<40:
a="adult"
elif i>=40 and i<60:
a="old"
elif i>=60:
a="very old"
return a
#Age_levelという列を新しく作った
titanic["Age_level"]=titanic["Age"].apply(lambda x:convert(x))apply
apply(lambda~)は["Age"]のデータをlambdaを介して適応させてる
色々な統計量を見る(女性だけのデータとか見たい時)
titanic[titanic["Sex"]=="male"].describe().loc[:,["Age","Fare"]]
.loc[["count","std"]]
Age Fare
count 453.000000 577.000000
std 14.678201 43.138263