比例尺度を順序尺度に変換、色々な統計量をみる

年齢のデータを20代、30代という風に分けたいとき

価格のデータを安い、普通、高いという風に分けたい時に使える

#ageのヒストグラムを表示
sns.distplot(titanic["Age"])

画像1

これを~20歳、20~40歳、40~60、60~というふうに分ける

#レベル分けした関数を作る
def convert(i):
   a=0
   if i<20:
       a="young"
   elif i>=20 and i<40:
       a="adult"
   elif i>=40 and i<60:
       a="old"
   elif i>=60:
       a="very old"
   return a

#Age_levelという列を新しく作った
titanic["Age_level"]=titanic["Age"].apply(lambda x:convert(x))apply

apply(lambda~)は["Age"]のデータをlambdaを介して適応させてる

色々な統計量を見る(女性だけのデータとか見たい時)

titanic[titanic["Sex"]=="male"].describe().loc[:,["Age","Fare"]]
.loc[["count","std"]]

                       Age      Fare
count 453.000000   577.000000
std      14.678201      43.138263
 


いいなと思ったら応援しよう!