pycaretのsetup関数を見ていく
前回までのあらすじ
pycaretの準備しているデータセットを参照し、その中のタイタニックのデータがどうなっていたかを見てきました。いよいよpycaretを使って機械学習を始めるんだけど、一発目にpycaretの関数としてsetup関数を呼び出す。
setup関数で何をするのか?
pycaretではデータを読み込んだ後、setup関数なるものを使ってデータをごにょごにょします。説明は後にしてとりあえずコードを書いておきます。
from pycaret.classification import setup
# 環境の初期化
clf = setup(data=data_titanic, target="Survived", train_size=0.7 ,session_id=123,
numeric_imputation="mean", categorical_imputation="mode")
データセットを指定する:ここではタイタニックデータ(=data_titanic)
ターゲット列を指定:タイタニックだったら生還したかどうか(="Survived")
データを訓練データとテストデータに分ける:全データセットの何%を訓練データとするか指定できる。(=0.7)
セッションIDの指定:適当な番号でいいけど、setupしたカタマリ(=オブジェクト)を管理する番号みたいなもの。(=123)
欠損データの扱い:数値だったらどうする(=mean。つまり平均値)、カテゴリデータだったらどうする(=mode。つまり最頻値)って選べるようです。
setup関数を使った時の確認
setup関数を呼び出すと、各特徴データが数値かカテゴリデータかといった内容を自動で解析し、結果を表示してくれます。ここで最後のテキストボックスみたいな空白エリアでOKの場合はEnterを押し、いやいやその解析結果おかしいでしょっていうことであればquitと入力しないとsetup関数は終わりません。ユーザによる確認操作が必要なんです。確認なんていらねーよ、いちいちEnterなんて押してらんねーよ。っていう場合は、setup関数のパラメータにsilent=Trueを入れてみてください。
setup関数を使うメリット
データ分割や、欠損値の補完が簡単に行えると同時に、各特徴がカテゴリデータなのか数値データなのかといったことを自動解析してくれるんでとっても便利です。便利すぎて、もはやデータ分析にかかる時間なんて必要ないのではないかと却って不安になってしまいます。
次はいよいよ学習に入ります。