pycaretで機械学習を始める前のはなし

2022年4月25日 21:15

pycaretについて試したことを書いていこうと思いますが、まずは基本的な確認事項から。

import pycaret
pycaret.__version__

私の環境では'2.3.10'でした。

機械学習にはデータが欠かせない。大体の機械学習ライブラリにはデータセットがついているけど、pycaretにもたくさんのデータセットが付いてくる。あくまで練習用のデータでしょうが、面白そうなのが幾つかあります。

from pycaret.datasets import get_data
get_data(”index”)

ちなみに、get_dataのパラメータに渡している"index"は、デフォルトパラメータなので、無くても結果は同じになります。データの取得にはオンラインである必要がありますのでご注意を。

サンプルデータのDataset列の名前を使って、pandasのDataFrame形式でデータを取得することができます。今回はタイタニックのデータにしようと思います。

ちなみに、タイタニックデータというのは、あの大型客船タイタニックの乗客情報から、生存したかどうかを機械学習を使って予想するためのデータで、機械学習の練習でよく使われるデータです。生存かどうかを判定するので、バイナリクラス分析となります。

data_titanic = get_data("titanic")

data_titanic.shape

(891, 12)

891件のレコードデータと、12個の特徴があることが分かります。

タイタニックのデータに欠損値があることは、get_data()のtitanicの行のMissing Valuesの項目がYであることから分かります。

"titanic"のデータ情報

どの特徴に欠損値がどのくらいあるのか調べた結果がこれ。

＃欠損値の確認
data_titanic.isnull().sum()

年齢（＝Age）不詳と船室番号（＝Cabin）不明が多いな。

長くなりそうなので、次から本格的なデータ解析ということで。なかなかpycaretの本題に入れませんが気長にやります。

いいなと思ったら応援しよう！