機械学習概論

機械学習のフロー

  • データの収集

  • データの前処理、データクレンジング

  • 機械学習モデリング、基準の取得

  • モデルのテスト

  • モデルを公開

必要なデータ量

  • Scikit-learn cheat sheet

  • そもそもデータがない場合

    • データを作る

    • 転移学習を利用、インターネット上にある学習済みモデルに新しいデータを追加して新しいモデルを作る

    • APIを利用する、ベンダーが公開している学習済みモデルを使う

  • トレインデータ(訓練データ)は8割、テストデータ(検証データ)は2割

  • 学習用データに恣意的なものを入れてしまうと偏ったモデルができてしまう、バリデーションデータを準備しておく

  • ホールドアウト法

  • k-分割交差検証(クロスバリデーション)

  • 一個抜き交差検証(Leave One Out: LOOクロスバリデーション)

機械学習と統計学

  • 機械学習はモデルを構築し、未知のデータを予測・分類する

  • 統計学はデータを解析し、そのデータに至った背景を説明する

過学習(オーバーフィッティング)

  • 学習データに適合しすぎたモデル、偏ったモデル

  • 汎化

  • 学習不足

    • 過学習の反対の状態、データが足りず十分に学習できていない状態

過学習の防ぎ方

  • 正則化

  • ドロップアウト(Dropout)

  • 交差検証法

  • バリアンス

    • モデルの複雑さ、再現性の低さ

    • 過学習の場合はバリアンスが高い

  • バイアス

    • モデルのズレ、精度の低さ

    • 学習不足の場合らバイアスが高い

  • アンサンブル学習

    • バギング

    • ブースティング

混同行列(confusion matrix)

  • 真陽性(true positive)、偽陽性(false positive)、偽陰性(false negative)、真陰性(true negative)

   予想
実際 TP FN
  FP TN

精度評価指標

  • 正解率、accuracy

  • 適合率、 精度、precision、TP/(TP+FP)

  • 再現率、recall、TP/(TP+FN)

  • F値、F-value、2*(precision * recall) / (precision + recall)

PR曲線

  • 横軸をrecall、縦軸をprecisionとしてデータをプロットしたグラフ

ブレイクイーブンポイント、BEP

  • precisionとrecallが一致する点

  • BEPが右上に遷移するほど良いモデル、precisionとrecallが同時に高くなっている

この記事が気に入ったらサポートをしてみませんか?