機械学習概論
機械学習のフロー
データの収集
データの前処理、データクレンジング
機械学習モデリング、基準の取得
モデルのテスト
モデルを公開
必要なデータ量
Scikit-learn cheat sheet
そもそもデータがない場合
データを作る
転移学習を利用、インターネット上にある学習済みモデルに新しいデータを追加して新しいモデルを作る
APIを利用する、ベンダーが公開している学習済みモデルを使う
トレインデータ(訓練データ)は8割、テストデータ(検証データ)は2割
学習用データに恣意的なものを入れてしまうと偏ったモデルができてしまう、バリデーションデータを準備しておく
ホールドアウト法
k-分割交差検証(クロスバリデーション)
一個抜き交差検証(Leave One Out: LOOクロスバリデーション)
機械学習と統計学
機械学習はモデルを構築し、未知のデータを予測・分類する
統計学はデータを解析し、そのデータに至った背景を説明する
過学習(オーバーフィッティング)
学習データに適合しすぎたモデル、偏ったモデル
汎化
学習不足
過学習の反対の状態、データが足りず十分に学習できていない状態
過学習の防ぎ方
正則化
ドロップアウト(Dropout)
交差検証法
バリアンス
モデルの複雑さ、再現性の低さ
過学習の場合はバリアンスが高い
バイアス
モデルのズレ、精度の低さ
学習不足の場合らバイアスが高い
アンサンブル学習
バギング
ブースティング
混同行列(confusion matrix)
真陽性(true positive)、偽陽性(false positive)、偽陰性(false negative)、真陰性(true negative)
予想
実際 TP FN
FP TN
精度評価指標
正解率、accuracy
適合率、 精度、precision、TP/(TP+FP)
再現率、recall、TP/(TP+FN)
F値、F-value、2*(precision * recall) / (precision + recall)
PR曲線
横軸をrecall、縦軸をprecisionとしてデータをプロットしたグラフ
ブレイクイーブンポイント、BEP
precisionとrecallが一致する点
BEPが右上に遷移するほど良いモデル、precisionとrecallが同時に高くなっている
この記事が気に入ったらサポートをしてみませんか?