機械学習の用語
アルゴリズムとは、問題を解くための具体的な手法。
モデルとは、ターゲットと特徴量の具体的な数式的関係性。
回帰とは、数字を予測するもの。
分類とは、カテゴリを予測するもの。
特徴量とは、説明変数のこと。
ラベルとは、目的変数のこと。
データロボットのクイックモードで使われるアルゴリズムは、アンサンブル系が多い。
有名なTensorFlowはニューラルネットワークである。
機械学習は、
目標/イシュー設定→データ取得&探索→モデル化→解釈&プレゼン→データ準備・実装・保守のプロセスを経る。
データ前処理に全体の80%程の工数がかかることが多い。
データ前処理は、探索的データ解析、リーケージ分類をする。
学習用データは、構造化データと非構造化データがある。
フィーチャリングエンジニアリングとは、予測に効きそうな特徴量を設計すること。
どんな特徴量を入れるからに機械学習の精度がかかっているが、
ディープラーニングは、コンピュータが特徴量を設計する。
学習は過学習しないよう、交差検定をする。
交差検定とは、データを分け、
4/5を学習用データ、1/5を検定用データとして切り出している。
学習して、精度があるのか、
検定用結果が正解したかどうかを検証している。
ホールドアウト用データ20%は使わないデータ。
将来なにかのためにとっておく。
ホールドアウト解除で学習用データと検定用データに切り分けることもできる。
5回データを交差検定(クロスバリデーション)する。
交差検定結果を混合行列という表にしてモデルを評価する。
横軸に正答がTrue、正答がFalseの2パターン、
縦軸に予想がPositive、予想がNegativeの2パターン、
2×2の4マスの結果を記載する。
正解率、リコール(真陽性率)、プレシジョン(陽性的中率)、フォールアウト(偽陽性率)の指標がある。
予測確率の分布は、確率の閾値をどこに設定するかに過ぎない。