G検定対策 その6
こんにちは。
初めて1週間連続投稿します。
よかったら、読んでください。
今日は、機械学習のワークフローについてです。
・キーワード
Webスクレイピング:
Webからデータを抽出して、分析可能なデータ構造に変換する技術
オープンデータ:
国や地方公共団体、事業者などが後悔しているデータ。誰でも使用できる
データクレンジング:
欠損・重複・表記の揺れなどみ対処して、データの品質を高める行為
外れ値:
得られた観測値の中で他から大きく外れた値
Label Encoding
主に順位のあるカテゴリカル変数に数値を割り当てる手法
One-Hot Encoding
主に順位のないカテゴリカル変数と0と1で表現できるように、特徴量を置き換える手法
正規化:
データをスケーリングすること
L1正則化:
一部の特徴量の重みを0にすることで、不要なデータを削除する(次元削減)
Lasso回帰
L2正則化
特徴量の大きさに応じて、0に近づけて、滑らかなモデルを得る
リッジ回帰
アンダーフィッティング
正則化を行いすぎて、全体の汎用性が低下したこと
標準化
平均を0、分散を1に変換すること
次元削減
データを失わないように低次元に圧縮すること
t-SNE法
データの「近さ」などの関係を維持しながら義源を圧縮する手法。データの可視化の際に有効である
主成分分析
データの特徴量の相関などからデータを要約する手法
特徴量エンジニアリング
モデルが認識しやすい特徴量をデータから作成すること
オーバーサンプリング
不均衡データに対して、多い方のデータ数に少ないデータ数を合わせて水増しする技法
SMOTE(Synthetic Minority Oversampling TEchnique)
K近傍法を利用したオーバーサンプリングの手法
過学習
訓練データに適合しすぎることで、未知のデータへの汎用性がない状態のこと
ホールドアウト法
データを学習用とテスト用に分割することで、モデルの精度を側対する手法
交差検証
データ全体を3つ以上に分割し、分割したそれぞれを順番にテスト用のデータとして使用すること
交差検証
データ全体を3つ以上に分割し、分割したそれぞれを順番にテスト用のデータとして使用すること
混同行列
学習結果から、作成される真陽性・真陰性・偽陽性・偽陰性のマトリックス。正解率や適合率、検出率、F値がわかる
適合率
正と予測したデータのうち、実際に正であるものの割合
正解率
正や負と予測したデータのうち、正しく予測できたものの割合
再現率
実際に正であるもののうち、正であると予測されたものの割合
特異性
実際に負であるもののうち、負であると予測されたものの割合
F値
適合率と再現率の調和平均
アノテーション
収集したデータに対して意味(タグ)付けすること
明日も更新しますので、よろしくお願いします。
今日は読んでいただきありがとうございました。