見出し画像

G検定対策 その6

こんにちは。
初めて1週間連続投稿します。
よかったら、読んでください。

スクリーンショット 2021-03-09 23.54.48

今日は、機械学習のワークフローについてです。
・キーワード
Webスクレイピング:
Webからデータを抽出して、分析可能なデータ構造に変換する技術

オープンデータ:
国や地方公共団体、事業者などが後悔しているデータ。誰でも使用できる

データクレンジング:
欠損・重複・表記の揺れなどみ対処して、データの品質を高める行為

外れ値:
得られた観測値の中で他から大きく外れた値

Label Encoding
主に順位のあるカテゴリカル変数に数値を割り当てる手法

One-Hot Encoding
主に順位のないカテゴリカル変数と0と1で表現できるように、特徴量を置き換える手法

正規化:
データをスケーリングすること

  L1正則化:
一部の特徴量の重みを0にすることで、不要なデータを削除する(次元削減)
Lasso回帰

L2正則化
特徴量の大きさに応じて、0に近づけて、滑らかなモデルを得る
リッジ回帰

アンダーフィッティング
正則化を行いすぎて、全体の汎用性が低下したこと

標準化
平均を0、分散を1に変換すること

次元削減
データを失わないように低次元に圧縮すること

  t-SNE法
データの「近さ」などの関係を維持しながら義源を圧縮する手法。データの可視化の際に有効である

主成分分析
データの特徴量の相関などからデータを要約する手法

特徴量エンジニアリング
モデルが認識しやすい特徴量をデータから作成すること

オーバーサンプリング
不均衡データに対して、多い方のデータ数に少ないデータ数を合わせて水増しする技法

SMOTE(Synthetic Minority Oversampling TEchnique)
K近傍法を利用したオーバーサンプリングの手法

過学習
訓練データに適合しすぎることで、未知のデータへの汎用性がない状態のこと

ホールドアウト法
データを学習用とテスト用に分割することで、モデルの精度を側対する手法

交差検証
データ全体を3つ以上に分割し、分割したそれぞれを順番にテスト用のデータとして使用すること

交差検証
データ全体を3つ以上に分割し、分割したそれぞれを順番にテスト用のデータとして使用すること

混同行列
学習結果から、作成される真陽性・真陰性・偽陽性・偽陰性のマトリックス。正解率や適合率、検出率、F値がわかる
適合率
正と予測したデータのうち、実際に正であるものの割合
正解率
正や負と予測したデータのうち、正しく予測できたものの割合
再現率
実際に正であるもののうち、正であると予測されたものの割合
特異性
実際に負であるもののうち、負であると予測されたものの割合
F値
適合率と再現率の調和平均

アノテーション
収集したデータに対して意味(タグ)付けすること

明日も更新しますので、よろしくお願いします。
今日は読んでいただきありがとうございました。

いいなと思ったら応援しよう!

この記事が参加している募集