アルティメットカンペ_機械学習の種類
G検定対策の記事です。以下内容をA41枚にまとめてプリントアウトすると試験中の検索性が向上します。私が利用したものはこちらからダウンロードできます。
SVM(サポートベクトルマシン)
【学習形態】 教師あり学習
【用途】 分類問題
【概要】
・マージンの最大化がコンセプト
・2つの線形分離する2クラスを分類するアルゴリズムとして開発
・スラック変数でどの程度マージンを許容するか調整する
・カーネルトリックは、カーネル法の計算量を大幅に削減
・カーネル法は、境界を非線形にする
決定木
【学習形態】 教師あり学習
【用途】 分類問題、回帰問題
【概要】
・下記アルゴリズムで実現
条件分岐の繰り返し、情報利得の最大化、不純度の現象の最大化
・ハイパーパラメータ
深さ、各ノードのデータ数
【メリット、デメリット】
○ データスケールを事前に揃える必要なし
○ 分析結果の説明が容易
× 過学習しやすい
ランダムフォレスト
【学習形態】 教師あり学習
【用途】 分類問題、回帰問題
【概要】
・下記アルゴリズムで実現
決定技、バギング
・特徴量をランダムサンプリングして、サンプルを重複ありサンプルしてデータセットに多様性をもたせる
【メリット、デメリット】
○ 決定木に比べ過学習を起こしにくい
× 中身がブラックボックス
ロジスティック回帰
【学習形態】 教師あり学習
【用途】 分類問題
【概要】
・対数オッズを重回帰分析で予想する
・対数オッズをロジスティック関数で変換して、クラスIに属する確率出す
【メリット、デメリット】
○ 特徴量や重みから結果の貢献度がわかる
× 外れ値に弱い
K近傍法
【学習形態】 教師あり学習
【用途】 分類問題
【概要】
入力データに近い方からk個の学習データを取得し、多数の物をとって分類結果とする
【メリット、デメリット】
○ 柔軟にモデルを作れる
× データが少ないと効果発揮できない
主成分分析
【学習形態】 教師なし学習
【用途】 次元削減
【概要】
多次元のデータに対して正味に効果のあるより少ない成分を抽出する手法
【メリット、デメリット】
×変数間に相関のないデータには有効ではない
K -mean法
【学習形態】 教師なし学習
【用途】 次元削減
【概要】
データ転の所属するクラスタを各データからクラスタ重心への距離が最も近いものから選択する
【メリット、デメリット】
○手法が理解しやすく大規模データにも適用可能