機械学習勉強日記#5

2024年9月9日 19:13

今回は以前学習した機械学習の知識をさらに拡充した、特徴量の内容について解説をしていきます。
これから解説していく内容を理解することで、機械学習によるモデルの最適化をより精度のよいものにする仕組みについて学ぶことができます。それでは行きましょう！

特徴量とは何か

特徴量とは機械学習における入力値→モデル→出力の入力値に位置する入力データ（データ情報）のことです。
モデルが出力するアウトプットに影響を与えるデータといえます。

コーヒーの機械学習を例とした場合では

豆、水、火　→　モデル　→　コーヒー
　　↑
入力データ★特徴量

以下追加情報　↓　
名称：従属変数ともいう⇔目的（アウトプット）
説明：従属変数はモデルからの目的（アウトプット）に従って構成されているため従属変数と呼ばれている。

特徴量はどんなデータ？

特徴量が入力データということが分かったがではどんなデータが特徴量として扱われるのかという疑問が浮かびます。
結論どんなデータでも特徴量になります（年齢、職業、性別）
そしてこれらすべてのデータを数値データへ変換する必要があります。
特徴量としてモデルに変化を与えることのできる素材に変化するということです。
またフューチャーとも呼ばれることもあり、最終的な目的に達するためのあらゆるデータとして扱われているということ覚えておきましょう。

最適な特徴量を選定する特徴量エンジニアリング

特徴量は多ければよいというわけではありません。
そのためモデルのパフォーマンスを最大化するためデータの特徴量
を選択、変換するプロセスが必要になります。

以下がエンジニアリングで求められることです。

１.できるだけシンプルなモデルで制度の高い予想ができること。
　　↓
　少ない特徴量で精度の高い予測をする
２.汎用性を高くする
以下の図で汎用性について解説します。

特徴量の数が100あって大変、80個に減らしたりしても汎用性は低い。

特徴量をできる限り抑え、モデルの最適化を図る

それでは実際に不動産のデータをもとに特徴量エンジニアリングの方法を見ていきましょう。
（以下の赤線が今回の特徴量となっています。）

１特徴量の選択：不要な特徴量を消去することで過学習を防ぐことが目的。いらないものは消去する（精度に影響のないものを選択）
選択項目：分譲業者→副次的な要素という観点から消去

２特徴量の変換：正規と標準化、特徴量のスケールを変更する
スケールの変更：価格3000万に対して駅距離5分と何倍もの数値の差があるためスケールを変更することで精度に影響がある。

３変数変換：ログ変数や、逆数変換など、特徴量の分布を変更する。
例えば：10億などの数値を扱っている→数値が大きいためデータが外側へ広がりばらばらになってします。
ログ変換をすることで比較的そろった状態に変換される。
これも精度に影響を与えている。

４カテゴリカルデータの処理：文字列やカテゴリカルなデータを数値に変換する。
例）：Ａ社→１　
　　　Ｂ社→２
　　　Ｃ社→３

５欠損値の処理：欠損値の消去、平均値や中央値での保管などを行う。
例）：今回は表の項目設備の質（今は下となっている）がわからない場合1つ1つ項目ごとに個別に対応をしていく。

今回は上、並、下のデータがあるため、並（中央値）で補う
また欠損値が少しの場合は消去することもある。

５特徴量の次元の削減：高次元のデータセットをより扱いやすい低次元の形式に変換する（2つのデータを一つにまとめる）
例):駐車場と設備の質をおない項目として1つにする場合→周辺施設という項目を作り出して8～10という点数をつけてまとめる。

ということで、

これらが特徴量についての解説になります。
データをはこれらの処理段階を経て必要な情報のみ入力され
汎用性があり、高精度なアウトプットのするモデルが作られていることがわかりました。
今後もAIについての新たな知識をお伝えしていくので楽しみにしていてください！