変数の縮約と教師なし学習と

いろんなページに散らばった情報を集約するページとして。

主成分回帰(PCR)と部分的最小2乗回帰(PLS)

説明変数が大量にあるときに、そのままだと多重共線性(変数間での相関が強いと適切にモデルを構築できないこと)が起きる。説明変数を選定するのも方法だけど、情報量が落ちてしまう。
多少のわかりづらさを許容すれば、説明変数を縮約した新たな特徴量を使うのもあり、というかむしろ有用。変数の縮約から回帰分析までシームレスに進める手法がPCRとPLS

変数の縮約

機械学習的な手法では、シームレスな手法は無く、それらの手前で変数を縮約する(まとめる)。そのための方法には主成分分析や因子分析がある。もちろん他の文脈でも使うのだけど、このページでの整理としてということでご勘弁を。

経験の浅い方々が主成分分析と因子分析の考え方を混同して、分析のコンセプトとして違うことをしてしまうのは注意した方が良いとは思う。けど、そこを気にし過ぎるよりは、どんどん使って使いこなす方が先かな。
なお主成分分析に関するより詳細な説明は以下を

他にもt-SNEとかUMAP、自己組織化マップ、多次元尺度法とかいろいろあるのだけど詳しくは別の機会に

クラスタリング

テーブルデータは横方向に変数が、縦方向にレコードが並んでいる。この横方向、変数をまとめるのが上記の縮約だった。
縦方向、同じようなデータをまとめる「クラスタリング」も教師なし学習としてはある。データが少ない時に正確にクラスタリングする手法には階層的クラスタリングなどがある。データ量が多い時に近似的にクラスタリングする手法にはk-means法などがある。

k-プロトタイプ法という手法も最近あるらしい、詳細はGitHub - nicodv/kmodes: Python implementations of the k-modes and k-prototypes clustering algorithms, for clustering categorical data、ザックリとは以下で。

教師なし学習の基礎と呼ぶにはスコープが狭かったり偏ったりする資料が多くてどうかと思うけど、フラットに紹介する資料は別にまとめることにして、このページは表題のトピックまとめということで。。。

他の情報を見たい方は、目次ページへ
仕切り直しで収集情報の整理から|くすぐったがり|note

いいなと思ったら応援しよう!