
主成分分析との関係性から自己組織化マップを理解しよう
前回は、自己組織化マップ(SOM)の威力は、多次元データを低次元空間(正確には格子空間上)に集約して、レコード間の関係性を可視化できることを説明しました。 同様な多次元データを可視化する方法としては、主成分分析による次元削減が知られているところですが、その違いは何でしょうか?
主成分分析では、「多次元空間上でのデータ分布が、ある2次元平面上に良く分布していること」という強い仮定があり、問題はこの仮定が事前に知りえない点です。
そのような、あらかじめデータ分布の特性が分からない分布一般に適用できるのが、SOMという訳です。
さて、SOM適用のメリットは、データの可視化の他に何が考えられるでしょうか? 例えば、データ処理の観点では、以下が挙げられます:
・ 大規模データの圧縮
大規模データから、母集団を特徴付ける少数の代表レコードを抽出。
・ データクレンジング(データクリーニング)
重複レコードの削除。欠損値の補完。
・ SOMによるクラス分類を組み合わせた高精度予測システムの構築
SOMによって発見されたクラスターごとに、予測モデルを構築。予測工
程では、前処理としてSOMを経由させることで、最適な予測モデルの選
択を行う。
SOMの具体的な問題への豊富な適用例は、日本語の書籍で分かり易いものとして[1]や[2]がSOM研究の第一人者の解説ぞろいで、お勧めです。
[1] 自己組織化マップとその応用
著:徳高平蔵・大北正昭・藤村喜久郎【編】
出版社:シュプリンガー・ジャパン
[2] 自己組織化マップ応用事例集--SOMによる可視化情報処理
著:徳高 平蔵・藤村 喜久郎・ 山川 烈【監修】
出版社:海文堂出版
※弊社では、データ分析プロジェクトにまつわる様々なご相談に、過去20年以上に渡るプロジェクト経験に基づき、ご支援しています。社内セミナーの企画等、お気軽にご相談いただければ幸いです。
製品カタログ