見出し画像

確率分布モデルに基づく自己組織化学習を用いたクラスタ数探索法の研究

2023年度研究会推薦博士論文速報
[知能システム研究会(ICS)]

茂木 亮祐
((株)JDSC/電気通信大学 客員研究員)

■キーワード
探索的データ分析/クラスタリング/クラスタ数決定

【背景】クラスタリングにおいてクラスタ数決定は大きな課題の1つである
【問題】既存の探索法は対象が限定的である,または,計算コストが高い
【貢献】離散/連続分布に対して適用可能であり,計算効率的な探索法を提案した

 似ているモノと似ていないモノ,モノの類似性によってグループに分けてまとめることは私たちが普段の生活の中で自然と行っている営みです.あの人の性格はこの人と似ている,だから彼らは同じグループだ.あの小説家の作風はこの作家と似ても似つかない,だから彼らは異なるグループだ,などなど私たちは自然と物事をグループに分けています.そのように頭の中でグループを形成しておくことで,私たちは物事を効率的に認識・理解できると言われています.物事をグループに分けてまとめることは,物事を理解するための基本的な方法と言えるでしょう.これはデータサイエンスの世界でも同じことが言えます.

 クラスタリング(Clustering)とは,同じクラスタ内に類似性のある事例が集まるように,異なるクラスタ間では非類似な事例が分かれるように,事例間の距離・類似度に基づいてクラスタを形成することを言います.事例は数値のベクトルとして表現されるので,距離・類似度は定義さえ与えれば計算ができます.しかし,クラスタリングを実施するには1つ大きな問題があります.それは,「クラスタ数をいくつにすれば良いか?」ということです.与えられたデータセットには自然なグループがあると期待してクラスタリングを行う訳で,そのグループと得られたクラスタが整合的かを分析者が評価する必要があります.しかし,ほとんどの場合,自然なグループの数は未知です.したがって,クラスタリングを実施する分析者はクラスタ数を一応は設定してみるのですが,それが適切だったのか評価ができないので困ってしまうのです.クラスタリングは正解となるグループが未知であるがゆえの困難さがあり,その意味で“教師なし学習”に分類されます.そのため評価を行うには何かしら基準を設ける必要があります.

 モデルに基づくクラスタリング(Model-based clustering)では,与えられたデータセットは複数の異なる確率分布が混ぜ合わさったモデルに従うと仮定します.この仮定の下では,ある1つの確率分布からのサンプルたちが1つのグループを形成するのだ,と考えることができます.このように考えれば,得られたクラスタの良さは“尤度”という尺度で評価できます.これは,推定したモデルから所与のデータセットが得られる尤もらしさの度合いです.もちろん,モデルとして何個の確率分布が混ぜ合わさったものが適切なのかを決めなければなりません.統計学には複数のモデル候補から適当なものを1つ選ぶ方法を研究する“モデル選択”という分野があります.ここにおいて,「クラスタ数はいくつにすべきか?」という問題は統計学のモデル選択の問題と見なせます.

 しかし,伝統的なモデル選択では,候補となる個々のモデルのパラメータを尤度が極大値となるまできっちり推定しようとするため,解が得られるまで計算時間が掛かる場合があります.もちろん,きっちり推定することが望ましい場面もあります.ただ,クラスタリングは探索的データ分析として試行錯誤的に実施することが多く,実務的な要求としては,厳密にモデルのパラメータを推定するよりは,手元のデータセットにどのようなグループがあるかをクイックに把握したいことがあります.確率分布もいろいろな種類があるので,試したい仮説の数は多いのです.

 上記の問題意識のもと次のような考え方を本論文は提案しています.すなわち,見込みのありそうな仮説を見つける段階では,推定精度はある程度犠牲にして計算速度を重視する.仮説が絞れた後は,推定値の精度は既存のより厳密な推定法で改善すれば良いだろう.本論文では上記の考え方に基づいてクラスタ数探索法を開発し,どのような場面で提案法が有効かを示しました.

(2024年6月1日受付)
(2024年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月:2024年3月
 学位種別:博士(理工学)
 大学:群馬大学

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[メディア知能情報領域]知能システム研究会(ICS)
本論文は自己組織化マップを基礎とした自己組織化学習を用いて適切なクラスタ数を探索するための貪欲アルゴリズムを提案している.与えられたデータセットに対して適切なクラスタ数を決定する問題はクラスタリングにおける基本的な課題の1つであり,提案手法は1つの有用な解法として今後の活用が期待できる.

研究生活 会社勤めを数年した後に会社を辞めてまで博士課程に進んだためか,よく「どうして博士課程に行こうと思ったのか?」と聞かれます.この質問は毎度答えに困るのですが,結局のところ相手は「悩まなかったのか」が聞きたいようです.なので,私は「悩まなかった」と答えます.小耳にはさんだ心理学の用語に“コアパーソナルプロジェクト”なるものがあるそうです.人にはそれぞれ情熱を注げるテーマがあり,これに取り組むためには自分を変えることも厭わないテーマだそうです.それが私の場合はたまたまクラスタリングの研究だったのでしょう.いまはもう一個くらいはそうしたテーマを見つけたいと思っているところです.