🧠協調フィルタリングとクラスタリングは別物

2023年10月22日 06:30

協調フィルタリングとクラスタリングは、概念としては異なる手法です。

協調フィルタリング：これは推薦システムの一つの手法で、ユーザー間やアイテム間の評価の類似性をもとに、新しいアイテムの推薦を行います。例えば、ユーザーAとユーザーBが同じ映画を高く評価している場合、ユーザーAが評価した（しかしユーザーBがまだ評価していない）他の映画を、ユーザーBに推薦するという考え方です。
クラスタリング：これはデータの集合を、似ているデータ同士をグループ化する手法です。クラスタリングは機械学習の教師なし学習の一部門として位置づけられます。クラスタリングの目的は、似た特性を持つデータポイントを同じクラスタに分類することです。

協調フィルタリングを手軽に実装できるPythonライブラリ

Surprise:
- Surprise (Simple Python RecommendatIon System Engine) は、推薦システムの開発のためのPythonライブラリです。
- 協調フィルタリングのアルゴリズム（ユーザーベース、アイテムベース）や行列分解の手法（SVDなど）をサポートしています。
- インストールは `pip install scikit-surprise` で行えます。
LightFM:
- LightFMは、ハイブリッドの推薦システムを手軽に実装できるライブラリで、協調フィルタリングとコンテンツベースの手法の組み合わせをサポートしています。
- インストールは `pip install lightfm` で行えます。
Implicit:
- Implicitは、主にアイテムベースの協調フィルタリングや行列分解を中心とした推薦アルゴリズムを提供しています。
- インストールは `pip install implicit` で行えます。

各手法で「近い」と判断される基準について

ユークリッド距離:
- ユークリッド距離は直感的な距離の概念に近く、二つの点の「間の直線の距離」として考えることができます。距離が短ければ短いほど、二つの点（またはベクトル）は「近い」と判断されます。
コサイン類似度:
- コサイン類似度は-1から1の値をとります。1に近づくほど似ている（つまり「近い」）、-1に近づくほど異なると判断されます。0の場合、二つのベクトルは無関係であると判断されます。この手法は、ベクトルの大きさよりも方向に重きを置いて類似性を評価します。
ピアソン相関係数:
- ピアソン相関係数も-1から1の値をとります。1は完全に正の相関、-1は完全に負の相関を示します。0は相関がないという意味です。協調フィルタリングの文脈では、正の値（特に1に近い値）は似たような傾向を持つユーザーまたはアイテムを示し、「近い」と判断されます。

これらの手法は、各属性の尺度や分布、推薦システムの目的によって適切に選択する必要があります。例えば、ユーザーの評価パターンが全体的に高いか低いかのバイアスを考慮したい場合は、ピアソン相関係数が適しているかもしれません。一方、単純に属性ベクトルの方向性を考慮したい場合は、コサイン類似度が適しているでしょう。

SQLの拡張やDSL（Domain Specific Language）として協調フィルタリングや他の機械学習手法を実装した例

Apache MADlib:
- PostgreSQLおよびGreenplum Databaseに対するオープンソースの機械学習ライブラリで、SQLの拡張として提供されています。
- MADlibは、分類、回帰、クラスタリングなどの基本的な機械学習手法だけでなく、協調フィルタリングにも対応しています。
BigQuery ML:
- Google CloudのBigQueryは、標準的なSQLクエリの中で機械学習モデルを訓練・予測する機能を持つBigQuery MLを提供しています。
- これにより、SQLの拡張として機械学習の機能を利用することができますが、協調フィルタリング自体は直接サポートされているわけではありません。
Graph Extensions:
- 一部のデータベースシステム（例：Neo4j, TigerGraph）は、グラフデータベースとしての機能を提供するとともに、グラフ上での推薦アルゴリズムや機械学習手法をDSLや拡張として提供しています。

マスターとトランザクションと強調フィルタリング

リレーショナルデータベースのマスターとトランザクションの関係性を用いて、アイテムベースとユーザーベースの協調フィルタリングのコンセプトを考えることは可能です。以下にその関連性を簡略的に示します。

マスターテーブル:
- ユーザーマスタ: ユーザーの基本情報（ユーザーID, 名前, 住所など）を保持。
- アイテムマスタ: アイテムの基本情報（アイテムID, アイテム名, カテゴリなど）を保持。
トランザクションテーブル:
- 評価テーブル: ユーザーがアイテムに与えた評価を記録。ユーザーID, アイテムID, 評価値などのカラムを持つ。

このテーブル構造を基に、協調フィルタリングを考えると:

ユーザーベースの協調フィルタリング:
- あるユーザーと評価傾向が似ている他のユーザーを「評価テーブル」から探し、その他のユーザーが評価したアイテムを推薦する。
アイテムベースの協調フィルタリング:
- あるアイテムと似た評価傾向を持つ他のアイテムを「評価テーブル」から探し、その他のアイテムを推薦する。

いいなと思ったら応援しよう！

お願い致します