note_表紙

Search&Discoveryなデータセット

こんにちは、IT企業でデータ活用プロダクトの開発に従事しているrilmayerです。この記事はアドベントカレンダー「Search&Discovery 全部俺」7日目の記事となります。

さて今回はSearch&Discoveryなデータセットについての記事です。
ここで言うデータセットは文字通り何らかのデータをセットにしたもののことで、目的は主に「何らかの手法を試す際に検証を行う」こと、「データを活用して既存のSearch&Discoveryシステムを改善する」ことの2つに分けられるかと思います。
と言うことで、以下ではこの2つに観点でデータセットを紹介していこうと思います。
多くのデータセットは何らの利用条件がのもと検索や推薦の新しい手法を試すのに利用することができます。

手法の検証に使えるデータセット

評価についてはこの後の記事で説明しようと思っていますが、情報検索や推薦の分野では「どのようなクエリ」で「どのアイテム」を見て「ユーザーがどう評価したか」がセットになっているデータセットを良く用います。

画像1

こうしたデータセットは研究機関や企業により公開されています。』例えば以下のようなデータセットがあります。

クランフィールドデータセット
情報検索のはじまりとして以前紹介した実験ですが、実はこちらで実際のデータを確認することができます。
きちんと扱おうと思うとなかなか骨の折れるデータ形式ですが、処理用のプログラムを作成して実際に自分で評価を行えるようにするのも良いかもしれません。

Text REtrieval Conference (TREC)
こちらはデータセットではありませんが、情報検索で非常に有名なワークショップです。このワークショップにより様々なデータセットが公開されました。過去に扱われたデータセットはこちらで確認できます。 (「data」のリンクから)

MovieLens
ミネソタ大学のGroupLens Researchプロジェクトで作成された映画のレビューためのデータセットです。現在推薦システムの評価でデファクトスタンダードになっています。

その他
以下のようなリンクにまとめてくださっている方がたくさんいます。

また上記のようなデータセット以外にも、非公開ではありますが企業の中で独自に評価が行われて作成されているデータセットも存在しています。
検索や推薦に力を入れている会社に入社するとそういった独自のデータセットを目にすることもあるかもしれません。

Search&Discoveryを強化するデータセット

世の中にあるデータを用いて、ユーザーに対してより良いアイテムを返すことなどができます。例えば、wikipediaのデータを用いたり特定領域で公開されているデータを活用してより良いシステムを作ることができます。

例えば、駅のデータセットなどを用いれば場所に関するSearch&Discoveryをより進めることができますし、モノの関係を整備したデータセットを用いれば様々なSearch&Discoveryを補助することができます。

以下のようにデータセットをまとめてくれているサイトもあります。

おわりに

今日はデータセットについて紹介しましたが、この後はこれらをどのように用いるかをお話していきたいと思います。

参考資料

栗山 和子, 情報検索システムの評価 : テストコレクションを中心に. 情報の科学と技術, 2007, 57 巻, 8 号, p. 378-383
岸田和明. 情報検索における評価方法の変遷とその課題. 情報管理, 2011, 54.8, p.439-448.


いいなと思ったら応援しよう!