見出し画像

【AI人材必読】Papers With Codeをブックマークすべき4つの理由

For every minute spent in organizing, an hour is earned. 
                                                                                   -Benjamin Franklin-
物事の整理に費やす1分は、1時間の価値に匹敵する。
                                                                  -ベンジャミン・フランクリン-

AIの急速な発展による論文の増加

AIの研究開発が止まらない。2012年に端を発するとされる第3次AIブームは後世の歴史の教科書に名を残すほどの勢いをもって、世の中を席巻し、現在もそれは続いている。過去にも2回のブームがあったわけだが、これらの時期の発展はアカデミアを中心としたものであり、持続的なビジネス(=産業)と結びついていなかった。だが、今は違う。ディープラーニングに基づく技術が実世界に実装され、大きな価値を生みだしている。大学や研究機関だけではなく、企業がこぞってAI研究に莫大な投資をしている状況は、さながら19世紀のゴールドラッシュのようだ。

このAIのゴールドラッシュともいうべき現象は、AIの研究開発を急速に発展させた一方で、かつてないほどの競争も引き起こしている。実際、毎日数え切れないほどの論文がネット上に公開されており、研究の進歩のスピードが速すぎるせいで、1年前の研究は遠い昔の出来事のようにすら感じる。こうした状況が一個人としてのAI研究者やエンジニアにとって本当に喜ばしいことかどうかは各自の判断に委ねるところではあるが、我々がまずしなければいけないことは明らかだ。
そう、情報を整理しなければならない。

研究のキャッチアップはますます困難に

研究には段階がある。一般的に研究というと、アイデアを思い付いたら、すぐに実験室に駆け込んで仮説を検証するみたいな印象を持たれがちだが、実際には多くの時間を先行研究の調査(Survey、サーベイ)にあてる。なぜなら、研究とはまだ誰にも実証されていない仮説を見つけるプロセスのことだからだ(もしあなたがある仮説を裏付ける実験データを取得し、論文を書いたとしても、世界の誰かが同じことを先に検証済みであれば、その論文は実質無価値となる)。しかしながら、先に述べたように、論文が量産される今日においてこのサーベイは容易ではない。自分の研究テーマに関する関連研究を洗い出す作業自体に非常に手間がかかるのである。そして、これは新たな技術を開発する現場に身を置くエンジニアにも言えることなのではないか。

画像1

Papers With CodeはAI人材にとってのマストアイテムになる(サイトの見方から解説)

さて、ようやくこの記事の本題であるAI人材必見のツールを紹介しよう。タイトルにもあるPapers With Code」とは機械学習に関する最先端の重要論文を集めたキュレーションサイトである。なぜ、このサイトを紹介するかというと、Papers With Codeを使うことで、先に述べた論文の調査にかかる負担を圧倒的に減らすことができるからである。筆者自身このサイトには非常にお世話になっている。Papers With Codeができる前は、多くの人が直接arXiv(学会などで発表される前の論文が投稿されるプレプリントサーバー)を訪れていたりしたと思うのだが、効率性の観点からこのサイトを使わない手はないだろう。では、実際に中身を解説していく。

トップページを開くと、まず目に飛び込んでくるのは、カード形式で表示された論文の数々である。どうやら、最初に表示されているのはトレンドとなっている研究のリストらしい(下図のバナーBではTrendingが選択されている)。投稿時期が最新のものが見たければバナーB内のLatestを、Githubでのスター数が多いものから順に見たければGreatestを選択すればいい。

スクリーンショット 2020-10-07 22.00.46

図1 Papers With Codeのトップページ

残りの記事では、使い方も含めPapers With Codeを使うメリットを主に4つあげて説明していく。

メリットその1:分野&研究テーマごとにかなり細かく分類がされている点

Papers With Codeの最も素晴らしい点はテーマやタスクごとの論文の整理がしっかりと行われていることである。例えば、バナーAのBrowse State-of-the-Art(最先端の研究を見る)をクリックしてみよう。

スクリーンショット 2020-10-07 22.16.16

図2 トピックごとのState-of-the-artがまとめられている

ご覧のように、Computer VisionやNatural Language Processingといった比較的大まかな分野から、Semantic SegmentationやSentiment Analysisというより細かい研究トピックまで、しっかりと項目が整理されていることがわかる。仮にあなたが今取り組んでいる卒業研究のテーマが「若者のツイートにおける感情分析」とかだったとしよう("若者の"という点が肝だ)。あなたは関連研究を調べるために象徴的な笑顔のアイコンが付いたSentiment Analysisをクリックする。

スクリーンショット 2020-10-07 22.24.51

図3 ベンチマークごとのリーダーボード

そうすると、ベンチマークごとに最高性能を出しているモデルの一覧(リーダーボード)を見ることができる(素晴らしい!)。ただ、ここで浮かれるのはまだはやい。あなたの研究に関係する研究は一体どれだろうか?そう思いつつ下にスクロールをしてみると...

スクリーンショット 2020-10-07 22.25.03

図4 Subtaskごとのまとめ

おや、この青い鳥には見覚えが...(ツイッター感情分析のまとめだ!!)

とまあ、こんなドラマチックな展開であったらいいと思うんだけど、とにかくこういう整理整頓がなされていることには毎回感謝を念を禁じ得ないのである。また、ここでは説明はしないものの、タスクに関係なく共通する手法(正則化など)もMethodsとしてまとめられているので、気になった人はチェックしてみて欲しい。

メリットその2:情報の更新が速い

さて、Papers With Codeではきめ細かい分類がされていることがわかったと思うが、さらにすごいのはそれをほぼリアルタイムで実現させていることである。試しに先ほど説明したバナーB内のlatestをクリックして、適当に選んだ論文の投稿日を見てみると、2020年10月5日になっていた(この記事を書いているのは10月7日なので投稿されたのは2日前ということになる)。Papers With Codeの運営の仕事の速さにはいつも驚かされる。

メリットその3:Githubのリンクから実装コードがすぐに見れる

さらに、ツイッター感情分析の論文を読み終わったあなたは、その中から研究に使えそうなモデルを手元で実装したいと思うはずだ。その場合は、緑色の論文PDFリンクボタンではなく、青色のGithubマークから実装コードのレポジトリへ行ってみよう。これで今後は、論文の左下にある注釈にわざわざカーソルを合わせてGithubへ飛ぶ手間は省けるわけだ(論文の中には実装コードへのURLをわざわざ記載していないものもある)。

スクリーンショット 2020-10-07 22.53.03

図5 青いGithubボタンを押すと、実装コードのレポジトへ飛ぶことができる

メリットその4:UIがシンプルかつ使いやすい

最後にシンプルで美しいUIのことも忘れずに触れておく。論文のリストをざっと見渡す時に、印象的なVisual(図表)があると目に止まりやすいし、分野をまとめたサムネイルも特徴を捉えているものがあり、面白い。ベンチデータセットマークにおけるここ数年のスコアの折れ線表示機能グラフなんかも非常に有益である。検索バーはあまり使わないのだけれども、キーワードを入れた時には結構ちゃんと欲しい論文が見つかったりもする。これで、サーベイも少しはストレスフリーになるはずである。

スクリーンショット 2020-10-08 15.30.59

図 6 ベンチマークごとのスコアの変遷を可視化したもの

まとめ

この記事をまとめるとこんな感じ

・近年、急速なAIの研究開発により論文が大量に投稿されている。
・こうした中、必要な情報を得ることはますます困難になっている。
・Papers With Codesはそんな現状で欠かせないツールの一つ
・Papers With Codesの4つのメリット

ぜひ、参考にしてみてください!

この記事が気に入ったらサポートをしてみませんか?