LLM をリサーチする際に使っているサイトやツール
最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。
リサーチは探す / 読む / まとめるの 3 フェーズに分かれると考えており、LLM 研究(や論文)のリサーチをする際、それぞれのフェーズでどのような工夫を行っているかまとめた。
余談だが「リサーチ」全般の地肩を作った書籍とサイトがあるので先に紹介しておく。この 2 つを読むと調査力が格段に上がる(と思う)。
探す
探す心構え
大前提として、研究(論文)探しの基礎的な心構えを身に着けるには岡先生の note がオススメ。
メインツール
論文探しのツールは Semantic Scholar をメインで利用している。AI を活用した学術文献検索サービスで、要約や関連文献がズラッと見れて便利。更に Web API も充実しておりカスタマブルなのもポイント。
また、当然だが Web ブラウジングもメインツールである。Web 検索する際に気を付けていることは:
① なるべくシステマティックに検索キーワードを考える
キーワードは考え出すと無限に時間が溶けるので「概念のレイヤーを変える」「キーワードの組み合わせを変える(AND / OR / NOT…)」等の検索テクニックを駆使
検索テクニックについては慶應大の講義にまとまっている
ref. 検索のTips
② ただのブラウザ検索でなく Speaker Deck にて検索する
スライドは何かの登壇資料や発表資料である場合が多く、書き捨てブログより情報量が多いので概要キャッチアップに最適
最近だと Web Pilot や Bing 等 LLM を駆使して探す方も多いかもしれないが、自分はあまり使っておらず、LLM は読む / まとめるフェーズで利用することが多い。
日々の情報源
リサーチする上で、日々トレンド等をキャッチアップしておくのは重要。日々の論文は ML-Papers-of-the-Week や:
Papers with Code のトレンドページを流し見することが多い。
その他 AI 全般の情報源は松尾研の方がまとめているので、自身に有効そうな情報源を日々の巡回先に加えると良い。
LLM とは少し違うが、画像生成 AI 系の情報ソースは下記に詳しい。
日々の情報源(SNS)
SNS も日々の情報源として有用で、AI 界隈でフォローすべき面々の圧倒的まとめがある。
ベースは上記リンク先で網羅できるので、後は各人が興味ある分野のアカウントをフォローしていくことになる。
情報をブロードキャストしてくれるアカウントも良いが、自分の意見やポジションを持って発信してくれる方は極めて貴重。
読む
読む心構え
論文の読み方については先人が書いたステキな記事がたくさんあるので一度目を通すと良い。論文を読むという行為の解像度が上がる。
論文を読む際、特に壁になるのは個人的に 2 点で、語学と理解の壁である。
語学の壁を超える
英語力全く高くないので、できるだけ機械翻訳(Google 翻訳や DeepL)に頼っている。例えば arXiv であれば下記 2 つの方法で html 化でき、ブラウザから直接 Google 翻訳にかけられる。
① URL の「arxiv」の x を 5 に変えると html 変換される
修正後 URL:https://ar5iv.org/abs/2304.03442
html になってる!
② arXiv Vanity に arXiv の html 版が格納されている
その他、最近知ったのだが Google 翻訳では PDF を直接投げ込むこともできるらしい。DeepL 課金してない方は使ってみると良いかもしれない。
理解の壁を超える
ChatGPT 等の AI に、とにかくなんでもかんでも質問しまくっている。
ChatGPT 以外にも論文読解に役立つ AI ツールは星の数ほどある。
合わせて、SNS や Discord が併記された研究の場合、直接著者に質問するのがスピーディなので試してみると良い。
特に ペーパー名をTwitter にて調べると著者が補足説明を行っているケースも多く参考になる。
まとめる
まとめのフォーマット
有名どころだと落合先生の論文まとめフォーマットがあり、どんな項目をまとめるか参考になる。
まとめるツール
自分は情報のレベル感に合わせて複数のツールを使い分けている。
生のライブ感あるメモ
Apple 純正のメモ帳、Scrapbox、Slack canvas
構造化したメモ
Notion
アウトプット
Notion、ブログ、実際に実装してみる(GitHub)…
個人的には生のライブ感あるメモが非常に重要で、エントロピーは高いが取捨選択しない分、自身の調査ログとして 1.5 次情報に繋がる資産になる。
追加メモ
Paper Interpreter メチャクチャ助かってます。