
LLM をリサーチする際に使っているサイトやツール
最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。
リサーチは探す / 読む / まとめるの 3 フェーズに分かれると考えており、LLM 研究(や論文)のリサーチをする際、それぞれのフェーズでどのような工夫を行っているかまとめた。
余談だが「リサーチ」全般の地肩を作った書籍とサイトがあるので先に紹介しておく。この 2 つを読むと調査力が格段に上がる(と思う)。
探す
探す心構え
大前提として、研究(論文)探しの基礎的な心構えを身に着けるには岡先生の note がオススメ。
メインツール
論文探しのツールは Semantic Scholar をメインで利用している。AI を活用した学術文献検索サービスで、要約や関連文献がズラッと見れて便利。更に Web API も充実しておりカスタマブルなのもポイント。
また、当然だが Web ブラウジングもメインツールである。Web 検索する際に気を付けていることは:
① なるべくシステマティックに検索キーワードを考える
キーワードは考え出すと無限に時間が溶けるので「概念のレイヤーを変える」「キーワードの組み合わせを変える(AND / OR / NOT…)」等の検索テクニックを駆使
検索テクニックについては慶應大の講義にまとまっている
ref. 検索のTips
② ただのブラウザ検索でなく Speaker Deck にて検索する
スライドは何かの登壇資料や発表資料である場合が多く、書き捨てブログより情報量が多いので概要キャッチアップに最適
最近だと Web Pilot や Bing 等 LLM を駆使して探す方も多いかもしれないが、自分はあまり使っておらず、LLM は読む / まとめるフェーズで利用することが多い。
論文を読むことの真髄は、書いてそうなのに書いていないことを探り当てるところまでなので、この手のサービスは一見いいものの、そういうリテラシーを養う機会を奪う可能性があり、またその指導を受けられる人と受けられない人の格差を生むのかなと思います。https://t.co/bA5fhW8fnZ
— Shin'ichiro Matsuo (@ShaneMatsuo) February 8, 2023
日々の情報源
リサーチする上で、日々トレンド等をキャッチアップしておくのは重要。日々の論文は ML-Papers-of-the-Week や:
Papers with Code のトレンドページを流し見することが多い。
その他 AI 全般の情報源は松尾研の方がまとめているので、自身に有効そうな情報源を日々の巡回先に加えると良い。
LLM とは少し違うが、画像生成 AI 系の情報ソースは下記に詳しい。
日々の情報源(SNS)
SNS も日々の情報源として有用で、AI 界隈でフォローすべき面々の圧倒的まとめがある。
ベースは上記リンク先で網羅できるので、後は各人が興味ある分野のアカウントをフォローしていくことになる。
情報をブロードキャストしてくれるアカウントも良いが、自分の意見やポジションを持って発信してくれる方は極めて貴重。
読む
読む心構え
論文の読み方については先人が書いたステキな記事がたくさんあるので一度目を通すと良い。論文を読むという行為の解像度が上がる。
論文を読む際、特に壁になるのは個人的に 2 点で、語学と理解の壁である。
語学の壁を超える
英語力全く高くないので、できるだけ機械翻訳(Google 翻訳や DeepL)に頼っている。例えば arXiv であれば下記 2 つの方法で html 化でき、ブラウザから直接 Google 翻訳にかけられる。
① URL の「arxiv」の x を 5 に変えると html 変換される
修正後 URL:https://ar5iv.org/abs/2304.03442
html になってる!
② arXiv Vanity に arXiv の html 版が格納されている
その他、最近知ったのだが Google 翻訳では PDF を直接投げ込むこともできるらしい。DeepL 課金してない方は使ってみると良いかもしれない。
理解の壁を超える
ChatGPT 等の AI に、とにかくなんでもかんでも質問しまくっている。
ChatGPT 以外にも論文読解に役立つ AI ツールは星の数ほどある。
・Bing
・https://www.chatpdf.com/
・https://www.humata.ai/
・https://typeset.io/
・https://www.explainpaper.com/
・https://app.wordtune.com/editor/
・https://scite.ai/
合わせて、SNS や Discord が併記された研究の場合、直接著者に質問するのがスピーディなので試してみると良い。
特に ペーパー名をTwitter にて調べると著者が補足説明を行っているケースも多く参考になる。
まとめる
まとめのフォーマット
有名どころだと落合先生の論文まとめフォーマットがあり、どんな項目をまとめるか参考になる。

まとめるツール
自分は情報のレベル感に合わせて複数のツールを使い分けている。
生のライブ感あるメモ
Apple 純正のメモ帳、Scrapbox、Slack canvas
構造化したメモ
Notion
アウトプット
Notion、ブログ、実際に実装してみる(GitHub)…
個人的には生のライブ感あるメモが非常に重要で、エントロピーは高いが取捨選択しない分、自身の調査ログとして 1.5 次情報に繋がる資産になる。
情報には三種類あり、一次情報、一次情報を自分が解釈した1.5次情報、他人が解釈した二次情報がある。この中でも特に1.5次情報が大事で一次情報だけではわからない解釈を作り、どの二次情報が質が高いかの判断軸を作るものになる。
— 福島良典 | LayerX (@fukkyy) June 7, 2021
追加メモ
先行研究や後続研究を調べるときは @RsrchRabbit がとても便利。使い方に慣れるまで少し時間がかかるけど、一旦慣れれば論文間の関連性を直感的に見つけることができるので関連論文をまとめる作業がだいぶ捗る↓。あと、まとめた論文(コレクション)は他の人とシェアすることもできる✨。 https://t.co/ocZpOTdVEu pic.twitter.com/9a7QEwrikq
— sangmin.eth @ChoimiraiSchool (@gijigae) October 22, 2023
読むべき本の順番といえば、 世界中の大学のシラバスを集めて分析してある「Open Syllabus」がある。集めたシラバスは720万以上😮。教科書のランキングをみたり、関連性を調べる時も超便利。錚々たる教科書の中で、1位に輝いたのはおなじみの、The Elements of Style(👉https://t.co/6HBIXf53FN)📚。 https://t.co/izxiJ1xsHD pic.twitter.com/eKsqgha8CB
— sangmin.eth @ChoimiraiSchool (@gijigae) October 21, 2023
分かりみです🤤🤤🤤
— バーチャルデータサイエンティスト アイシア=ソリッド (@AIcia_Solid) November 1, 2023
論文の概要掴む速度が100倍くらいになって、
読む量が∞倍になりました🤤🤤🤤🤤🤤
(普段そんな読んでなかったけど、今は日常読みしてます) https://t.co/nkTIUbBA84
Paper Interpreter メチャクチャ助かってます。
「最も訪問されたGPTs」で、Paper Interpreter (Japanese)がなんと世界6位になったようです!!🎉
— Daichi Konno / 紺野 大地 (@_daichikonno) November 18, 2023
使っていただいた多くの皆さんのおかげです!
より使いやすくなるよう改良を重ねているので、ぜひこれからも使い続けていただけると嬉しいです😊 https://t.co/czMDJ0nsW3 pic.twitter.com/SgP2KwoZAy