LLM時代のX情報収集術

べいえりあ

2024年5月8日 11:27

こんにちは、IVRyでAIエンジニアをやってるべいえりあです。今回は自分がXでLLMの情報源としてチェックしているアカウントを紹介してみようと思います。

Disclaimer：お前、Xでの情報収集は非推奨って言ってなかったっけ？

自分は以前（2020年）に機械学習の情報収集についてこんな記事を書いています。

この記事内で「X（旧Twitter）経由の情報収集はオススメしない」と書いているのですが、現在はXが主な情報源になっています。これは

当時はbig techをフォローしておけば世の中の流れが大体分かった（気がする）が、最近は程よく分散されてきた（気がする）
LLMブームにより時代の流れが加速したので、ブログやニュースレターでは追いつかなくなってきた
当時よりXで研究関連の発信をする人が増えた（気がする）
当時はコロナ初期でTwitterがマジで荒れていたが、最近は当時よりマシになった（見たいポストをある程度コントロールできるようになった）

などの理由により、Xで情報収集するのが一番楽になったためです。上記の記事を見てくださった方、めんごめんご☺️

前提：Xで情報収集する前に見るべきもの

元OpenAIで今はGoogle DeepMindでResearch ScientistをやっているShane GuさんはXで次のように語っています。

日本の人には是非ChatGPTが出る前の10年の深層学習の歴史を学んで欲しいです。Google Brain, DeepMind, FAIRなども含め(寧ろこれらが主役)。じゃないとこの次の数年何が起こるか予測できず、日本はただ海外のAIニュースに驚く国にしかなれない。

https://twitter.com/shanegJP/status/1786899379921859050

自分もこの考え方に賛同していて、最低限の知識がないとAIニュースの価値が判断できず、海外のインフルエンサーの発信を見て驚くことしかできなくなると思っています。

LLMやAIに関して最低限の知識を身に着けるために、以下の二つのオンライン講義を視聴することを強くオススメします。

AI for Everyoneについては日本語版もあるのと、どちらのコースも日本語字幕付きで見られる（多分機械翻訳での英語字幕からの翻訳だが、翻訳の質は悪くない）ので、英語分からなくてある程度何とかなるんじゃないかと思います。

あと、余力のある人、最新のNLP研究を理解したい人はこちらの本を読むことをオススメします。アルゴリズムの詳細は必ずしも理解しなくても良いですが、どんなタスクがあるのかは理解しておいた方が良いかと思います。

NLPの知識がLLMを応用する上で実際にどう役に立つかですが、例えばで言うとNLP的には対話の中には「タスク指向型対話（task-oriented dialogue）」と「雑談（chit-chat dialogue）」があります。それぞれ対話の中で重要視されるものから評価の仕方まで全然違うのですが、NLPをやらずにLLMをやっている人と話しているとこれらをごっちゃにしているためによく分からないことになっているのをよく見ます。NLPではこれらのタスクの違いが言語化されているので、不要な混乱を避けられるわけです。

英語アカウントのススメ

情報収集の際、自分は基本的には英語アカウントを見るようにしています。これにはいくつか理由があって、

機械学習や深層学習、NLPのトップ専門家が呟いているので信頼性が高い
逆に、日本の専門家はあんまり専門的なことを発信しない
日本語の情報発信アカウント、大体英語アカウントの翻訳じゃない？？？

などです。

英語読むのは最初はキツイとは思うのですが、日本語で情報収集している限りは二次情報しか手に入らない気がしていて、頑張って英語で情報収集する習慣をつけることをオススメしたいです。

おすすめXアカウント

前置きが長くなりましたが、ここからが本題です。自分がチェックしてるアカウントは大きく分けると、

公式系
個人系（論文紹介）
個人系（論文紹介以外）

となるので、順に紹介していこうと思います。

一応注意点として、自分がチェックしているのはXのおすすめタブで、下記の方々以外のポストから学ぶことも結構あるのですが、下記の方々をチェックしておけばXの推薦アルゴリズムがよしなにいい感じの関連ポストを見せてくれます。なので、一旦下記のアカウントをスタート地点として見ていただければいいんじゃないかと思います。

公式系アカウント

こちらは文字通り、大手企業／組織の公式アカウントです。基本的にはこれらの大手企業／組織が出しているサービスや新しいモデルの情報収集が主な目的となります。

OpenAI（@OpenAI）
ご存知、ChatGPTを生み出した会社。ChatGPTに関するアップデートなどが中心。開発者向けアカウント（@OpenAIDevs）もある。
Twitterアカウントをフォローする以外にも、公式にプロンプトエンジニアリングのベストプラクティス集を公開しているので、こちらもLLMを使う人は読んでおくべき。

Google AI（@GoogleAI）
LLMの基礎技術（Transformerその他）は大体Googleから生まれている。
LLMや生成AIに限らず、AIに関する研究は大体何でもやっている。
こちらのアカウントで紹介されているブログ記事が背景まで含めて非常に詳細に書かれているので、ブログ記事を読んでいるとAIに関する様々なトピックについて詳しくなれる。

DeepMind（@GoogleDeepMind）
ChatGPTが出てくるまでは「世界最強のAI集団」と見られていた組織で、古くは囲碁の世界チャンピオンに勝ったAlphaGoから、LLMでもFlamingoなどのマルチモーダルモデルの走りになるようなモデルを発表していた。最近、GoogleのAI部門であったGoogle Brainチームとされ統合てGoogle DeepMindになった。
その後、タンパク質の構造予測などLLM以外のことに注力していたのでLLMでは少し遅れたと言われていたが、GeminiでLLMでも世界の中心に戻ってきた。

Meta AI（@metaai）
OpenAI、Google DeepMindと並んで、AI業界の三大巨頭。自分は出来て1年くらいの時にこちらでインターンをしていたのだけれども、最初期から「AGIの実現」と「研究成果のオープン化」をビジョンとしてかなり強く掲げている。
基本的には研究成果を公開する方針で、古くはPytorchから、最近はLlamaやSegment Anythingなどの基盤モデルを公開している。

Anthropic（@AnthropicAI）
Claudeなどで有名。元々、OpenAIでLLMを作っていた人々がより信頼性の高いモデルを作るために作った会社なので、LLMの信頼性については力を入れており、その辺りの発信も多い。
プロンプトガイドもオススメだが、日本語版はいきなり「迅速なエンジニアリング」などと力強い誤訳から始まってるので、読めるなら英語で読んだ方が良いかもしれない。

Hugging Face（@huggingface）
機械学習のモデル公開プラットフォーム。有名なオープンモデルは大体このアカウントで紹介される。自分は公式というよりもCEOの方のアカウント（@ClementDelangue）をよく見ている気がしていて、こちらでHugging Face周りのニュースがよく紹介されている気がする。

LMSYS（@lmsysorg）
LLMリーダーボードで有名な組織。こちらのリーダーボードには世の中のほぼ全てのLLMが登録されており、リーダーボードの上位に入ったモデルを紹介してくれるので、このアカウントをフォローしておけば最新の強いモデルについては一通り分かるはず。

Databricks（@databricks）
最近個人的に注目している会社のアカウント。データや機械学習に関して幅広くいろいろやってる会社だと思うのだけれども、LLMの応用に関して役に立つ情報をよく発信している。こちらのCompound AIの記事はLLMの応用を考えてる人は読んでおいた方が良いと思う。

個人アカウント（論文紹介系）

論文を紹介しているアカウントです。AK氏二人がとても有名で多分研究者の方々は皆さん既にフォローしているかと思います。ArXivに上がった（多分）全ての論文を見て面白そうな論文を紹介しています。

このお二方に紹介された論文は被引用件数が伸びるという研究があり、最近は論文を紹介された研究者はこのお二方に感謝のリプを送ってる印象があります。

Aran Komatsuzaki（@arankomatsuzaki）
AK氏その1。Georgia TechのML PhD。

Ahsen Khaliq（@_akhaliq）
AK氏その2。MLのWebアプリ作成ツールであるGradioのMLエンジニア。

個人アカウント（論文紹介系以外）

こちらは論文紹介以外の主に機械学習や深層学習、NLPの専門家のアカウントです。
専門家の方々のアカウントをフォローすることの利点は、「専門家の方々がAIやLLMについてどう考えているか」に触れられることにあるかと思います。専門家だからこそ見える世界というのも結構あると思っていて、そういう世界に触れることでAIやLLMを応用する上で役に立つことも（少なくとも自分の体感では）結構あるんじゃないかと思っています。

Sasha Rush（@srush_nlp）
Cornell Techの准教授でHugging Faceでも働いている。NLP業界で深層学習以降に出てきた方の中ではトップクラスに有名だと思う。
個人的に紹介してる研究ネタが一番面白いと思うのと、各トピックについて結構深堀りして呟いてくれるのでめちゃ勉強になる。

Bojan Tunguz（@tunguz）
最近NVIDIAを辞めたらしい面白Kaggle Grandmaster。ネタツイートも多いけれどもAIの時事ネタについて呟きがちなので、フォローしておくと大体どの辺りが炎上しているのか把握できるような気がする。

Jim Fan（@DrJimFan）
元々StanfordのFei-Fei Liの学生で、今はNVIDIAのシニアマネージャー。専門はロボティクスだと思うのだけれどもLLMについても結構いろいろ発信してくれるのと、時事問題のキャッチアップが早い印象がある。

Andrej Karpathy（@karpathy）
OpenAIの創業メンバーで元TeslaのAIの偉い人。研究者としても有名だがAI系の技術発信でも非常に有名で、TransformerやらGPTの実装と解説が特に有名。
AIやらLLMについてのコメントが深くてとても勉強になる。

Harrison Chase（@hwchase17）
LangChainのCEO。個人的にはLangChainはどうかと思っているのだけれども、RAGだったりFlow Engineeringだったり、LLMを本番環境で使う際のtipsを呟いてくれるので勉強になる。
Deeplearning.AIでいくつかショートコース（これとか）を開講しているので、興味ある方は見てみても良いかもしれない。

Yann LeCun（@ylecun）
Hinton、Bengioと並ぶ深層学習のゴッドファーザーの一人で、CNNを作った人であり、self-supervised learningという言葉を作った人。LLMについては結構な確率で炎上の震源地になっているような気がするので、Yannの意見とそれについてる他の専門家の意見を見ると学ぶことが多い。

Soumith Chintala（@soumithchintala）
Pytorchの生みの親といっても大体間違いではない人。
最近の技術的な進展というよりもそれに対するハイレベルな見方が参考になる。元々は上記のYannの学生だった（はず）というのもあって考え方は結構近い気がする。

Kevin Murphy（@sirbayes）
機械学習の教科書がめちゃめちゃ有名で、機械学習を真面目にやりたい人は（重いけど）みんな読むべきだと思うし、自分も大学院時代にMurphy本を読んでことで機械学習がある程度できるようになった気がする。

Chip Huyen（@chipro）
MLOps業界の有名人。MLOpsの有名な教科書を書いているのと、数は多くないけどたまに出てくるブログ記事が秀逸なので、LLMOpsやる人は一通り目を通しておいた方が良いかもしれない。

最後に

IVRyではAIエンジニアを絶賛募集中です。

IVRyでは現在、AI及びLLMの社会実装を粛々と進めていっており、AIやLLMを使ったサービスを作って社会をよくしていきたいという方々は是非ともご応募ください！