Grok-2が実際に登場、しかしそれが10,000倍の規模だったら？

2024年8月23日 21:52

36時間前にGrok-2の最大バージョンがオンラインになりましたが、この録画時点では論文もモデルカードもなく、テスト用のTwitterチャットボットしかありません。つまり、Grok-2を理解したり成長させたりするための論文がないのです。しかし、Grok-2のリリースを機に、大規模言語モデルが世界の内部モデルを開発しているかどうかについて議論することはできます。
Epoch AIが昨日発表した論文では、2030年までに現実的にどの程度のスケーリングが可能かと、その間にインターネット自体にどのような変化が起こるかについて述べています。
最初のGrok-2は1週間前のブログ投稿で発表され、Claude 3.5 SonnetとGPT-4 Turboを上回る性能を持つと言われていましたが、テスト用にはリリースされませんでした。遊べるのはGrok-2 Miniという小規模な言語モデルと、XAIとは全く別のFluxという画像生成モデルだけでした。XAIはもちろんGrokファミリーモデルの開発者です。
Fluxを使ってほとんどフィルタリングされていない画像を生成できることはニュース性があり興味深いと思いましたが、私はGrok-2自体の能力にもっと興味がありました。導入部の動画についてお聞きになりたい方もいるでしょうが、実は昨日リリースされたIdeogram 2を使って画像を生成しました。Fluxモデルよりもテキスト生成が少し優れていると感じています。そしてそれらの画像をRunway Gen 3 Alphaに、もちろんプロンプトとともに入力して10秒の動画を生成しました。とても楽しいワークフローです。まだ完全に写真のようにリアルではありませんが、これについては後ほど詳しく説明します。
Grok-2の能力に話を戻しますと、従来のLLMベンチマークでのパフォーマンスがこの表に示されています。ただし、右側にClaude 3.5 Sonnetのパフォーマンスが巧みに隠されているのに注意してください。少し下にスクロールする必要があります。
Grok-2を過小評価するつもりはありません。そのパフォーマンスはかなり印象的です。Grok-2の最大バージョンは、Google Proof Science Q&Aベンチマークでは、Claude 3.5 Sonnetに次いで2位でした。また、MLU Proでも、Claude 3.5 Sonnetに次いで2位でした。MLU Proは、MLU 57科目知識テストからノイズと間違いのほとんどを除いたものと考えてください。そして、あるマス数学ベンチマークでは実際に最高得点を記録しました。Math Vistaです。
このチャンネルをご覧の方はご存じかもしれませんが、私は独自のベンチマークであるSimple Benchを開発しています。右側にある企業の上級幹部2名が実際に協力を申し出てくれて、大変感謝しています。しかし、もちろんGrok-2をSimple Benchで適切にテストするにはAPIが必要で、まだアクセス権がありません。
もちろん、私は待ちきれずにGrok-2を、実際のベンチマークには含まれていない質問セットでテストしました。正直なところ、Grok-2のパフォーマンスはかなり良く、ほとんどのベンチマークと同じ水準でした。
いずれSimple Benchの完全な紹介ビデオを作成しますが、今のところ知らない方のために説明すると、基本的な推論能力をテストします。トレーニングデータに含まれていない場合、空間と時間の中で基本的な因果関係をマッピングできますか？人間はもちろん、Simple Benchで90％以上のスコアを取れますが、LLMは一般的に苦戦します。
しかし、Grok-2は私の雰囲気チェックをパスし、多くの場合、かなり良く推論された回答を出します。ただし、Claude 3.5 Sonnetが正解する質問の中にも、まだかなりの数の間違いがあるので、その特定のモデルには及ばないでしょう。
悪名高い一人のジェイルブレイカーのおかげで、私たちは今やGrok-2のシステムプロンプトを知っている可能性があります。これは、モデルがあなたのメッセージを見る前に与えられるメッセージです。『銀河ヒッチハイク・ガイド』からインスピレーションを得て、内部のX/Twitterデータやシステムにアクセスできないことを思い出させる必要があるようです。最終的な目標は、最大限に真実を語ることのようです。
多くの人が注目しているのは、GPT-4レベルの別のモデルではなく、画期的なパフォーマンスです。そのためには、GPT-4の10倍のスケールの次世代モデルまで、数ヶ月待つ必要があるかもしれません。
Grokを離れる前に、インターネット上での偽画像の遍在化という見過ごせない傾向について触れておく価値があります。正直なところ、それは主にGrok内のFluxから来るものではないと思います。Twitterはそれらの画像が広がる場所かもしれませんが、実際にはGoogleを見ています。彼らの新しいPixel 9電話は、このような画像を「再想像」することができるそうです。
例えば、ゴキブリがいる画像があります。誰かが気に入らないレストランを想像し、突然そのゴキブリの画像をTrip Advisorに投稿することができるのです。実際にその恨みを持つ人がそのレストランに行ったことを確認することもできます。では、これはどのように削除されるのでしょうか？そして、もしこれらの画像が人々をクリックさせたり反応させたりしないと思うなら、それはすでにYouTubeで起こっています。
もちろん、これは画像と同じくらい動画にも当てはまります。まだ完全にリアルタイムの写真のようなリアリズムは得られていませんが。私の意見に同意しないかもしれませんが、リアルタイムの写真のようなリアリズムまであと数ヶ月、長くても1、2年しかないように感じます。つまり、Zoomで話している相手が実際に見えるように見えるかどうかを信じられなくなるのです。
一つの答えは、ただ常識を使って、オンラインで見るものを信じないことだと分かっています。これは、私たちがそれぞれこの世界で何が本物なのかを理解しなければならないというより孤立した状況に思えます。共有された現実感がないのです。あるいは、技術のいくつかの弊害を解決するために技術が必要なのかもしれません。
数日前の63ページの論文を何気なく読んでいたのですが、これらの課題のいくつかを解決する可能性のあるルートだと思います。World coinや指紋を忘れてください。私たちは、ゼロ知識証明と呼ばれるものを使って、個人の証明書を提供できるかもしれません。
ゼロ知識証明について何も知らない方のために、素晴らしいWiredのビデオへのリンクを貼っておきましたが、簡単に言えば、この論文を読んで、インターネットが完全に狂気に陥らないという希望が少なくともあると、やや楽観的になりました。
そして、もちろん良い種類の狂気もあります。Cling、Ideogram、Fluxのようなツールによって解き放たれた創造性の狂気です。ここに、マッドマックス人形スタイルの20秒の映像があります。
[音楽]
たった5日前、Google DeepMindのCEOであるDemis Hassabisは、トレーニングデータから特定の出力につながった元の画像やテキストをトレースする方法を開発中だと語りました。そして、その出力の一部がそのソースから来たという割合に基づいて、オリジナルの作成者に支払うことができるそうです。
しかし、マッドマックス人形のような出力を見ると、それはほとんど不可能な作業のように思えます。そして、私たちだけが創造的になれると思っていたなら、OpenAIのGPT-4が話しかけているユーザーの声を模倣するのを聞いてください。
ただそれをするためにそうするのです。私はそれがとても純粋で賞賛に値するアプローチだと思います。認識や称賛によってではなく、そのような視点を聞くのは新鮮です。特にそのような最先端の分野では。
いいえ、私はインパクトによって動かされているわけでもありません。もしインパクトがあれば素晴らしいですが。それは地球の端にいるようなものです。ただそこにいられるから。それが私にとってはそんな感じなのです。すべてが起こっている空間にいたいだけです。
奇妙な失敗モードについて話し、なぜ模倣を始める前に「いいえ」と叫ぶのでしょうか。これはOpenAIの高度な音声モードの遅れを正当化するものでしょうか？それとも、あなたの声を模倣し始めても動揺しないでしょうか。
ほとんどの視聴者は、モデルがどのように話すかを気にしないでしょう。それはモデルが彼らと同じくらい知的であるかどうか、あるいは一般的に知られているように、モデルが一般的に知的であるかどうかについてです。
そしてこの点について、AGIに取り組んでいるこれらの研究所から明確なメッセージを得ることはできません。一方では、先週Demis Hassabisは、AGIはまだ過小評価されていると言いました。
私はまだ過小評価されている、あるいはまだ十分に理解されていないと思います。AGIに到達し、AGI以降に何が起こるのか、人々がそれがどれほど巨大なものになるかをまだ完全には理解していないと感じます。そのため、その責任も同様です。つまり、両方ですね。短期的には少し過大評価されていると思います。これが、予測や言葉よりも行動や結果に注目すべき理由だと思います。
例えば、モデルが私の汚染されていないSimple Benchで人間のパフォーマンスを上回った場合、プレスリリースやブログ投稿よりもずっと大きな指標として受け取ります。
Simple Benchの内部動作や、どのように一部の上級幹部と協力してそれをウイルス的に広めようとしているかについてもっと知りたい方は、私のPatreonでAI Insidersに登録してください。新しいメンバー一人一人に個人的にメッセージを送っており、現在6大陸でライブの地域ネットワーキングを行っています。
また、Discordやモデレーター経験のある人を常に探しています。素晴らしい専門的背景を持つ何百人もの素晴らしいメンバーがいるからです。私個人では、人々をつなげる最良の方法を常に考えることはできません。
しかし、Grok-2、GPT-4、そして他の多くの同様のモデルが確実に欠けているのはスケールです。2030年までに現実的にどの程度のスケーリングが可能か、そして企業がまだ資金提供する意志があると仮定すると、要するにGPT-4の約10,000倍のスケールになります。
論文では、スケーリングに関する多くのボトルネックが言及されていますが、最も制約となるのはデータの不足、チップ生産能力、そして実際の電力制約です。最も制約の厳しいボトルネックでさえ、GPT-4の計算能力の10,000倍のモデルの余地を残しています。
抽象的な数字に聞こえるかもしれませんが、モデルのデータとパラメータの10倍の増加を本当に感じることができます。例えば、LLaMA 2 70Bパラメータは、私のSimple BenchでGPT-4 Miniレベルのスコアを記録します。
LLaMA 3 405Bパラメータは、単にパラメータが増えただけでなく、はるかに多くのデータでトレーニングされ、GPT-4レベルのスコアを記録します。そしてClaude 3 Opus。
もちろん明らかな疑問は、100倍のパラメータで100倍のデータでトレーニングされたモデルについてです。それは画期的なものに感じるでしょうか、それとも単なる漸進的な改善でしょうか？参考までに、GPT-4はGPT-2の約10,000倍の規模です。GPT-2は、かろうじて一貫性のあるテキストを出力できるレベルです。
私にとっては、ただ盲目的により多くのデータでトレーニングしたり、スケールがすべてを解決すると単純に期待したりすることだけではありません。Leopold Aschenbrenerのようにグラフに直線を引くだけではいけません。この論文が目指すように、モデルが一貫した内部世界モデルを発展させているかどうかを理解する必要があります。
もしそうであれば、スケールアップされたモデルは単に「より多くを知っている」だけでなく、はるかに豊かな世界モデルを持ち、より知的に感じるでしょう。
これらのMITの研究者たちは、言語モデルが一部の人々が考えるように表面的な統計的相関関係にのみ依存しているかどうかを調べようとしていました。簡単に言えば、統計的相関関係だけを見ているのであれば、いくらスケールを上げても性能に飛躍的な変化は生まれません。
しかし、XがYを引き起こすという隠れた機能を推論できるなら、より具体的に世界を理解し始めることができます。
パズルからこれらの入力が与えられたとき、彼らはまたプログラム的な指示と結果の出力も与えられました。その後、入力と出力だけが与えられ、どのようなプログラムがそれらの出力を引き起こしたかを予測するよう求められました。
実験者たちは、言語モデルがミニ世界モデルを構築し、進行に沿って動きを追跡しているかどうかを見たかったのです。
予想通り、言語モデルがそのような因果モデルを発展させているかどうかを調べるのはかなり複雑で、そのためにフォローアップ論文が出されました。
その論文の結論は、言語モデルが確かに潜在的または隠れた概念を学習しているというものでした。他の論文を参照し、言語モデルが単純な物語の過程でエンティティの状態追跡を行っていることを示し、また私のCoursera講座で話した有名なオレル論文のボードゲームについても言及しています。
もちろんここでは簡略化していますが、彼らが発見したのは、十分なデータで十分なスケールでトレーニングした後、この場合は100万以上のランダムなパズルで、モデルが自発的に基礎となるシミュレーションの概念を発展させたということです。
それを非常に小さな、萌芽的な世界モデルのようなものと考えてください。これらの実験の開始時には、言語モデルは機能しないランダムな指示を生成していました。GPT-2のようなものです。
トレーニングが完了する頃には、言語モデルは92.4%の確率で正しい指示を生成していました。正直なところ、時々私は、インターネットのデータのトリリオントークンでトレーニングされた言語モデルのことを考えます。彼らはおそらくはるかに豊かな内部モデルを持っているでしょう。
インターネット上でノンフィクションがフィクションとこれほど混ざっていなければ、時々私は新しいアーキテクチャを必要とするのではなく、データラベリングの革命が必要だと思います。
Simple Benchのようなものは、現在のLLMにモデルがあるとしても、それがかなり脆弱であることを明確にしています。しかし、それが常にそうである必要はありません。
結局のところ、LLMが理論的にでも、最終的にAGIとみなされるのに十分な世界モデルを発展させることができるかどうか、あるいはそれが必要かどうかは、まだ分かっていません。
あるいは、彼らは単にAGIのインターフェースとして機能し、例えば私たちの口頭や入力されたリクエストを別の世界シミュレータへの入力に翻訳するだけでしょうか？それとも、彼らの最も一般的な機能は、説得力のあるディープフェイクのためになるでしょうか？
あなたの考えをお聞かせください。そして、いつものように素晴らしい一日をお過ごしください。

この記事が気に入ったらサポートをしてみませんか？