見出し画像

フランス人の天才たちによってChatGPTが王座から追われる

7,762 文字

フランスの3人、Deep Mの元研究者と、Maにいた2人によって設立された企業についてお話ししたいと思います。わずか8ヶ月前には存在しなかったこの会社は、その間にAI業界全体を震撼させました。ChatGPTに代わる競合モデルを公開し、すべての競合を圧倒。プロモーション動画や誇大広告もなしに、約20億ドルの評価額を獲得しました。
この会社の取り組みに私は非常にワクワクしていて、新しい発表がないかを確認するために、ほぼ毎日Twitterをチェックしているほどです。本当にそうなんです。
フランス人たちがどれほどゲームを爆発的に進化させたのか、そしてあなたたちもどのように恩恵を受けられるのか、説明させていただきます。
まずはChatGPTと競合するAIのベストパフォーマンス表をご覧いただきましょう。この表には非常に興味深いことがたくさんあります。例えば、ChatGPTが複数のバージョン間で後退しているように見えます。また、スコアに一貫性がなく、正しい順序になっていないのも不思議です。
そして特に注目すべきは、OpenHermes、Mistral、Mixtral Instructなど、風を連想させる名前の黄色い線です。一見するとそれほど上位にランクインしていないように見えますが、これは背後に隠れている革命を見逃すことになります。本当にそう言えるんです。
まず理解しておく必要があるのは、LLMのパフォーマンスを測定する方法はたくさんあるということです。簡単に言うと、これは本当に簡単ではありません。ベンチマークというのは、LLMの能力を確認するために投げかける質問のリストのようなものです。
例えば、哲学の質問があって、適切な用語を当てはめる必要があります。問題は、理論上では驚異的なスコアを出すモデルがあっても、実際にはそれほど素晴らしくないということがよくあるということです。
例えば、GoogleのGeminiモデルのケースがそうかもしれません。MMLUというベンチマークで高いスコアを出すことに注力したように見えます。これは非常に注目され、重視されているベンチマークですが、実際に使ってみると説明しづらいものの、ChatGPT4ほど優れていないと感じるのです。
これは時として、データセットの中に答えが漏洩してしまっているために起こることがあります。つまり、モデルが学習した何百ギガものテキストの中に、答えが含まれていたということです。
ベンチマークは興味深い指標になり得ますが、モデルが本当に優れているかどうかを判断するには、現時点では人間の感覚に勝るものは見つかっていません。そのため、最良のベンチマークの一つは、人々の実生活での使用感、特に企業で実際に使用されているかどうかということになります。
では、ランキングはどのように作成されるのでしょうか?チェスのように投票システムを使うことができます。ELOレーティングのように、異なるモデルの回答を比較するためのポイントシステムを作ることができます。
実はこの表は、そのような最も有名なランキングの一つです。Arena Helloは、ターゲットとなる視聴者の間で行われたさまざまな回答の戦いをすべて記述しています。ここで言っておかなければならないのは、これは本当にトップ中のトップだということです。
この一覧は下に無限に続いています。黄色い線が下の方にあるように見えますが、いいえ、これは本当に、この放送時点で利用可能な、このサイトでテストされた最高のモデルの表彰台なのです。このサイトは非常に人気があります。
現時点では、最上位のモデルはすべてプロプライエタリ(独自)であることがわかります。誰もが知っているGPT4が認識できます。次にAnthropicのClaudeが見えます。あまり話題に上がりませんでしたが、これはOpenAIの元従業員によって立ち上げられました。
そして、連続的なアップデートの後も現在も非常に競争力のあるGPT3.5のいくつかのバージョンがあります。さらに下には、Googleが2週間前に発表したばかりの新モデル、Gemini Proが見えます。
これらがプロプライエタリなものですが、私たちにとってより興味深いのはオープンモデルです。一般的に小規模で、後で説明しますが、計算能力の要求が少なく、無料でダウンロードして、ローカルで実行できます。最も興味深いことの一つは、独自のデータで再トレーニングして、本当に非常に強力にできることです。
数週間前まで、ChatGPTとそのバリエーションに対する唯一の本格的な代替は、すでに話題に上がっていたLlama 2、より正確にはFacebookのモデルLlama 2の改良版(ファインチューニング)でした。彼らの基盤モデルの作業を最大限に最適化したものです。
しかし、ちょうど2ヶ月前、表に黄色い線が追加されました。それはどのように起こったのでしょうか?ほとんど誰にもフォローされていなかったMistralアカウントが、ツイートを投稿しました。
知らない人のために説明すると、これはマグネットリンク、つまり海賊版の映画やその他のオープンソースのものをダウンロードするような、単なるトレントです。説明も文脈も、プロモーション動画もブログ記事も何もなく、ただこのリンクを公開しました。
クリックすると、70億パラメータのモデルが見つかります。ここで非常に重要なことを説明する必要があります。というのも、この黄色い線が表の下の方にあるように見えるかもしれませんが、それはモデルのサイズを考慮に入れていないからです。
ボクシングのように、異なるカテゴリーがあります。ヘビー級、ミドル級、ライト級があり、2000億パラメータのモデルと、700億パラメータや70億パラメータのモデルで戦うのは、まったく別物なのです。
このパラメータ数は、実際には重みの大きさを表しています。具体的には、推論を行うための、つまりメッセージを作成し、あなたの目の前でトークンを書き出すための、ニューラルネットワークを含む巨大なファイルです。
モデルが大きければ大きいほど、より多くの計算能力が必要になり、25000ユーロもするNVIDIAのグラフィックカードを積んだ巨大なサーバーが必要になります。それらを積み重ねて、最終的に100GBや200GBのモデルをホストすることになります。
しばしば、プロプライエタリモデルの正確なサイズはわかりません。以前は、GPT3などは約1300億パラメータだと考えられていました。間違っていなければ、GPT4は確実に巨大です。つまり、これを自分のデバイスでホストするのは不可能だと思ってください。完全に不可能です。
そのため、より小さなモデルが登場しました。例えば、Llamaが彼らのモデルをリリースしたとき、通常3つか4つのバージョンで出しました。最大のものは700億パラメータで、これはOpenAIやAnthropicのモデルサイズに最も近いものです。
参考までに、これを動かすには最低でも2枚のグラフィックカード、現在のRTX 4080 Tiが必要です。これはGPT3.5とほぼ同等のモデルを手に入れる方法の一つでした。それはすでにクールでした。本当にクールでした。
彼らは300億パラメータ、130億パラメータ、70億パラメータのモデルもリリースしました。なぜすべてのエネルギーとお金を使って、他のすべてのモデルより強力な単一のモデルを訓練しないのかと思うかもしれません。
基本的に、異なるサイズのモデルは異なる用途に役立つからです。非常に大きなモデル、つまり非常に優れた理解力と幅広い一般知識が必要な特定のアクションのために、1語あたりのコスト、トークンあたりのコスト、そして非常に大きなインフラストラクチャが必要という妥協をする必要があるかもしれません。
しかし、時には性能と引き換えに、より限定的なニーズがあるかもしれません。例えば、16GBのRAMを搭載したMac miniでモデルを動かしたい場合、130億や70億パラメータのモデルがあることを実際にとても喜ばしく思います。
しかし、長い間、70億パラメータのモデルではほとんど何もできませんでした。要約を作るのはある程度うまくいくかもしれませんし、単語の同義語を見つけるなど、言語を低レベルで扱うことはできます。小学5年生レベルと言えるでしょう。
Mistralは70億パラメータのモデル、私たちが見る中で最小のモデルですが、トップ10に入っています。しかし実際には、これは完全に常識破りです。彼らがリリースしたとき、人々は半信半疑でした。ベンチマークを見たとき、これはバグに違いないと思いました。
先ほど説明したように、彼らはベンチマークで訓練したに違いない、5GBのファイルに収まるモデルでこのような結果を得るのは意味がない、と考えました。しかし、実際にはそうだったのです。
彼らの70億モデル、特にファインチューニングされた後のバージョン、表で見るOpenHermsなどのバージョンは、コミュニティによって改良されたバージョンで、このモデルを130億パラメータのすべてのモデルを圧倒するレベルに押し上げました。さらには、700億パラメータの最高のモデルさえも圧倒しています。
つまり、現在のMistralの最高の派生版は70億パラメータのもので、Starling LM 7B Alphaと呼ばれています。これはGPT3.5 Turbo、PPLX 70B(70Bは700億を意味します)、そしてStarlingの行を見てください。Llama 2 70Bを完全に圧倒しています。
これがどれほどすごいことか、わかりますよね?そう、これが2ヶ月前に一種の津波が起きた理由です。誰もがこのマグネットリンクで遊び始め、ダウンロードし、改良を試み、どこまで限界を押し上げられるかを見ようとしました。
ただし、把握しておくべき微妙な点があります。これは依然として小さなモデルであり、非常に質の高い回答を得ることができますが、インターネットから保存できた情報量に関しては、場合によってはより制限があるのではないかと考えられています。
データセットにない情報を作り出すリスク、つまり幻覚を起こすリスクが若干高くなる可能性があります。これは70億モデルを使用することの非常に小さな注意点かもしれません。
しかし、それを除けば、このものは一部のiPhoneで、あるいはより現実的には、あなたのMacで何の問題もなく動作させることができます。本当に小さいので、光速で動作します。つまり、あなたが読むよりもはるかに速く動作します。
これは、アプリケーション開発者でさえ、インターネット接続なしで完全にローカルでバックエンドに統合できることを意味し、ほぼGPT3.5に匹敵するものを手に入れることができます。
まだ触れていない小さな線があることにお気づきでしょうか。これはわずか10日前のことで、これは別の形の革命です。彼らは単に新しいマグネットを公開しました。そこで、まるでクリスマスのように、マグネットを開いて中身を見てみると、Mixtral 7B x 8というモデルがありました。
彼らが公開したのは、MoE(Mixture of Experts、専門家の混合)と呼ばれるモデルです。異なるモデルを訓練しますが、それぞれが異なる領域で専門化するようになります。
簡単に説明すると、数学が得意なモデル、コーディングが得意なモデル、文学や哲学が得意なモデルを訓練するようなものです。実際にはそれよりもずっと複雑ですが、具体的には、異なる枝を持つモデルを訓練することを可能にします。
基本的に、8つの頭を持つケルベロスのようなものですが、生成時には、つまり新しいトークンを生成するたびに、これらの頭のうち2つだけが使用されます。これはほぼ確実にOpenAIがGPT4で使用したアーキテクチャであり、このレベルに到達できた理由だと考えられています。
興味深いのは、基本的に8×7のモデルのサイズの恩恵を受けながら、ハードウェアのコストを支払う必要がないということです。つまり、7+7、つまり140億パラメータのコストで、ある意味8×7の恩恵を受けることができます。実際には、サイズは大きくなりますが、より多くの計算能力は必要としないのです。
これは、ほぼGPT3.5のレベル、あるいはテストではそれ以上かもしれません。しかし、それが最も驚くべきことではありません。最も驚くべきことは、64GBのRAMを搭載したMac M3 Ultraで文字通りローカルで実行できることです。これは歴史上初めてのことです。
そして2番目に驚くべきことは、パフォーマンスのレベルです。今まで知性についてだけ話してきましたが、それだけが重要なわけではありません。トークンの速度も重要です。つまり、どれだけ速く応答できるかということです。
彼らのモデルは非常にスマートなだけでなく、同時に多くのユーザーに応答できます。つまり、64GBのRAMを搭載したMacで、かつてないほどのトークンを生成できるのです。
より現実的な例を挙げると、企業が独自のMistralバージョンを展開したい場合、実際に今それを行っている多くの企業と話をしました。Mistralを採用し、ファインチューニングして、サーバーに展開しているのです。これらの企業にとって、OpenAIが同じことを行うよりもはるかに低コストになります。
手短に言えば、私の興奮が的外れではないことがお分かりいただけると思います。特に今のところ、小さな革命について話してきましたが、おそらくまだ来るものがあります。
それはどうして分かるのかというと、最近彼らがクラウド、つまり彼らのモデルのホステッドバージョンを発表したからです。プラットフォームと呼ばれています。私はアクセス権を得ましたが、基本的にはOpenAIのAPIのバージョンです。
後方互換性さえあります。つまり、OpenAI用のサービスを開発した場合、同じエンドポイントで、すべてが同じように動作します。URLを変更するだけで、すべてがうまくいきます。賢いですね。
そして、このプラットフォームで何を発見したかというと、彼らがすでに公開している2つのモデル、Mistral TinyとMistral Small(彼らにとってMistral Smallは一番上の黄色い線です)があります。
しかし、アルファ版の第3のモデル、Mistral Mediumがあります。これはまだ公開されていません。彼らが正確に何をするつもりなのかはわかりませんが、このMistral Mediumは、すでにAPIを通じて推論を試すことができます。
これは非常に期待が持てます。おそらくさらに大きく、コストの面ではGPT4よりもはるかにアクセスしやすいものになるでしょう。実際、両者の間に位置すると考えられています。つまり、おそらくまだGPT4と完全に同等ではありませんが、推論のコストがはるかに低くなります。これが彼らの専門分野です。
Mistral Mediumの発見後すぐに、多くの人々がGPT4とMistral Mediumを非常に具体的なトピックで比較するツイートを始めました。説明しておくべきことは、表の一番上にあるGPT4はAPIバージョンだということです。
公開バージョンのChatGPTがどんどん劣化していっていることに気づいている人が多くいます。6ヶ月前、1年前にはうまく機能していたスクリプトの生成などを試してみると、今日ではあまりうまく機能しません。
よく起こることは、AIを安全にするため、つまり誰かの政治的な感受性を刺激することを避けるために、「私は害を与えることができません」といった返答をするように制約する必要があることです。
モデルに制約を課すたびに、パフォーマンスは低下します。これは絶対的な法則で、どこでも観察されます。両者はトレードオフの関係にあり、常にバランスの問題なのです。
印象的な例として、Pythonのコーディング演習があります。MixtralとGPT4に出された課題は、10億行のCSVファイル全体をSQLデータベースに入力するスクリプトを書くことでした。
正確な内容を理解する必要はありません。単に、これが些細ではないプログラミングの問題だということだけ知っておいてください。基本的に、中学3年生とPhD保持者を見分けるための良い方法です。
正解は、CSVのすべてのエントリーをループしてデータベースに入力するだけでは不可能だということです。追加のコンテキストは必要ありません。それが単純に不可能だということは明らかです。
メモリ管理に注意を払いながら、バッチで処理するなど、より賢明なアプローチが必要です。彼は実演を行い、ChatGPT4のインターフェースでは、まったく的外れで、まったく役に立たないことを話していることを示しました。
「自分で実装してください」とか、「このループは少し複雑すぎるので、もっと調査が必要です」といった、あまり適切ではないコメントばかりです。「いいえ、本当に課題に答える完全なスクリプトを書いてください」と質問を繰り返す必要があります。
そうすると最終的には答えにたどり着きます。頭が悪いわけではなく、単に怠惰になってしまったのです。同じ要求をMistral Mediumにすると、キャビアのような回答が返ってきます。
余計なトークンは一つもなく、人生について語り始めたりもしません。的確で、完全ではないかもしれませんが、すでに興味深い要素があるコードを提供します。バッチングシステムなど、課題の深い理解があります。
最後には、さらに進むための推奨事項が提供され、それは実行可能です。利用できる可能性のあるPythonのサービスや関数など、非常に具体的な提案がなされます。
これは一例に過ぎません。詳細な研究ではありませんが、ChatGPT4が躓き、あまり良くなくなっているように見える瞬間に、Mistralのパフォーマンスと能力がこのような曲線を描いているのを見るのは印象的でした。
つまり、Mistralにこの会社を作ってくれてありがとう、彼らは本当に素晴らしい。どうか彼らをフォローしてください。そして率直に言って、彼らは私をフランス人であることを誇りに思わせてくれる種類の会社なのです。
もちろん、これらの新機能は非常に喜ばしいものですが、少し注意点を加えたいと思います。これらのAIは、インターネットを閲覧したり、メールや文書に接続したりするプラグインに接続するためにますます使用されています。
問題は、多くの人々が言語モデルに内在する脆弱性、セキュリティの欠陥に気づいていないということです。これは非常に不気味で、あまり議論されていません。この動画でデモンストレーションを見て、ご自身の判断を下すことができます。

いいなと思ったら応援しよう!