見出し画像

GPT-4は8つのLLMの混合モデルらしい

GPT-4の構成やパラメータ数は今のところ明かされていません。OpenAIがあえて発表しないのAIの危険性を避けるためだそうですが、実際には自分のビジネスを守るという一面もあるでしょう。

ところが、PyTorchの開発者であるMetaのSoumith ChintalaのツイートがGPT-4の構成やパラメータ数について言及しています。彼は、「GPT-4は8個のエキスパートから構成されている」と言っています。このエキスパートとは大型言語モデル(LLM、Large Language Model)のことで一つにつき2,200億のパラメータを持つそうです。合計で、1.76兆となります。

でも、この情報は彼自身のものではありません。

他の人のツイートを引用してこう述べています。

私も同じことを聞いたかもしれません 😃 -- このような情報は広まっていると思いますが、誰も大声で言おうとはしません。

GPT-4: さまざまなデータ/タスク分布で訓練された8つの2,200億のパラメータを持つエキスパートが16回の推論をする

ジオホット(Geohot)が大声で言ってくれてよかった。

ただし、現時点では GPT-4 はおそらくより効率的に蒸留されていると思われます。

https://twitter.com/soumithchintala/status/1671267150101721090

16回の推論を行うということで、ChatGPTはGPT-3.5よりGPT-4の方がすごく遅いのはこれが理由なのかもしれません。また、GPT-4に使用制限があるのも頷けます。こんなの自由に使わせたらお金もGPUもいくらあっても足りないからでしょう。

ただし、Soumith Chintalaが言うようにGPT-4は蒸留されている可能性はあります。蒸留とは、大きなモデルの推論をラベルとして小さなモデルを訓練することです。大きなモデルに近いモデルをより少ないパラメータで実現できれば運用コストを減らせるので「おそらくより効率的に蒸留されている」と推測したようです。でなかったら費用がかかりすぎるだろと内心は思っているのでしょう。

8つのLLMで16回の推論なので、一つにつき2回の推論ということなのでしょうか。さらに何らかのトリックを組み込んでいるとのことですが、詳細は分かりません。発言の安全性のチェックなどもあるはずなので、そのようなことなのかもしれませんが、分かりません。

それにしてもGoogleのBardのベースになったPaLM5400億パラメータなので、1.76兆とは比べ物にもなりません。大きければ良いとも言い切れないですが、ChatGPT(GPT-4)とBardを両方使っているとやっぱりChatGPTの方が優れた返答をしてくることが多い気がします。特にBardは「答えられません」的な返事をすることが多く、ハルシネーション(事実でない話を作って話すこと)がないようにチェックが厳重なのか、単に知識が足りないのかよく分かりませんが、使う側としてはちょっと劣っている印象を受けます。

上述のツイートをよく見ると分かりますが、GPT-4に関する情報をリークしたのはGeorge Hotzです。彼は、comma.aiで自動運転システムの開発を行い会社を立ち上げましたが、それをやめた後にtiny corpというAIを専用に実行するためのチップをデザインする会社を立ち上げています。その彼が、Latent Spaceでのインタビューの中で、インタビューワーのSwyxにこう述べています。

George: そうだな、GPT-4 は各ヘッドに 2,200 億あり、8 方向混合モデルだ。 混合モデルって、アイデアがなくなったときにやるだろ。 混合モデルって、そういうもんだよ。 同じモデルを 8 回トレーニングするだけだよ、ちょっとしたトリックもあるけど。実は 16 の推論を実行してもるけど、それはそんな(イノベーションと言えるほど)でもないよ [00:43:45]

George: Well, okay, so GPT-4 is 220 billion in each head, and then it's an eight-way mixture model. So mixture models are what you do when you're out of ideas. So, you know, it's a mixture model. They just train the same model eight times, and then they have some little trick. They actually do 16 inferences, but no, it's not like- [00:43:45]

https://www.latent.space/p/geohot#details

また、こんなふうに秘密主義についても言っています。

George: 実際、スタートアップが、企業が、秘密主義になるときはだいたい、あんまりクールではない何か(8つの混合モデルという手法)を隠しているからさ。そして人々は間違った想像をするんだ、本当にクールだから隠しているんだって、何度も繰り返しそう思うのさ。 [00:44:28]

George: So, you know, the real truth is whenever a start, whenever a company is secretive, it's because they're hiding something that's not that cool. And people have this wrong idea over and over again that they think they're hiding it because it's really cool. [00:44:28]

https://www.latent.space/p/geohot#details

彼の予測は、人々はOpenAIと同じことをするだろうということです。

George:  1 兆個のパラメータ、いいや、それは GPT-3 よりも少し大きい8 つのエキスパートを混合している。 わかるでしょ、君、誰でも8倍のお金を出してそれを手に入れることができる。 これから起こることを考えると、人々はより小さなモデルをより長時間トレーニングし、微調整(ファインチューニング)して、すべてのトリックを見つけるだろう。 OpenAI も以前はそういうことをしては公開していただろ [00:44:47]

George: It's a trillion parameters. No, it's a little bigger than GPT-3, and they did an eight-way mixture of experts. Like, all right, dude, anyone can spend eight times the money and get that. Coming back to what I think is actually gonna happen is, yeah, people are gonna train smaller models for longer and fine-tune them and find all these tricks. OpenAI used to publish stuff on this, you know, [00:44:47]

https://www.latent.space/p/geohot#details

インタビューの様子はYouTubeでも見れます。

ここから先は

0字

キカベン・読み放題

¥1,000 / 月
このメンバーシップの詳細

この記事が気に入ったらチップで応援してみませんか?