AGIとGPT法の限界について
今LLMで主流のGPT法での学習と推論ですが、本当にこの形式でAGIを達成することはできるのでしょうか?
もしできないのであれば、OpenAIやMetaは何か手を考えているのでしょうか。
実はこの話はさんざん言われている話題ではあるのですが、「でも、ChatGPTってめっちゃ成長してるじゃん」と言われ、足蹴にされがちな話題です。
この記事では、根本的な構造から問題を見つめることで、これからの可能性と限界について考察します。
はじめに
まずGPTですが、これは「Generative Pre-trained Transformer」の略称です。
Chat GPTが出始めのころ、「○○GPT」というサービスが大量に出現し、それに対抗するためにOpenAIが「GPT」の商標を申請する、ということがありましたが、「GPT」とは学術的なものが初出なので、普通に却下された、という話がありました。(OpenAIも無理だとわかっていたとは思いますが)
ということで、ざっくりとGPTについての説明をして、そこから問題点を考えていきます。
めっちゃ大雑把な仕組み
超大雑把に、かつ語弊を恐れずに言うと、
「意味を持った文字列を、その文字列の「意味」を表す超多次元ベクトルの座標としてとらえ、それらの関係を地道に計算し、次に来る単語を予測する」
という仕組みです。端折りすぎてもはや意味が分からないレベルですが、これを少しだけ解説します。詳しい話は、「3Blue1Brown」を見てください。有志による和訳動画もありますので、詳しく知りたい人、そうでない人も絶対に見ましょう。
Transformerどころかニューラルネットワークすらわからん、という方は、このシリーズのChapter1から見ることをお勧めします。
これらの動画を見た場合は、この章は読まなくても大丈夫です。
さて、少しだけ細かい解説へ入ります。
もし、わかりにくい説明だなぁと、ブラウザバックするくらいなら、飛ばしてもらっても結構です。
まず、GPTのそれぞれの略称の元の意味について説明します。
GはGenerative、つまり生成なので、出力は画像判別のAIのように0~1の定められた値ではなく、自由な形式をとります。
PはPre-trained、事前に学習された、という意味で、最初から学習済みのモデルを使用しますよ、という意味です。つまりはトレーニングと実行は別に区別されたシステムだということです。
TはTransformerで、これは深層学習モデルがTransformer型、という意味です。最初から翻訳や要約などの自然言語処理をさせるためにGoogleによって開発されたもので、再帰型ネットワークに代表される今までの形式と比べ、並列化しやすいこと、そして何よりも超大規模にスケーリングできることで知られています。
Transformerとは?
ここから少し込み入ったTransformerの解説をします。できる限りかみ砕いて解説するので、よくわからない場合は先ほどの動画を見るであったり、以下の説明をGPT4に投げて詳しく聞いたりしてください。
Transformerの構造は動画を参照してもらうのが一番わかりやすいので、どうやって生成するか、道筋だけ解説します。
まず、トークン単位に区切られた文字列を取得します。
これを、「すでに学習されたモデル」を参照し、ベクトルに置き換えます。
この状態では、それぞれのトークンは、独立した意味を持ったままです。
例として出すと、「Listening to Queen songs written by Freddie.」という文字列があったとします。入力された直後では、Queenという単語が、女王を意味するものなのか、バンドを意味するものなのかは、ベクトルに反映されていないということです。
次にすることは、それぞれの単語が前後の単語からどういう意味合いを持っているのか、をベクトルを少しいじることで表現していきます。先ほどの例文なら、QueenはsongsやFreddieなどの単語から、これはきっとバンドのクイーンなんじゃないかな、と値を変化させます。そしてこれを、何度も何度も繰り返します。何千億だとか、パラメータ数でよく言われる数値の9割以上はここでの計算での数値です。
最後に、文字列の最後のトークンのベクトルから、次に来る単語の確率を算出し、そこからsoftmaxするなどしてデータを整えてから単語を選びます。
ざっくりしていてよくわからないかもしれませんが、基本構造としては、
「すでに学習してあるデータをもとに、送られてきた文字列の意味を考え、理解していって、最後に次に来る単語を返す」
という手段です。
繰り返しになりますが、やはり先ほど載せた動画を見ることを非常にお勧めします。
仕組みから考えられる問題点
さて、仕組みが(なんとなく)わかったので、ここから考察していきます。
1. 誤差が増幅されて会話がズレていくのでは?
まず最初に思う点は、「最後のトークンのベクトルだけ見て次のトークンを予測とか本当に大丈夫か?」という点です。動画内でも言われていました。
動画では、学習の過程でどうこう、という説明がされていましたが、違う視点で一つ懸念点が思い浮かびます。
それは、「誤差がたまっていく」という懸念です。
いくら最後のトークンが文全体の意味を含んでいるとはいえ、文章を生成するには、次のトークンを予測することを繰り返す必要があります。これを繰り返していくことで、最後のトークンの抽選をミスしてしまった場合、だんだんと文全体が崩壊していってしまうのを引き起こしてしまう可能性はあると思います。
もちろんある程度対策はされていると思います。それなりに確度の高いトークンをより優先的に選択するようになっているのではないでしょうか。
さらに今は人間とLLMがキャッチボールして会話しているので、人間によって修正されるタイミングがありますが、AGIを達成することを考えると、人間同士のやり取りよりもAI同士のやり取りが発生する可能性があります。もし大真面目にGPT法で実現するならば互いに誤差が増幅していってしまい、全く意味をなさない会話をしてしまう可能性があると思います。
これはたとえ次元数が増えたとしても、根本的な解決は難しい問題であると考えられます。
2. 継続学習ができない
GPT法では、Pre-trainedとあるように、すでに学習されたモデルを使用することで、次のトークンを予測します。今ではナレッジカットが定期的に行われることで、この問題にある程度対応していますが、更新頻度は高くありませんし、AGIが達成されるとき、それは人間を超えるときなので、少なくとも人間のように、常に知識を得て、学習し続ける必要があります。しかしGPT法ではこれは仕組み上不可能(できるのかもしれませんが)なので、AGIを達成するのは難しい可能性があると考えられます。
もっとたくさん考えられると思いますが、今回はここまでにします。何かアイデアがある方はコメントではなく、記事を書いてそれを共有していただくと嬉しいです。コメントでもうれしいです。
GPT法を改良する対処法
では、これら二つの問題を解決する方法として何か現実的な解は考えられているのでしょうか。
とりあえずChat GPTに聞いてみました。
継続学習については様々な手法が考えられ、研究されているようなので、技術的な実現は近いうちにあるかもしれません。ただし、クリーンな出力を求められるような、大規模で社会的影響の大きい企業では、リアルタイムに変化したパラメータを用いて出力させることは難しい可能性があります。判別のシステムや、学習するデータをはじくなどの監視するシステムも同時にリアルタイムに運用する必要もあることから、実際にサービスとして使えるのはかなり遅れるかもしれません。
全然別のアプローチからの対処法
さて、ここで気になるのは、現在人工知能で主流となっているTransformerですが、これを完全に上回るような構想は存在するのでしょうか
一般人として考えられるのは、人間の脳みたいにしたらうまく出力できるんなら、もっと人間の脳みたいにすればいいじゃん、と思いつきます。
では、実際にはどのような構想があるのでしょうか。
まずはChatGPTに聞きましょう。
出力から読み取れるのは、ソフト側での改良も大事だけど、チップの構造を変える必要もあるよ。ということでしょうか。
現時点でも、ノイマン型コンピュータはニューラルネットワークのようなデータを扱うのは理にかなっていないといわれています。
これを解決するためにデータフロー型コンピュータが開発されて、理化学研究所に採用されていますが、今後はコンピュータの構造そのものを変化して、人工知能を走らせるためのコンピュータ、それ以外の人間にインタフェースとして使うコンピュータを別に使うようになるのかもしれません。
まとめ
さて、最後に少し話からズレてしまいましたが、
結論としては、現行で使われているGPT方式を単純に超大規模にするだけではAGIを達成することは難しい、というか無理。と考えられます。
ただし、Transformerはとてもよく働く仕組みであり、完全に否定されるような代替となる手法は今後長らくは現れないのではと私は思います。
Chat GPTが教えてくれたように、GPT法を改良したり、シンボリックAIのように複合することで短所を克服する、という形式がとられていくのではないでしょうか。
人間の脳を模倣することで、AIは大きく発展しました。しかし、消費電力や速度では本物の脳にはかないません。コンピュータなりの構造や手法で、AGIを達成することが最も現実的な手段ではないでしょうか。
最後に、AGIについてGPT3が出始めたころに言われたことをひとつ共有します。
それは「AGIを達成するのに、思考法や手法は問わない」ということです。人間の脳を模倣して人間を超えるのではなく、単に人間を超えればやり方とか何を考えているのか、どうしてそう考えたなどは、何でもよし、となっているのです。
AGIを達成する前に、少なくとももう一つは革新的な何かがあるのは確実そうです。