人工知能を「概念情報」プロセッサとして理解する
会話型のAIが人間と同じような自然な会話を実現できている理由は、単に自然言語を習得したり、膨大な知識を学習したということだけでは説明がつきません。
会話に含まれる様々な概念についての情報を内部に保持し、それらの概念の情報を会話の流れに沿って的確に補正した上で、それを参照しながら回答文を生成しなければ、自然な会話は成立しません。
例えば会話型AIに「東京駅から渋谷駅に行きたい。ただし電車に乗らずに。」という質問をすると、「東京駅から渋谷駅へ電車に乗らずに行くには、バスを利用する方法があります」という回答が返ってきます。
この質問を単純に検索エンジンに入力すると、電車でのアクセス方法が記載されたページや電車での乗換案内サービスのサイトが上位に出てきます。これは、検索エンジンは「電車に乗らずに」という概念を理解せず、キーワードにマッチした結果を返すためです。
会話型AIは「電車に乗らずに」と書かれた部分を概念化することで、電車による手段を回答することを避けて、別の方法を回答していることになります。
この記事では、会話型AIの概念情報を処理する機能にフォーカスし、そのメカニズムの本質を探究していこうと思います。このため、この記事では会話型AIを汎用的な概念情報プロセッサとして、通常の汎用コンピュータと対比しながら分析していきます。
この観点から分析すると、汎用的な概念処理の本質的なメカニズムは、文脈依存のパターン化された処理にあることが見えてきます。
文脈依存とは、概念の最新の状態だけでなく、入力文を処理している最中や出力文を生成している最中に内部的に生成した概念情報の途中の状態も、継続的に処理に反映することを指します。
パターン化された処理とは、処理の最中に処理自体を変化させることがないということを指します。同じルールと同じ流れで処理をする、ということです。
これは柔軟に概念を処理している会話型AIの様子から考えると、やや意外かもしれません。しかし、柔軟な概念情報処理はパターン化された処理で十分実現できます。また、むしろその方が汎用的な概念情報の処理に適しているのです。
■トランスフォーマーモデル
現在の会話型AIはトランスフォーマーモデルと呼ばれる技術に基づいて実現されています。
トランスフォーマーモデルの大きな特徴は3つあります。1つ目は、連鎖的な処理構造です。
トランスフォーマーモデルは、入力文に含まれる単語や、会話型AI自身が生成中の出力文に含まれる単語を、1つずつ処理する仕組みになっています。出力文を生成中は、1つの単語を出力すると、その出力した単語を使って次の処理を実行して、次の単語を出力するという連鎖的な処理を行う仕組みになっています。
トランスフォーマーモデルの2つ目の特徴は、処理をする1つの単語に対して、エンベディングと隠れ状態と呼ばれる大きなサイズのデータを内部に生成するという点です。
生成AIを汎用概念情報プロセッサとして捉える場合、このデータが概念情報に相当します。このデータは生成AI自身以外の外部からは、どういった意味を持つのかは理解できないデータになっています。
3つ目の大きな特徴は、1つの単語に対する処理を実行する際に、それ以前に処理済みの単語に対して内部に生成した全ての概念情報を利用して、処理中の単語に対応する概念情報を生成するという点です。
この仕組みはアテンションメカニズムと呼ばれる仕組みです。トランスフォーマーモデルについて発表された際の論文名が"Attention Is All You Need"であり、まさにアテンションメカニズムはトランスフォーマーモデルの中心的な仕組みとされています。
■変化しない概念処理の共通ルール
アテンションメカニズムやトランスフォーマーモデルの詳細なメカニズムについては、ここでは触れません。なぜなら、これらの詳細は会話型AIを実現するための技術としては重要ではありますが、この記事で探求しようとしている汎用概念情報の処理のメカニズムの本質ではないためです。
ここで重要な点は、アテンションメカニズムにより概念情報を生成する際に、既に処理済みの単語の概念情報を利用する方法です。
処理済みの単語の概念情報を利用して、処理中の単語の概念情報に対する情報の加工を行います。これを、全ての処理済みの単語に対して同様に行います。
この際に、加工処理のルールは、全ての単語に対して同じルールが適用されます。もちろん、同じルールではあっても、処理済みの単語の概念情報と処理中の単語の概念情報に依存して加工内容は異なります。
これは、通常のコンピュータで例えると、処理済みの単語の概念情報がプログラムで、処理中の単語の概念情報が加工対象のデータという位置づけになります。そして、概念情報処理の共通ルールは、このプログラムが動作するプロセッサの仕様に相当します。
それぞれの概念情報を、別の概念情報を加工するためのプログラムとして機能させることで、概念情報処理の共通ルール自体は通常のコンピュータのプロセッサと同様に固定化することができます。
これが、会話型AIが事前トレーニングして内部のニューラルネットワークのパラメータを調整した後は、それらのパラメータを固定した状態で柔軟な会話が可能になる理由です。
■通常のコンピュータとの対比
通常のコンピュータではプロセッサの仕様は人間が設計します。これに対して、汎用概念情報プロセッサとしての会話型AIの概念処理の共通ルールは、機械学習によりトレーニングプロセスを通じて決定されます。
トレーニングプロセスでは、膨大なテキストを繰り返し会話型AIに処理させて、内部のニューラルネットワークのパラメータを調整します。これは、汎用概念情報プロセッサという視点から見ると、概念処理の共通ルールを学習していると捉えることができます。
このような違いはありますが、プロセッサの仕様が動作中に変化しないという点は、通常のコンピュータと同じです。このことは、プロセッサの仕様が変化しないとしても、プログラムが高度化すれば、全体として非常に複雑で有用な処理が可能になることを示しています。
また、通常のコンピュータの場合、プログラムに含まれる個々の指示で指定されたメモリ上のデータを加工します。これに対して、会話型AIの内部では、ある単語の概念情報は、後続の単語の概念情報を全て加工対象とします。ただし、トランスフォーマーモデルのアテンションメカニズムによりその加工度合いは変化します。
こうした差異はありますが、基本的にプログラムがデータを加工するという点では共通しています。これはプロセッサの処理が基本的には情報処理であることを示しています。
■通常のコンピュータとの大きな差異
通常のコンピュータと汎用概念情報プロセッサとしての会話型AIの大きな違いは、プログラムの事前決定性です。
通常のコンピュータのプログラムは、基本的には処理の開始時点で決定されています。プログラムも情報ですので、工夫をすれば処理中に加工して変化させることも可能ですが、あまり一般的ではありません。
これに対して、会話型AIのトランスフォーマーモデルは、その仕組み上、プログラムに相当する概念情報が、処理中に生成され、加工されていきます。
まず、トランスフォーマーモデルの特徴の1つ目に挙げたように、出力された単語を連鎖的に処理する仕組みになっているため、概念情報を自ら生成していることになります。これは、処理中にプログラムを出力し、そのプログラムを動作させるということを繰り返し行っていることを意味します。
また、トランスフォーマーモデルの特徴の3つ目に挙げたアテンションメカニズムにより、既に処理済みの全ての単語の概念情報が、処理中の単語の概念情報を生成します。これはプログラムがプログラムを生成していることを意味します。
このように、処理中に動的にプログラムを生成する点と、その生成されるプログラムが他のプログラムからの影響を受けて生成されるという点が、汎用概念情報プロセッサとしての会話型AIが、通常のコンピュータの処理と大きく異なる点です。
■パターン化された処理
プログラムに相当する概念情報を生成しながら処理が進行することで、固定されたルールを適用してパターン化された処理であっても、非常に複雑な処理を実現することができます。
これは同様のモデルを最小構成で考えた場合によく分かります。
一般に、会話型AIを含むAIは、アナログ的な情報処理、機械学習、ニューラルネットワークの複雑な構造、などが特徴として挙げられます。これらは確かに通常のコンピュータの情報処理とは異なりますが、しかし、概念情報処理における本質的なポイントではありません。
たとえ扱う情報がデジタルな0と1だけの1ビットの情報であり、あらかじめ人間が決めたシンプルな共通ルールに従って処理を行ったとしても、処理済みの情報をその後の処理に対する加工指示として扱う処理構造は、非常に複雑なパターンの出力情報を生成することができるはずです。
もちろん、シンプルな共通ルールでは現実の概念情報を的確に処理することはできません。しかし、ごく小さなルールによって複雑な出力を生成することができるこの構造が、会話型AIが固定されたルールで人間のような自然な会話ができるほどの複雑な処理を実現できるキーとなっていることは明白でしょう。
また、このように汎用的な概念処理を、その処理の複雑さに比較すると十分にコンパクトな共通ルールとして抽出できることは、逆に言えば大きな応用力や適応能力を備えることができるということも示しています。
■文脈依存の処理
固定的なルールに基づく処理は、例えば、方程式で表現できる物理現象にも当てはまります。
単独あるいは2つの物体に対する運動方程式の場合、方程式に初期状態と経過時間を与えると、解析的に経過時間後の状態を求めることができます。
一方で、三体問題として知られるように、物体の数が3つ以上になると、方程式は同じものが適用されますが、式を解析的に解くことができず、シミュレーションのように時間を分割して順次処理することでしか時間経過の様子を知ることができません。
このようなシミュレーションの処理では、最新の状態とルールが与えられると、次の瞬間の状態を求めることができます。これは状態依存の処理と呼ぶことができます。
同じく固定的なルールに基づいている概念情報処理プロセッサとしての会話型AIの特徴は、最新の概念情報だけでなく既に処理を終えた概念情報にも依存して次の処理が決定される点です。処理済みの概念情報の集合は、文脈と呼ぶことができます。このため、概念情報処理プロセッサとしての会話型AIは、状態依存ではなく文脈依存の処理と呼ぶことができるでしょう。
解析的に解くことができる少数の物体同士の運動は、方程式の表現から想像できる複雑さの範疇を越えることはありません。
一方で、シミュレーションでしか解くことができない多数の物体の運動は状態依存の処理と考えることができます。これは方程式から想像することが困難なほどの複雑な振る舞いをします。場合によっては、自己組織化や創発現象と呼ばれるような、複雑さの中に秩序が現れて全く新しいルールに従っているような振る舞いを見せることもあります。
文脈依存の処理は、状態依存の処理が持つ複雑さや秩序の形成の特性を、さらに強化します。文脈が処理を複雑にすると共に、文脈が秩序を形成する場合もあるためです。
汎用概念情報プロセッサとしての生成AIは、この文脈依存の処理の特性を生かして、人間と会話ができるほどの複雑で高度な秩序を持つ概念処理を実現していると考えられます。
■さいごに
こうした考察から、この記事の冒頭で述べたように、文脈依存のパターン化された処理が、汎用概念情報プロセッサとしての会話型AIの本質的なメカニズムであると私は考えています。
トランスフォーマーモデルは、この本質を捉えた処理構造を持っています。その上で、アテンションメカニズムを始めとする機械学習が可能な巧妙な詳細構造を持ち、かつ、膨大なパラメータサイズを持たせることで、自然な会話ができる会話型AIを実現することができました。
現在の会話型AIは、概念情報を汎用的に処理するだけでなく、様々な概念についての知識を内包しています。これは、概念処理に必要な共通ルール以外の情報も、会話型AIは学習してパラメータに含んでいることを意味します。
一方で、会話型AIは学習していない知識でも入力文に与えると、その知識を利用することができる能力を持っています。つまり、一部の概念に対する知識を外部から与える仕組みがあれば、会話型AIの内部からは忘却しても問題ないことになります。
汎用概念情報プロセッサとして捉えた場合に必要最小限な情報は、生成AIが記憶している膨大な知識に比べると、非常に小さなものである可能性があります。このため、概念処理に必要な共通ルールを内包した生成AIから、余分な知識を忘却させてパラメータを調整していけば、共通ルール部分だけ収めた小さなサイズのパラメータに集約することができる可能性があります。
共通ルールは変化させる必要がないため、このような小さなサイズのパラメータに一度集約できれば、それをハードウェアチップにして処理効率とエネルギー効率を向上させることができるようになるでしょう。その場合、多くの概念についての知識を記憶しておくための別の仕組みが必要になります。
このため、今後の会話型AIの研究の方向性は、汎用概念処理に十分なパラメータを特定することと、これまで生成AIのトランスフォーマーモデルの内部パラメータに記憶されていたような知識を保存し、概念処理中に適切に利用できるような概念情報メモリ技術の開発にシフトしていくのではないかと考えられます。