DeepMindが万能型AIモデルGatoを発表。汎用AIへの道筋は見えたのか!?
5月12日、Google傘下のDeepMindが新しい万能型人工知能モデルのGatoを発表しました。
【参考】A Generalist Agent(英語論文)
Gatoは、1つの人工知能モデルだけで、ビデオゲームをプレイしたり、画像にキャプションを付けたり、チャットをしたり、ブロックを積み上げるロボットアームを制御したりすることができ、全部で604種類のタスクを実行する能力を持っています。
1.Gatoの仕組み
Gatoは、自然言語処理の分野で優れた性能を発揮しているBERTやGPT-3などの人工知能モデルと同じように、Transformerモデルを採用しています。
Transformerモデルは、それまで主流だった畳み込みニューラルネットワーク(CNN)や再帰型ニューラルネットワーク(RNN)と異なり、入力データのどの部分に注意を向けるべきかを動的に指示する仕組みのAttention機構だけでエンコーダとデコーダを結んだニューラルネットワークです。
Gatoでは、チャットの文字列やブロックを積み上げる際のロボットアームの動きなどの異なるタスクのデータが単語や運動ベクトルなどの最小の単位(トークン)に分割され、学習段階で、これらのトークンが区別されずにTransformerのニューラルネットワークで処理されて、目標となるテキストやアクションなどの予測が行われます。
Gatoのチャットでの対話能力は、専用の人工知能プログラムと比べて大したものではなく、ビデオゲームをプレイする機能も、ほとんどの専用プログラムより劣っています。
しかし、Gatoの開発は汎用性が高い人工知能プログラムを作ることを目的としており、今後、コンピューティングパワーを増やせば、短所は補えると開発者は考えているようです。
2.DeepMindによる汎用的なAIの開発
DeepMindは、2016年に韓国の李セドル棋士を破った囲碁AIソフトのAlphaGoを開発したことで有名な、Google傘下の人工知能研究開発部門で、これまでも複数のタスクを実行できる人工知能を開発してきました。
例えば、同社が2017年に発表したAlphaZeroは、囲碁とチェスと将棋の3種類のゲームをプレイすることができました。
ただし、AlphaZeroは一度に1つのタスクしか学習できないため、最初に囲碁を学習しても、次にチェスを学習する前にすべてを忘れてしまう必要がありました。
これに対し、Gatoは、以前に学習した結果を消さずに、複数の異なるタスクを同時に学習することができるというのが特徴です。
また、DeepMindは、テキストと画像と動画を同時に組み合わせて理解できる人工知能モデルのFlamingoを今年4月に発表しています。
Flamingoは、タスクの例を数例、追加学習するだけで、新しいタスクを実行することができます。
例えば、動物の画像と、その動物の名前及び生息場所を説明する文章の組合せを数例学習させて、フラミンゴの画像を見せると、「これはフラミンゴです。カリブ海地域や南アメリカで見かけられます。」というような文章を出力することができます。
3.Gatoに対する評価と議論
Gatoの論文共著者であるナンド・デ・フレイタス氏は、「Gatoの開発によって、汎用AIへの明確な道筋ができた。」と発言しましたが、一部の研究者や記事は、これを誇大広告だと批判しています。
Gatoの能力は、人間のように、これまで経験したことのない新しいタスクに対応できる汎用AIの能力には程遠く、これを実現するためには、世界の仕組みに関する「常識」などを学ぶ必要があるというのが批判の理由です。
これに対し、フレイタス氏は、「汎用AIを構築する方法は主に規模の問題であり、Gatoのようなモデルをより大きく、高性能なものにすることで解決できる。」と反論しています。
4.汎用AI実現へのアプローチ
人工知能には、事前に学習した内容を基に、与えられた課題を解決することを目的とした特化型AI(狭いAI)と、人間と同じように、新しい課題に対応して様々な判断や行動を行うことができる汎用AI(広いAI)があります。
そして、人工知能は現在急速に進化していますが、未だ特化型AIの領域に留まり、人間のように考えることができる汎用AIは実現できていません。
現在の人工知能が人間のような知能を持つことができない理由として、人工知能が意味を理解できていないことがよく挙げられます。
例えば、人工知能が画像認識で「りんご」を認識することができても、これは、りんごの画像を統計処理して結果を出力しているだけで、「りんご」がどういうものかを人工知能が理解している訳ではありません。
また、人間とチャットで会話する人工知能も、相手の言葉の意味を理解して回答しているのではなく、膨大な会話のデータベースからどういう言葉を返す場合が多いかを検索し、統計的に解析して、関連しそうな回答を返しているに過ぎません。
人工知能に意味を理解させるアプローチの一つに、世界の仕組みに関する幅広い一般常識を整理して、人工知能に取り込むという方法があります。
こうした観点から、意味ネットワークやオントロジーなどの知識を体系化する方法論に関する研究やすべての一般常識をデータベース化しようとするCycプロジェクトなどの試みが1980年頃から盛んに行われてきましたが、未だ大きな成果を上げるには至っていません。
また、人工知能が人間と同じように臨機応変に様々な課題に対応するためには、人間のような「意識」を備えていることが必要だという意見もあります。
人工知能に意識を持たせることを目指した研究開発も始まっていますが、脳の中で意識が発生する原理が分かっていないことなどから、人工意識の開発には、まだまだ時間がかかりそうです。
5.DeepMindのアプローチ
DeepMindは会社設立当初から汎用AIの開発を目標としており、複数のタスクに1つの人工知能モデルで対応できるようにするというアプローチで汎用AIの実現を目指してきました。
DeepMindのアプローチでは、1つの人工知能モデルで対応できるタスクを増やしていくことで、様々な課題に対応するために必要な一般常識、ノウハウ、暗黙知などを人工知能が自然と身に付けていくことが期待されています。
また、新しいタスクが追加されても、必ず似たような対応済みのタスクが見つかるように、対応可能タスクが網羅されていけば、過去のタスクを参考にしたり、複数のタスクを組み合わせたりして、新しいタスクに適切に対応できる可能性も増えてくるでしょう。
これまでもDeepMindは、人々の予想を上回る開発成果を見せてきました。
DeepMindの開発した人工知能DQNは、ブロック崩しゲームをプレイする中で、人間が教えていない新しい技を自ら発見し、AlphaGoは、それまでの囲碁の常識では無かった新手を放って、見守っていた人々を驚愕させました。
それはまるで、人工知能自体が自ら思考しているように感じられました。
一方で、現実世界で出会うタスクは複雑で、理解しておかなければならない知識も膨大です。
例えば、部屋の掃除をするというタスクでは、部屋の形や家具の配置を認識し、掃除道具の種類や保管場所、それぞれの道具の使い方を理解し、取り除かなければならないゴミと捨ててはいけない必要な物とをきちんと区別できなくてはなりません。
他者と応対する必要があるような、相手がいるタスクだと、さらに複雑になります。
現在のGatoには、まったく新しい課題に対応するための知識も欠けており、自律的に対応済みタスクを参考にして新しいタスクに対応する能力もありませんが、対応できるタスクを増やしていけば、いずれ新しいタスクにも対応できるようになるのでしょうか。
それとも、新しいタスクに対応できるようにするためには、やはり、規模の問題だけではなく、「意識」のような他の要素が必要になるのでしょうか。
皆さんは、どのように考えますか?