進化したAI「Google Pathways」とは!?


進化したAI「Google Pathways」とは!?

2022.04.25
AI, Google
投稿者: 投稿マスター
FacebookTwitterEmail
この記事では、Google PathwaysというGoogle社が発表した新しいAIについて解説します。
多くの人がスマートフォンやタブレット、PCに触れる機会があるとは思いますが、AIはすでにそれらを使う上で欠かせない技術となっています。
そのAI技術に大きな変革をもたらそうとしているのが、このGoogle Pathwaysです。
この記事を読むと以下の3つのことがわかります
①AI、機械学習とは
②Google Pathwaysと従来のAIの違い
③Google Pathwaysによってできること


Google Pathwaysとは、進化したAI?

GoogleのAI部門の責任者であるJeff Dean氏は、Google Pathways(以下Pathwaysと表記)とは「次世代のAIアーキテクチャ」であり、「1つのモデルで数千、または数百万ものことをするよう訓練できる」と表現しています。(※1)
今までのAIの機械学習では、入力された情報に対して一つの感覚によってしか理解ができませんでした。しかしこのPathwaysでは、入力された情報に対して複数の感覚によって理解ができるようになりました。


そもそもAI、機械学習とは?

ここで簡単に、AIと機械学習について説明したいと思います。
AIとはArtificial Intelligenceの略で、日本語では人工知能と呼びます。「人間の知的な振る舞いをコンピュータ上で再現する技術」と説明されるものです。
そして機械学習とは、「人間が持つ学習能力をコンピュータ上に再現する技術」と説明されます。学習用のデータを与えることで、コンピュータ自身が意思決定や予測を行えるようになります。
身近な例としては、SNSで自分向けのおすすめの投稿が表示されたり、検索ボックスに間違った言葉を入力しても正しい候補を表示してくれる機能(図1)などがあります。
これは、今までの閲覧履歴、入力履歴を読み取って(機械学習)、ユーザーが必要としている情報を予測・提案する(AIが知的に振る舞う)ことで可能となった技術です。
図1 Google Document での誤字の修正案の例


従来のAIについて

この機械学習の方法、過程に、従来のAIとPathwaysの大きな違いがあります。
従来のAIでは、与えられた学習データに対して、単一の感覚でしか理解ができませんでした。(※3)
例えば、「今、目の前の道を車が走っている」という事象があるとします。目に見える車という物体が動いていて、エンジン音を出していたとします。
AIはこの事象を、カメラで読み込めば画像として認識します。また、マイクを使って音としても認識できます。
しかし、従来のAIはこのようにして事象を画像や音といった感覚で理解できても、その二つは全く別のものとして処理されていました。正確には、画像を理解するAIと、音を理解するAIが別々になっていました。一つのAIでは、同時に両方の感覚で読み込み、一つの「概念」として認識できなかったのです。
人間であれば、その事象をみて「今、目の前の道を車が走っている」という概念を目と耳、そして自分の知識を通して理解できますが、従来のAIにとっては「車の画像」「車の音」という全く別のデータが存在するだけだったのです。
よって一つの事象を概念としてAIが認識することには限界があり、それも膨大な量のデータと時間が必要でした。その点が、AIの機能的な限界だとも言われていました。
しかし、これに大きな変革をもたらそうとしているのがGoogle Pathwaysです。


従来のAIとGoogle Pathwaysの違い

先ほど、従来のAIでは単一の感覚でしかデータを理解ができないという説明をしましたが、Pathwaysはこの点を克服しています。
つまり、与えられた学習データに対して複数の感覚で理解ができ、概念を認識することが出来ます。
先ほどの車の例であれば、画像、音声の情報が繋がった状態でPathways内に概念が形成されます。さらには「車」という音声(自然言語)を入力しても、Pathways内で車の概念を認識することが可能です。
従来の単一の感覚のみで理解するものを「モノモーダル」(monomodal:単一形式)に対して、複数の感覚で概念を理解できるものを「マルチモーダル」(multimodal:複数形式)と呼びます。
このマルチモーダルな仕組みは、実際に人間が複数の感覚(五感)を使って世界を認識することに似ています。
Pathwaysがこのようにして複数の感覚で事象をとらえることで、人間では考えられないような間違いが無くなるなど、AIの精度の向上が期待できます。


Pathwaysによってできることは?

マルチモーダルによって事象を捉えることができるので、今までは人間にしかできなかったような判断ができる可能性があります。従来のAIでは単一の領域に対する最適解のみで、その結果を複数の領域が絡み合う現場において、実際にどう扱うかの判断を下すのは人間でした。
しかし、一つの事象を複数の感覚でとらえ、その相互関係を考慮して全体的な最適解を導くことができるPathwaysであれば、最終的な判断も任せられる可能性もあります。
それどころか、コンピュータは人間が処理できない膨大な量のデータを処理することができます。よって気象力学や化学などの分野の、人間の科学者でも難しい天文学的な数値を扱うような場面においても、最適解を導き出せる可能性があります。
また、一つのAIで複数の感覚から理解した複数の情報を統合することで、要求されるタスクに対して従来のAIよりもより効率的に対処することができるとも言われています。
先述のようにAI内に概念が形成されるため、要求されたタスクに対して必要な情報のみを、複数の感覚から得た複数種類の情報の中からそれぞれピックアップすることができます。そしてその異なる感覚由来の情報同士を結びつけることで、最短経路のタスク処理が可能となります。つまり、ある領域においては感覚Aから得た情報a、ある領域においては感覚Bから得た情報bが最も必要で、その二つを結び付けてショートカットする、といったイメージです。(図2)
これによって従来のAIよりも必要となる情報量の密度が圧倒的に少なくなり、コンピュータの電力効率や速度が上がることが期待されています。(※3)そして、精度も同時に向上すると考えられます。
図2 Google Pathwaysのタスク処理のイメージ図(※4)

Googleの万能AI「Pathways」 5400億のパラメーターを使い多様で多言語のタスクに対応


過去最高水準のベンチマーク性能

PaLMは多くのタスクを処理できるだけでなく、タスクの処理性能も高い。同社が29種類の自然言語に関するベンチマークをPaLMで試したところ、29種類中の28種類でこれまでのSOTA(State of the Art、最高水準)を上回る成績を収めたという。

Pathwaysの規模と性能

PaLMの特徴は機械学習モデルの巨大さだ。PaLMはBERTやGPT-3と同様に、自己注意機構(SA)であるTransfomer(トランスフォーマー)を多段に積み重ねるニューラルネットワーク構造を採用している。

PaLMのニューラルネットワークのパラメーター数は5400億に達し、BERTの3億4000万パラメーターやGPT-3の1750億パラメーターと比べても過去最大級の規模だ。2021年10月に米Microsoftと米NVIDIAが共同開発した「Megatron-Tuning NLG」は5300億パラメーターであるため、それよりも大きい。

同社は5400億パラメーターのPaLMモデル(PaLM 540B)だけでなく、80億パラメーターの「PaLM 8B」と620億パラメーターの「PaLM 62B」を用意し、それぞれの性能を比較した。比較の結果、性能の高い順にPaLM 540B、PaLM 62B、PaLM 8Bとなり、ニューラルネットワークの規模が大きいほど性能が向上した。

一方、タスクによってはパラメーターの数を増やしても性能があまり向上しないものもあった。具体的には、行き先案内に関する「navigate(ナビゲート)」や数学的証明手法を実世界に応用する「mathmetical_induction(数学的帰納法)」などが挙げられる。



ref


いいなと思ったら応援しよう!