AIは知的ではない（ハーバード大学、コーネル大学、MIT）

2024年11月18日 04:16

9,265 文字

コミュニティの皆さん、こんにちは。ハーバード大学とコーネル大学による人工知能に関する新しい研究の知見をご紹介します。人工知能は非常に重要なテーマです。Business Insiderの最新記事によると、ゴールドマンは今後数年間でテクノロジー企業がAI開発に1兆ドル以上を投資すると予測しています。マイクロソフトは最大の投資企業の一つで、直近の四半期で設備投資が過去最高の200億ドルに達しました。
このように、AIに関連するあらゆる分野への影響は極めて大きいものとなっています。新しい研究を見てみましょう。タイトルは少し分かりにくいのですが、「生成モデルに内在する世界モデルの評価」というものです。これを分かりやすく言い換えると、「LLMは本当にタスクを理解しているのか」ということです。
皆さんは「もちろんです。LLMはあらゆるテストで非常に高い次のトークン予測精度を達成していますから」と言うかもしれません。はい、LLMは確かにすごいのですが、ここでの問いはちょっと違います。研究者たちは「LLMモデルは暗黙のうちに世界モデルを学習しているのか」と問いかけています。
考えてみましょう。ここで私たちが議論しているのは、知能の創発についてです。まず問うべきは、この知能の創発は実在するのかということです。私はChatGPT-4 Omniに「AIシステムにおける知能の創発とは何か」と尋ねてみました。
システムは「人間が特定のタスクを与えた時に、複雑な行動、問題解決能力、概念的な理解が自然と現れる現象を指します」と答え、さらに「人間が結果を見て『これは本物なのか』と問うのです」と続けました。
Omniは「私たちにはこれを裏付ける証拠があり、ベンチマークを見ると、LLMモデルは人間の期待を上回る性能を示しており、これは単なる記憶効果ではなく、実際の能力を示唆しています」と述べています。しかし同時に、論争についても言及し、「批評家たちは、意識や意図を持たないモデルをこのような現象を『知能』と呼ぶことは、モデルを擬人化することになると指摘しています」と説明しています。
私がYouTubeチャンネルで「このLLMが好きだ」とか「Geminiモデルが好きだ」と言う時、あるいはこれらのモデルをほとんど擬人化して、まるで人間と会話するように扱う時、Omniは「知能の錯覚は可能です」と指摘します。
いくつかの創発的な振る舞いは、トレーニングデータの巧妙な補間の結果かもしれません。また、創発的な能力は、公開されていない特定のデータセットやトレーニング手法に大きく依存している可能性があり、これらの一般性について疑問を投げかけています。つまり、これらはトレーニングデータに含まれていた可能性がありますが、トレーニングデータが公開されていないため確認できないのです。
したがって、AIシステム自身が「LLMは人間の期待を上回る性能を示しており、これは単なる記憶効果ではないことを示唆していますが、特定のトレーニングデータや手法が公開されていないため...」と説明しているわけです。そこで研究者たちは別のアイデアを提案しました。
LLMは本当にその重み構造、つまりトランスフォーマーアーキテクチャの中に固有の表現を持っているのか、世界モデルを学習しているのかということです。世界モデルとは何かと疑問に思うかもしれませんが、これは単純に人間の世界のモデルのことです。
つまり、人間の言語が記述する複合的なオブジェクトについて、LLMが持つ内部表現のことです。私たちには大規模言語モデルがあるので、単純なアイデアとして、この説を検証してみましょう。必要なのは、人間の言語を数学的・論理的な原則に基づいて再構築し、人間の言語で与えられた文を検証するための演算を実行することです。
世界モデルの最も簡単な形式の例として、道路と交差点をマッピングし、単純な検索アルゴリズムを使って運転時の正しい方向を提供することが挙げられます。この場合、世界モデルは道路地図という最も単純なアイデアです。
言語モデルは異なります。言語モデルは、都市内での走行における曲がり角ごとの順序をトレーニングデータセットとして収集し、それらの順序についてシーケンスモデルを学習します。
これを示すために、出発点と到着点があり、左折して次の交差点で右折し、そのまま進んで左折するという具合です。このデータでシーケンスモデルを学習させます。これが私たちのAIシステム、大規模言語モデルあるいはビジョン言語モデルの世界モデルとなります。
言語モデルは全く異なるものです。シーケンスモデルが道路モデルを正しく再現できれば、実際にマッピングすることなく特定の都市の地図が得られ、次の曲がり角を予測する単純な経路探索アルゴリズムを持つことができます。
これが単純化されすぎていると思うかもしれませんが、これは現在、LLMがタンパク質生成、遺伝子研究、化学、そして医療、金融、その他の領域で実際に使用されている方法そのものです。したがって、これは実世界での応用例における性能に直接的な影響を持っています。
このアイデアを検証してみましょう。ここでチョムスキーを使用します。1950年代に、彼は形式言語と自然言語の抽象的な表現を考案しました。これはチョムスキー階層として知られ、形式言語理論、コンピュータサイエンス、言語学の分野における形式文法のクラスの包含階層です。
形式文法は、言語の語彙やアルファベットから、その言語の構文に従って有効な文字列をどのように形成するかを記述します。ここでは言語学的な研究を用います。大規模言語モデルについて話しているためです。
チョムスキー階層のタイプ3文法を使用します。これは正規言語を生成するためです。情報科学やコンピュータサイエンスでは、オートマトン理論が形式言語理論と密接に関連していることをご存知でしょう。例えばチョムスキーのように。
そこで、言語モデルについて話しているので、形式言語理論の知見を使用し、オートマトン理論との直接的なつながりが常に証明されていることを理解した上で、情報科学において数十年の研究で得られた知見を活用します。
オートマトンは、無限である可能性のある形式言語の有限表現として使用されます。コンピュータサイエンスにおけるオートマトンは、認識できる形式言語のクラスによって分類されることが多いです。
中核には単純な組み合わせ論理があり、より複雑なものとして有限状態機械、プッシュダウンオートマトン、そして最も高度なものとしてチューリングマシンがあります。有限個の状態を持つオートマトンは、有限オートマトンまたは有限状態機械と呼ばれ、これが私たちが使用する道具となります。
単純な組み合わせ論理ではなく、次に単純な有限状態機械を使用します。例を挙げてみましょう。例は常に理解の助けになります。
自動販売機を想像してください。自動販売機には非常に少ない状態しかありません。機械が準備完了状態で、お金を入れるのを待っています。次の状態は、次の操作に必要な十分なお金を受け取った状態です。つまり、自動販売機から何かを買うのに十分なお金を入れた状態です。そして第三の状態は、選択したスナックを提供している状態です。
これはDFA（決定性有限オートマトン）です。コインを入れたりボタンを押したりといった入力アクションを実行でき、現在の状態と入力関数に応じて、機械は新しい状態に遷移します。例えば、準備完了状態でコインを入れると、十分なお金がある状態に移行する可能性があります。
準備完了状態でボタンを押しても、十分なお金という基準が満たされていないため、何も起こらず準備完了状態のままです。しかし、十分なお金がある状態でボタンを押すと、機械は提供状態に移行してスナックを提供します。
これが私たちが構築できる最も単純な構造であり、これは非常に単純な例です。この自動販売機の例は、単純なDFAを示しています。固定された状態の集合があり、指定された入力と、入力のみに基づく状態間の遷移ルールがあります。
これは決定的です。なぜなら、ある状態と入力が与えられると、可能な次の状態は一つしかないからです。また、状態の数が限られているため有限です。つまり、世界（これは数学、科学的領域、または論理的推論の世界で定義しなければならない用語です）は、情報科学やコンピュータサイエンスの決定性有限オートマトンとしてモデル化できます。
オートマトンは入力記号を見ると、定義された遷移関数に従って遷移します。この関数は前の状態と現在の入力記号を引数として取ります。引数を持つ遷移関数があり、遷移が発生します。
純粋な数学的定義では、DFAは5つの要素からなります。有限の状態集合から始まり、有限の入力記号集合があり、状態と入力記号を次の状態にマッピングする遷移関数、初期状態、そして受理状態の集合があります。
これらは理論的な機械であり、私たちは今、計算自体をモデル化するためにコンピュータサイエンスを使用しています。これが、私たちのLLMが本当にタスクを理解しているかどうかを探求するために使用する道具となります。
ハーバード、MIT、コーネルの研究者たちは、生成シーケンスモデルと、決定性有限オートマトンで表現される世界モデルとの間のインターフェースとなる新しいフレームワークを構築するという新しいアイデアを持っていました。LLMとオートマトンの両方が、トークン、シーケンス、言語という共通の基盤の上に構築されているのは当然です。両者は同じ言語基盤を持っていなければなりません。
そして一つの条件があります。LLMの学習とテストに使用される基礎真実のシーケンスは、決定性有限状態オートマトンの言語に属していなければなりません。そうでなければ意味がありません。
これで、DFAを使って私たちの世界を構築できるようになり、LLMも持っています。LLMは完璧な次のトークン予測メカニズム、美しいセルフアテンション層を持っています。全てが揃っています。
では、私たちの大規模言語モデルが人間の世界の正しい内部表現を持っているかどうかを調べてみましょう。推論、化学や生化学における新しい分子の構築、金融取引、取引のリスク評価、単純なゲームプレイ、あるいはロジックなど、どのような応用でも構いません。
なぜここでより低レベルのチョムスキー文法を使用せず、レベル0やチューリングマシンを使用しないのかと疑問に思うかもしれません。私たちは単純な例を求めています。DFAは状態と遷移について明確な概念を持つ、よく理解された計算モデルのクラスを表現しています。
単純であることが重要です。ミスを減らすために単純にしたいのです。チューリングマシンは全く単純ではありません。トランスフォーマーがモデル化しようとしている基礎となる世界がDFAとして表現されると仮定することで、トランスフォーマーの内部表現を分析するためにオートマトン理論の理論的ツールを活用できます。
これに注目してください。オートマトン理論、情報科学、コンピュータサイエンスから知っているすべてを活用して、トランスフォーマーがそのテンソルのネットワークに持つトランスフォーマー表現を分析できるのです。
そして、美しいことが起こります。LLMが本当に状態、遷移、シーケンス生成を支配する論理を理解することを学んだのか、それとも事前学習データのシーケンスを表面的に模倣しているだけなのかを測定できるのです。
私たちは新しいフレームワークを構築しました。言語、意味論的言語、正規言語などについて知っていることと、情報科学とコンピュータサイエンスからの知見を組み合わせた美しいアイデアです。
これらのツールを適用するために、情報科学とコンピュータサイエンスについて少し知っておく必要があります。しかし、これを学んだことがあれば問題ありません。教科書に戻ってみてください。マイヒル・ネロッド定理があり、これはDFAの状態を受理するシーケンスの観点から正確に特徴付ける方法を提供します。
非常に簡単な非科学的な説明をすると、2つの状態は、一方の状態では受理されるが他方では受理されない将来のシーケンスが存在する場合に限り、異なると言えます。自動販売機の例に戻ると、「準備完了」状態と「十分なお金がある」状態は異なります。なぜなら、「十分なお金がある」状態でボタンを押すとスナックが出てきますが、「準備完了」状態でコインを入れずにボタンを押してもスナックは出てこないからです。単純ですよね。
この新しいプレプリントの研究者たちは、マイヒル・ネロッドの知見を2つの新しい評価指標の基礎として使用しています。なぜこれが必要なのでしょうか？
LLMは次のトークンを予測することに優れていることは知っていますが、シーケンスを予測することは、そのシーケンスの背後にある構造、それらのシーケンスが生成される論理を理解することとは異なります。
そこで、論文に記載されている少しの数学を使って、彼らは2つの新しい評価指標システムを考案しました。最初のものはシーケンス区別指標、2つ目はシーケンス圧縮指標です。例を挙げてみましょう。
シーケンス区別について想像してみてください。高速道路や市街地の2つの異なる交差点にいる場合、LLMは次の曲がり角の異なる選択肢セットを理解しています。ある交差点では右折が許可されており、別の交差点では右折が許可されていないかもしれません。
シーケンス圧縮には多くの数学が関係していますが、単純な例で考えてみましょう。異なる運転ルートを経て同じ交差点に到着した場合、モデルがその後の可能な曲がり角の選択肢セットが同じであることを理解しているかをテストするようなものです。
なぜなら、実際に同じ交差点に立っているからです。到着するまでの経路が異なるだけです。したがって、AIやLLMは、異なるルートから来た両方の車が、右折、左折、直進など、同じ可能な次の曲がり角の選択肢セットを持っていることを理解できるはずです。
非常にシンプルな評価指標システムですが、非常に強力です。なぜなら、これから起こることは不可能だと思われていたことだからです。
この研究プレプリントの研究者たちは、DFAを真の世界モデルとして使用し、ニューヨークのタクシーデータを使用しています。DFAは単純に道路地図を表現しており、状態は交差点と目的地のペアであり、状態間の遷移は交差点間の有効な移動を表しています。
トランスフォーマーモデルは、出発地、目的地、それまでの方向が与えられた時に、シーケンスにおける次の方向を予測するように学習されます。そして、学習されたトランスフォーマーと同じデータを使用して、トランスフォーマーの内部表現、つまり数千回ものタクシー乗車の命令からトランスフォーマーが理解したことを見てみると、これがマンハッタンの道路地図の現実世界についてトランスフォーマーが持つ内部表現なのです。
2つのポイントがあります。タクシーに乗ってここからここまで行く場合、学習データが豊富な場所では問題ありません。タクシーはこのルートを長い間走り続けてきました。学習データが豊富な場所では、パフォーマンスは完璧で素晴らしいものです。全ての学習データが知られています。
しかし、学習データがない場所や、十分な学習データがない場所、あるいは既知の乗車例の特異なパターンがある場所に行きたい場合、そこにはどう行けばいいのか、どう通過すればいいのかを理解する知能の突然の創発は起こりません。ここに見えるのは、シーケンス対シーケンスモデルでLLMが遭遇した事前学習データセットの表現です。
これは何を意味するのでしょうか？私たちのLLM、生成モデル、ビジョン言語モデルなどは、基礎となる論理、構造、複雑さを真に理解することなく、振る舞いを模倣することに驚くほど長けているということです。
私たちのLLMは完璧な振る舞い模倣システムなのです。この新しい評価指標について考えてみてください。これまでは次のトークンを予測する指標による評価しかありませんでした。
車の例で考えてみましょう。直線を走れるか、直線で加速できるかを評価していたのです。そして今、モデルを調査して「車はカーブを描けるか、右折できるか、左折できるか」を知りたいとします。直線から逸れて左折できるかどうかを評価する新しい指標が必要です。
評価指標についての非常に簡単な説明ですが、モデルが何を予測するか（次のトークン）だけでなく、何を知っているのかを評価すべきなのです。マイヒル・ネロッド定理は、新しい評価指標でLLMの知識を探るための強力な「新しい」フレームワークを提供します。
主な発見は、私たちが日常的に3年以上使用しているLLMは、基礎となる構造、世界モデル、論理を本当に理解することなく、高い次のトークン予測精度を達成できるということです。
これは、新しいタクシーマイルが既知のパターン、既知の学習データに従う限り、ルートを効果的に計画できたことからも分かります。しかし、その暗示的な道路地図は一貫性がなく、特にタクシーに「迂回して、標準ルートではなく、この左の通りを使うように」と指示されると、システムはほぼ破綻してしまいます。
「でも、解決策があります。グラフを使えばいいのです」と言うかもしれません。驚くべきことに、これは研究者たちが実際に行ったことです。タクシーベースの世界モデルとして、重み付きグラフは交差点と道路のシステムに対応しています。
グラフでは、Vは交差点の集合、Eは道路の集合、そして各道路の距離を含む重み関数とHラベルがあります。最終的に4,580のノード（交差点）と9,846のエッジがあります。道路は同じままです。結果も同じです。
はい、私も皆さんと同じように考えています。LLMのための知的ツールとして、少なくとも7つの追加のアイデアがあります。論証の検証のための他の方法もあります。しかし、これらはすべて、LLMに特定の事前定義された方法で振る舞うように強制するためのものです。
しかし、これは研究の主題ではありません。私はAIがパターンに従えることを知っていました。私が興味を持っていたのは、AIシステムは知的なのかということです。結果として、IMモデル、私のLLMは推論を理解せず、実世界の構造を理解せず、実時間の複雑性を理解しません。つまり、世界の正しい内部表現をまだ持っていないのです。
したがって、AIにおける創発について、私は大きな疑問符を抱いています。私たちは汎用知能から始まり、超知能に進み、そして最近では、数十万のいいねと視聴回数を記録したYouTube動画でAIの超超知能について読みました。しかし、この動画を見ると、現実はハイプとは異なるかもしれません。
しかし、別の問題に移りましょう。私はこれを動画に含めたいと本当に思います。なぜなら、私たちは今、ある問題に直面しているからです。Business Insiderによってスポンサーされたものではありませんが、興味深いと感じたある記事から始めました。
タイトルの理由ではなく、「マイクロソフトのCopilotとの苦闘」という内容に注目しました。他の選択肢もありますが、私はいつも、マイクロソフトの研究者たちがユーザーの期待に応えられるAIシステムをプログラムできなかったのではなく、おそらくAIシステムには単純な固有の制限があるのだと考えています。
この動画で示したように、この出版物からIT責任者たちがAIの実装をどのように見ているかを見てみましょう。名前や詳細は問題ではありません。これは一般的な声明です。これは2024年10月の132人のIT責任者を対象とした調査の結果です。Business Insiderに感謝します。より詳しい情報はそちらをご覧ください。
簡単な情報だけお伝えします。従業員が日常業務への統合に苦労している（72%）、エンゲージメントが急速に低下している（57%）、セキュリティ上の懸念による展開の遅延（40%）、いくつかの利点はあるが期待に応えそうにない（34%）、組織に大きな価値を提供している（3%）という結果でした。
これは人間である私たち顧客が持つ期待と関連していると思います。もちろん、マイクロソフトが製品を売るために生み出すマーケティングのハイプもありますが、マーケティングの発表によって生まれる期待は、実際の研究に基づいていないものだと思います。
このセクターの132人のIT責任者のうち、わずか3%しか新しいAIが会社や組織に大きな価値を提供していると主張していないことを見ると、この会社、というよりAIセクター全体が直面している問題が分かります。
市場には独自のダイナミクスがあり、何が起こっても起こるでしょう。マイクロソフトは完全にAIに焦点を当てて戦略を展開しています。FacebookやMetaのメタバースについて考えると、「私たちは何を学んだのか」と疑問に思うかもしれません。
しかし、事前学習データからの事前定義されたパターンと、現在組み込まれている事前学習された解決策を持つAIは、おそらく十分なのかもしれません。結局のところ、私たちはAIが素晴らしいツールであり、新しい可能性を提供することを理解したのかもしれません。
しかし、ハイプやマーケティング、そして超超知能に関するすべての動画や出版物は、おそらく私たちの期待とマーケティングのスローガンを見直す必要があり、AIとは何かについて理解を深める必要があるのかもしれません。
AIは素晴らしいツールです。NEIは制限付きの素晴らしいツールです。また、論証、因果推論、論理分析の事前定義された道筋においても素晴らしいものです。適切な事前学習データセットがあれば、AIはこれらの事前学習された解決策を学習できます。
最高クラスで、おそらく上位1%の企業にしか利用できなかったこれらの事前学習された解決策が、今やAIによって地球上の残りの99%の企業にも普及することができれば、これは極めて成功的な拡散プロセスと言えるでしょう。
最新のAI研究は、AIの限界について明確に教えてくれており、AIを超超知能として期待すべきではないことを示しています。AIは制限のある素晴らしいツールであり、その制限を理解すれば、このツールを素晴らしい方法で使用できるのです。
この動画を楽しんでいただけたなら幸いです。情報提供になり、新しい洞察を提供できていれば嬉しいです。次の動画でお会いできることを楽しみにしています。

AIは知的ではない（ハーバード大学、コーネル大学、MIT）

いいなと思ったら応援しよう！