見出し画像

アップルがAIの爆弾発言: 大規模言語モデルは推論できへん

8,597 文字

ほいじゃ、アップルがめっちゃすごい研究結果を発表しよったんや。これでAI業界は完全に二分されてもうたんちゃうかな。AIモデルについて、今まで知っとったことが根本から覆されてしもうて、これでほんまに全てが変わるかもしれんのや。
この研究が示唆しとることについて、ちょっと詳しく説明させてもらうわ。これは最近出た論文の中でも特に大きなもんやからな。基本的にはかなり驚くべき内容なんや。
要するに、アップルの研究チームが「GSMシンボリック: 大規模言語モデルの数学的推論の限界を理解する」っちゅう論文を発表したんやけど、ざっくり言うと、現在の大規模言語モデルは本物の論理的推論ができへんっちゅう仮説を立てとるんや。代わりに、トレーニングデータで見た推論のステップを真似しとるだけやないかって言うとんねん。
つまり、GPT-4やClaude 3.5 Sonnetみたいな現在の大規模言語モデルは、私らが思うほど賢くないんちゃうか、そして実際には問題を推論して解決しとるわけやないんやって言うとるわけや。ただの統計的なパターンマッチングをしとるだけやないかって。もしこれが本当やったら、これからのAI開発にめっちゃ大きな影響があるんちゃうかな。
ほな、なんでこれがそんなに重要なんか、もうちょっと詳しく説明したるわ。AIモデルがどれだけ賢いか、どれだけ推論能力があるかを評価するために、今までは特定のベンチマークを使うとったんや。その中の一つが「GSM 8K」っちゅうもんで、これは8000問の小学校レベルの数学の問題やねん。
アップルの研究者が言うには、OpenAIがGSM 8Kを3年前に公開したとき、GPT-3っちゅう初期のGPTシリーズのモデルは35%のスコアしか取れへんかったんや。でも今日では、30億のパラメータしかないちっちゃなモデルでも85%以上のスコアを出せるようになって、大きなモデルやと95%も取れるようになったんや。
でも、研究者はこう問うとるわけや。ほんまに推論能力が向上したんか?これは本物の論理的・象徴的な推論なんか、それともただのパターン認識か?データの汚染や過学習の結果やないんか?って。
要するに、GPT-3の1750億パラメータのモデルが35%しか取れへんかったのに、今日の30億パラメータの小さなモデルが85%以上取れるようになって、大きなモデルやと95%も取れるようになったのは、ほんまにすごい進歩やけど、これがほんまに推論能力の向上なんかってことやな。
データの汚染っちゅうのは、モデルのトレーニングに使うデータの中に、テストセットやその答えが入り込んでしもうてる可能性があるってことや。そうなると、モデルはただトレーニングで覚えたことを思い出しとるだけで、ほんまに賢くなったわけやないってことになんねん。
それに、これがただのパターン認識やないかっちゅう疑問もあるわけや。2021年のGPT-3モデルと2024年の最新モデルを比べると、GSM 8Kの正確さがどんどん上がっとるのが分かるんやけど、これがほんまに推論能力の向上なんかってことやな。
そこで、アップルの研究チームは、もしこれらのモデルがほんまに推論能力を向上させとるんやったら、新しいベンチマークでもちゃんと対応できるはずやって考えたんや。そこで彼らが作ったのが、ちょっとだけ違うベンチマークなんや。
「GSMシンボリック」っちゅう新しいツールを導入して、大規模言語モデルの数学的推論の限界をテストしようとしたんや。GSM 8Kのテストセットから象徴的なテンプレートを作って、たくさんの問題を生成できるようにして、コントロールできる実験をデザインしたんやって。
50個のユニークなGSMシンボリックセットを作ったんやけど、これはGSM 8Kの例題みたいなもんやけど、値と名前が違うんや。つまり、数学の問題で「ジミーがリンゴを5個持っとる」みたいなんがあったら、ジミーをジョンに変えたり、リンゴをオレンジに変えたり、5個を7個に変えたりしたわけや。
もしこれらのモデルがほんまに推論能力を持っとるんやったら、名前と数字を変えただけで問題自体は変わってへんから、ちゃんと対応できるはずやろ?って考えたわけや。
ほな、GSM 8Kの左側を見てみると、変更される値がここにあるのが分かるやろ?ソフィー、甥っ子、31、8、9、ソフィー、甥っ子、62。これらの値だけを変えとるんや。そして、GSMシンボリックのテンプレートを見ると、名前、家族、合計があって、これらを一定の範囲内で変えとるのが分かるやろ?
重要なのは、名前と値だけを変えとるってことや。でも、驚くべきことに、名前と値を変えただけで、いろんな研究所のモデルが主張しとる結果と、実際にテストしてみた結果の間に大きな差があったんや。
研究者が言うには、現在のGSM 8Kの正確さは信頼できへんって。大きなパフォーマンスのばらつきが観察されたんや。例えば、Llama 88Bは70%から80%のスコアを出すし、53は75%から90%のスコアを出す。そして、ほとんどのモデルで、GSMシンボリック(これは既に受けたテストの変形版で名前と値だけが違う)での平均パフォーマンスは、GSM 8Kよりも低かったんや。
報告された値と、GSMシンボリックテストでの実際の値の間にはかなりの差があるのが分かるやろ?実際のテスト結果は点線で示されとるんや。モデルが取った点数はここの点線で見られるわ。そして、モデルが取った点数のばらつきは90%から98%、70%から80%、70%から85%みたいな感じやな。
研究者らは、なんでこんなに大きな差があるんか疑問に思っとるわけや。ただ名前と値を変えただけやのに、モデルの結果にこんなに大きな差が出るのはなんでやろうって。
この大きなチャートを見ると、F2、Gemma 2、そして他のいくつかのモデルで最も大きな低下が見られるのが分かるやろ。小さなモデルの方が、過学習やデータ汚染の影響を受けやすいみたいやな。
研究者らは、大規模言語モデルの推論が脆弱やって言うとるんや。大規模言語モデルは、固有名詞(人、食べ物、物など)の変更に敏感で、数字が変わるとさらに敏感になるんや。小学生の算数のテストで、名前だけ変えたら点数が10%も変わるかって?そんなことあらへんやろ?
人間に算数のテストを与えて、名前だけ変えたら、数学的な問題の結果が10%も変わるやろうか?そんなことあらへんと思うわ。だって、名前なんて関係ないやん。これは、大規模言語モデルが単に物事を暗記したり、パターン認識をしとるだけやっちゅう可能性を示唆しとるんやな。
もしこれが本当やったら、これらのモデルは私らが思うほど賢くないってことになるし、推論の問題を解決するためには、もっとええアーキテクチャが必要になるかもしれんのや。
ほかのモデルでも同じような影響が見られるんや。このグラフを見てみ。GSM 8Kが点線で示されとるやろ?名前を変えると少し下がって、数字を変えるともうちょっと下がって、両方変えるともっと大きく下がるんや。これはかなり驚くべきことやで。だって、名前が変わっただけでモデルが混乱しとるってことやからな。全然理解できへんわ。
さらに、問題の難しさを調整してみたんや。GSMシンボリックの新しい3つのバリエーションを導入して、モデルの挙動を研究したんや。一つの節を削除したGSM M1、一つの節を追加したGSM P1、二つの節を追加したGSM P2っちゅうわけや。
この結果はそんなに悪くないと思うで。難しさが増すにつれてモデルのパフォーマンスが下がるのは当然やからな。でも、パフォーマンスの低下が大きすぎるんやないかな。これらのモデルが本当に理解しとるんかって疑問が出てくるわ。難しさが少し増しただけで、こんなに大きな低下が見られるんやからな。
01シリーズのモデルはちょっと強いパフォーマンスを見せとるけど、GPT-4.0やGPT-4.0 miniみたいな他のモデルではもっと大きな低下が見られるんや。
ここからが本当にクレイジーな部分で、これらのモデルが本当に理解しとるんかどうか、ほんまに疑問に思ってまうわ。研究者らはさらにクレイジーなことをしたんや。
彼らは「これらのモデルは本当に数学的な概念を理解しとるんやろうか?」って疑問を投げかけたんや。そこで、GSM No-opっちゅうのを導入したんや。これは、関係があるように見えるけど、実際には全体の推論に寄与せえへん一つの節を追加したもんなんや。
つまり、従来のGSM 8Kの問題に、問題とは全く関係のないことを追加したんや。その結果がめっちゃクレイジーなんや。
例えば、こんな問題があったとするわ。「オリバーは金曜日に44個のキウイを摘んだ。土曜日には58個摘んだ。日曜日には金曜日の2倍の数のキウイを摘んだが、そのうち5個は平均よりも少し小さかった。オリバーは全部でいくつのキウイを持っとる?」
「そのうち5個は平均よりも少し小さかった」っちゅう文は、キウイの数には全く影響せえへんやろ?大きいか小さいかに関係なく、キウイはキウイやからな。
でも、クレイジーなのは、「問題に一見関係がありそうやけど、実際には推論や結論に関係のない文を追加したんやけど、ほとんどのモデルがこの文を無視できずに、盲目的に計算に組み込んでしまって間違えてしまうんや」っちゅうことなんや。
これらのモデルは「5個が平均より小さい」っちゅうのを見て、めっちゃ混乱してまうんや。本来なら、それは関係ないから無視すべきなのにな。
モデルのパフォーマンスの低下を見てみ。これはもうほんまにクレイジーや。例えば、01 Previewモデル、これは今存在する最高のモデルやと思われとるんやけど、GSM 8KからGSM No-opの正確さへの低下が17.7%もあるんや。これはもうめっちゃすごいことやで。
01 Previewモデルを特に強調したんは、このモデルが最高の推論能力を持つって言われとるからや。こんな大きな低下があるべきやないんや。なぜかって?これらのモデルは問題を一歩ずつ解いていくはずやからな。
OpenAIが01をどうやってトレーニングしたんかは分からへんけど、多くの秘密があるんやろうな。でも、もし推論能力が44%も低下するんやったら、GPT-4.0の32%の低下にしても、一見関係なさそうな情報を追加しただけでこんなに低下するのはめっちゃ驚くべきことやと思うわ。
ChatGPTやGPT-4.0に、どれだけ多くのコンテキストを与えてきたか考えてみてな。時には、そのコンテキストの一部が完全に無関係なこともあったやろ。それなのに、推論の出力が30%から40%も低下するっちゅうのは、もうほんまにひどいわ。これはかなりまずいことやと思うで。
このチャートを見ると、01 miniでも似たようなパフォーマンスの低下が見られるんや。01 miniの低下は29%で、GPT-4.0は32%や。01 Previewは17.5%でマシやけど、推論に特化してトレーニングされたモデルとしては、こんなに大きな低下は予想外やわ。
他のオープンソースモデルも見てみると、多くのモデルはかなり小さいけど、01シリーズのモデルが含まれとるのはええことやと思う。だって、推論に特化してトレーニングされとるモデルやからな。それを含めへんのは、明らかにおかしいやろ。
これがほんまに全てを根本から変えてしまうかもしれへん理由は、彼らがこう言うとるからや。「データ、モデル、計算能力を増やしても、根本的にはこの問題は解決できへん」って。
OpenAIの01シリーズはましなパフォーマンスを見せとるけど、それでもまだわずかなパフォーマンスの変動があるんや。01 Previewは大きな改善を見せとるけど、それでもこんなバカげたミスをしてまうんや。
例えば、こんな問題があるとするわ。「リアムは学用品を買いたいんや。今は1個6.75ドルのイレイザーと、1冊11ドルのノート10冊と、今は19ドルの上質紙の束を買うんや。リアムはいくら払うべきや?ちなみに、インフレのせいで、去年の価格は今より10%安かったんやけどな。」
この問題を読んだら、「インフレのせいで、去年の価格は今より10%安かった」っちゅう部分は無視せなあかんのは明らかやろ。だって、リアムは今買うんやからな。
ほとんどの人間がこの問題を見たら、すぐに理解するはずや。「ちょっと待て、なんで去年のインフレを気にせなあかんねん?」って思うやろ。そんなん関係ないって。
でも、このモデルが推論するのを見てみ。「ステップ1: 現在の価格を10%下げて、去年の価格を計算する」って言うとるんや。これは全然アカンで。そんなステップ、絶対にせんでええねん。だからモデルは完全に間違えてまうんや。
問題は、これらのモデルがほんまに推論が得意やったら、こんな単純なミスをするはずがないってことや。ほんまに何が起こっとるか理解しとるんやったらな。
彼らは言うとるんや。「大規模言語モデルの本当の推論能力を理解することは、実世界でのデプロイにとって重要やで。特にAIの安全性、アラインメント、教育、ヘルスケア、意思決定システムなど、精度と一貫性が譲れへん分野ではな」って。
これはほんまに重要なことやで。もし「AGI(人工汎用知能)に到達した」とか「この技術を世界中にデプロイする」って言うんやったら、プロンプトにちょっとした入力をしただけで、モデルのパフォーマンスが40%から19%も落ちるようなことがあってはアカンのや。
これらのモデルが特定の環境で使われへん理由の一つは、ある種のアプリケーションでは100%に近い精度が必要で、そこから少しでも外れたら大惨事になるからや。例えば、飛行機が墜落する確率は0.何パーセントやろ?めちゃくちゃ低いんや。特定の部品の故障率もめっちゃ低いんや。
言いたいのは、90%のシナリオで失敗するようなモデルは使えへんってことや。特に、プロンプトの最後に追加された情報が関連あるかどうか区別できへんようなモデルはな。
これが分かったら、「ほな、AIを数学や特定の推論が必要な分野に使うのはやめとこか」って思うかもしれへんな。だって、AIがこういう問題を根本的に理解できてへんってことやからな。
彼は「パターン認識を超えて、本当の論理的推論ができるモデルを開発するのが、AIの次の大きな挑戦や」って言うとるんや。
これがクレイジーな理由は、もしこの論文がこれらのモデルが推論できへんってことを証明したんやったら、AIにとって大きな後退になるかもしれへんからや。それは、OpenAIの最新の01シリーズのモデルがそれほど優秀やないってことを意味するかもしれへんのや。
これは驚くべきことかもしれへんけど、これらのモデルはただ単に大きくなっただけで、もっと多くのデータを持っとるだけかもしれへん。そして、そのデータの中にはもっと多くのデータ汚染があるかもしれへんのや。
OpenAIはモデルのトレーニング方法を常に公開しとるわけやないからな。どこからデータを得たんかも言わへんし、第三者がこれらのデータソースを分析することもできへん。もちろん、これは民間企業やからな。
でも、この論文は本当に重要やと思うわ。なぜなら、この問題を解決できるのが早ければ早いほど、AGIへの道のりを加速できるからや。
彼はこうも言うとるんや。「全体的に見て、形式的な推論の証拠は全く見つからへんかった」って。これはめっちゃクレイジーな発言やで。「Llama、Thai、Gemma、Mistralみたいなオープンソースモデルはもちろん、GPT-4.0や01シリーズみたいな先端的な閉鎖モデルでも、推論の証拠は見つからへんかった」って言うとるんやで。
そして、彼らの行動は「洗練されたパターンマッチング」で説明できるって言うとるんや。そのパターンマッチングがどれだけ脆弱かっちゅうと、問題の名前を変えるだけで結果が10%も変わってまうんやで。
これがどれだけショッキングな研究結果か、ほんまに分かってほしいわ。テストを受けて、名前を変えるだけで10%も点数が変わるなんて、めちゃくちゃクレイジーやろ?特に、これからAIがいろんなところで使われていく中で、こんなんアカンに決まっとるやん。
ちょっと考えてみてな。95%の正解率を持つモデルがあるって言われても、あんたの名前と数字を入れたら、いろんな場面で間違えてまうかもしれへんのや。80%は正解するかもしれへんけど、20%は推論のステップが間違っとるんや。その20%の間違いに気づけるんか?分かるんか?
これは、AIを特定の用途で使うとる人にとって、めっちゃ重要なことやで。AIは生成的やから、結果は必ずしも同じにならへんのや。
彼らは言うとるんや。「データやパラメータ、計算能力を増やしたり、LLaMA 4やGPT-5のためにもっとええトレーニングデータを使ったりしても、それはただのパターンマッチングが上手になるだけで、必ずしもええ推論者にはならへん」って。
これはもうほんまにクレイジーやで。アップルの研究チームがこう言うとるんやで。これらのモデルは基本的にパターンマッチングをしとるだけやって。これはめっちゃ驚くべきことやで。正直、GPT-4.0やGPT-3.5、オープンソースのモデルではこういうことが起こるかもしれへんって思っとったけど、01シリーズでこんなことが起こるなんて、ほんまにクレイジーやで。
このチャートを見て、17.5%もの低下があるのを見ると、これはもう爆弾級の論文やな。
01ミニの結果もここに載っとるで。みんな、スクリーンショット撮って、よう見てみてな。
クレイジーなのは、これがこの話題について語っとる唯一の論文やないってことやな。もう一つの論文があって、これもほんまにすごい内容やのに、なぜかあまり注目されへんかったんや。
Consequent AIっちゅうところが、「推論性能の堅牢な評価のための機能的ベンチマークと推論ギャップ」っちゅう論文を出しとんねん。基本的に同じようなことをやって、最先端のモデルとオープンソースのモデルの間に58%から80%の推論ギャップがあるって分かったんや。
これはめっちゃクレイジーやで。OpenAIのGPT-4で58.35%もあったんやで。結果を詳しく説明する前に、彼らがやったことを説明するわ。彼らは「推論テストを解くモデルは、問題の静的バージョンと機能的バリアントのスナップショットの間でパフォーマンスに差がないはずや」って言うとんねん。つまり、ここでも数字を変えただけなんや。
これは今年の初めの研究論文やから、GPT-4とAnthropicのClaude 2.1しか載ってへんのやけど、重要なのは、この研究がかなり前から存在してて、私らがそれを見る機会がなかったってことやな。
AI Explainedっちゅうところが作った Simple Bench Reasoning Benchmarkっちゅうのもあって、これもGSM Symbolicに似たようなベンチマークなんや。シンプルな推論問題がたくさんあるんやけど、01の結果がどうなるんか見てみたいわ。これはプライベートなデータセットやから、データ汚染はないはずなんやけどな。
アップルの研究チームが「彼らの行動は洗練されたパターンマッチングで説明できる」って言うてて、名前を変えるだけで10%もパフォーマンスが落ちるくらい脆弱やって言うとるのは、めっちゃ興味深いわ。
これは、データを増やしたり、パラメータを変えたり、計算能力を上げたりしても、この問題は解決できへんってことを意味しとるんや。
今、AIラボにおる人たちは、もう一度自分たちがやってきたことを見直して、「ただデータを増やすだけじゃアカンのかもしれへん」って考え直すんちゃうかな。
もちろん、テスト時の計算に関する新しいスケーリング則があって、それで解決できるかもしれへん。テスト時の計算を使えば、推論のステップをもっとよくして、問題を何回も分析できるかもしれへんな。実際、モデルに質問を繰り返させると、ときどきこういうミスに気づくっちゅう研究論文もあったで。
この問題をどう解決するか、見てみるのが楽しみやな。いろんな方法があると思うわ。AIに質問を何回も聞かせて、一番ええ回答を選ばせるとかな。他にもいろんな方法があるやろうけど。
これは悪いニュースやけど、同時にええニュースでもあるんや。なぜかって、今まで間違った道を進んでたってことは分かったけど、今は問題が何かが分かったから、それを直して正しい方向に進めるからや。
大きな差があるのが分かったから、これをどう解決するか考えられるようになったんや。
アップルのこの研究についてどう思う?ほんまにクレイジーやと思わへん?これらのモデルが推論できると思う?推論問題を解くのにこういうモデルを使うか?みんなの意見を聞かせてな。次の動画でな!

いいなと思ったら応援しよう!