見出し画像

OpenAIのスーパーAI:2024年最大の嘘?

7,920 文字

こんにちは。先週、OpenAIは人工知能の分野で巨大な一歩を踏み出し、スーパーインテリジェンスに近づいたと主張しましたが、ある気になる出来事がすべてを覆してしまいました。あるエンジニアが漏らした一言、それを即座に遮ったサム・アルトマン。そしてTwitterは突如炎上。今年の人工知能分野における最大のブレークスルーは、結局のところ幻想だったのでしょうか。その後の展開は科学界を二分し、また私の動画のコメント欄でも意見が分かれることになりました。
今日の動画では、ネット上で話題となっているこの論争の背後に何が隠されているのかを明らかにしていきます。非常に興味深い内容になっていますよ。
ご存知の通り、先週は人工知能の分野で記念碑的な週でした。多くの人々が、OpenAIがAGI(超知能)、つまり人類全体の知能を凌駕する人工知能にほぼ到達したのではないかと推測していました。実際、OpenAIの社員も同様の主張をしていました。
先週、私はOpenAIによる革新的なモデルO3の重大発表を取り上げた動画を制作しましたが、その動画の反響は少々混乱気味でした。そして最近、このAGIベンチマークのデモンストレーションが私たちが思っているものとは違うのではないかという非常に興味深い議論がTwitter上で展開されました。
では、実際に何が起こったのか説明させてください。まず、OpenAIがARC AGIと呼ばれる人工知能テストで驚異的な結果を発表しました。すると、あるユーザーが「これは2023年3月のGPT-4を思い出させる。どうやって突然そんなに進歩したんだ?」とコメントしました。
そこから事態は非常に興味深い展開を見せます。ニール・ROGという別のユーザーが皮肉を込めて「簡単さ、彼らはただ訓練データの75%を使っただけだよ」と笑い顔の絵文字付きで返信したのです。
これは具体的に何を意味するのでしょうか?基本的に、OpenAIはこのARC AGIテストの公開データの大部分をモデルの訓練に使用したということです。一見怪しく聞こえるかもしれませんが、続きを聞いてください。本当に興味深い展開があります。
テストの作成者自身が介入して「実は、これはまさにそうあるべき仕組みなんです。この訓練データは使用されることを前提に作られています。本当のテストは最終評価で、それは完全に異なり、はるかに難しいものです」と説明しました。
では、このすべての論争や議論は結局のところ、大騒ぎする程のことではなかったのでしょうか?一見すると、OpenAIは不正を働いたわけではなく、ただツールを意図された通りに使用しただけのようです。試験の前に教科書で勉強した学生を不正行為だと非難するようなものですね。
しかし、その後、AI界でよく知られた批評家のゲイリー・マーカスが次のような発言をしました。「もしこれが本当なら、昨日のO3発表について深刻な懸念が2つ浮上する」と。
さらに興味深いことに、O3のプレゼンテーション中に奇妙な瞬間がありました。あるエンジニアが「私たちはARCベンチマークを特に対象にしました」と言ったところ、OpenAIのボスであるサム・アルトマンが即座に「いや、私たちは特別なことは何もしていない」と訂正したのです。
Twitterでは、これを「アルトマニアン・スリップ」と呼ぶ人もいました。フロイト的失言、つまり自分が隠しておきたい真実を誤って漏らしてしまう瞬間を指す概念になぞらえてですね。
ユーザーのM Farlessは、もしそれが重要でなかったのなら、なぜアルトマンが自分のエンジニアを訂正する必要があったのか疑問を投げかけています。エンジニアが言うべきでないことを漏らしてしまったのでない限り、訂正する理由はなかったはずです。
しかし、これは重要なポイントですが、仮にチームが特にこのベンチマークを対象にしていたとしても、それは本当に状況を変えるのでしょうか?人間が試験を受けるという例を考えてみましょう。彼らには過去の試験問題や例題が与えられ、復習や練習ができるようになっています。しかし、それは試験自体が過去のものの正確な複製になるという意味ではありません。むしろ、依然として考える必要があるのです。
そして私がこれを言っている間にも、Twitter上の議論は更に白熱していきます。非常に興味深い展開をご覧いただけますが、その前に、私の現在の新しいプロジェクトについて手短にお話ししたいと思います。
ご存知の通り、このチャンネルではAIに関するあらゆる新製品やニュースを分析しています。私の目的は、この素晴らしい技術をできるだけ多くの人々に知ってもらい、何よりもAIに対する意識を高めることです。
私の周りの人々と話をしていると、皆さんはAIについて本当の意味で理解していないように感じます。AIが社会に与える影響、その重大な影響について認識していないのです。
既に申し上げた通り、このチャンネルでは商品の宣伝はしません。できる限り純粋な形で保ちたいと考えているからです。そのため、トレーニングコースを作成しました。あなたの生活のあらゆる面でAIを使用する方法を学びたい方のためです。
この動画をご覧の方は、おそらくすでにChatGPTなどのAIを使用されているでしょう。もし思考をさらに深め、すべてのAIツールの使用方法を学び、それらを生活のあらゆる面にどのように適用するかを正確に知りたい方は、動画下のピン留めされたコメントにリンクを残しておきますので、興味がありましたらぜひご覧ください。
Vision AI コミュニティにもアクセスできることを付け加えておきます。このプロジェクトを開始してからまだ間もないですが、すでに100人以上の方々がトレーニングを購入してくださいました。素晴らしいことに、皆さん様々な分野からいらっしゃっています。学んだツールを各自の特定の分野にどのように適用するかについて、定期的に皆さんと議論するのが本当に楽しみです。
申し訳ありません、少し話が逸れました。これ以上時間を取らずに、動画の説明文やコメント欄にすべてのリンクがあることをお伝えしておきます。
次のビデオクリップで、エンジニアは次のように述べています:「これは私たちが長い間注目してきたベンチマークでもあります」その後、アルトマンが割り込んで、彼らは特に何も対象にしておらず、これは単なる一般的なGPT-O3だと言いました。
しかし、ちょっと待ってください。続きがさらに興味深いのです。ベンチマークの作成者の一人であるマイク・コノップ自身が、この一件を明確にするために介入しました。彼の説明は状況を完全に変えるものでした。
彼は、確かにOpenAIは訓練データの75%を使用したが、それはまさに意図された通りだと説明しています。教師が最終試験の準備のために練習問題を与えるようなものです。簡単に説明すると、まずシステムは基本的な概念を一つずつ学習し、その後、本当のテストでは3つから5つの概念を組み合わせて、まったく新しい問題を解決しなければならないのです。
そして最も重要なのは、最終テストは単なる暗記では合格できないように設計されているということです。文法の基礎を一つずつ学び、最終テストで物語全体を書くようなものです。学んだことを単に繰り返すだけではなく、本当に理解して応用し、新しいオリジナルなものを作り出す必要があるのです。
だからこそ、GPT-O3のパフォーマンスは本当に印象的なのです。答えを暗記しただけではなく、新しい方法で問題を解決することを本当に学んだのです。
彼はまた、これが重要でないと考えるもう一つの理由として、このベンチマークのトレーニングセットがGPT-3、4、4o の事前トレーニングにすでに含まれていたことをほぼ確信していると述べました。これらのデータは2019年からパブリックなGitリポジトリにホストされているからです。
しかし、最も驚くべきことは、2019年から公開されているこれらのデータで訓練された他のモデル、つまりChatGPT-4やClaude、Geminiなど、すべてのモデルがこれらのデータで訓練されていた可能性が99%あるにもかかわらず、このテストでは中程度のスコアしか得られていないということです。ChatGPT-O3だけが例外なのです。
ここで、一部の批評家たちが正当な疑問を投げかけています。ここに示されている研究者のディトゥル・エランは、不快な質問をしました:「では、これらの訓練データなしではどうなのか?これらの結果の本当の科学的価値は何なのか?」
これは素晴らしい質問で、MNOPの回答も非常に興味深いものでした。彼は率直に、専門用語で「アブレーション研究」と呼ばれるこのテストを行いたかったが、発表前に時間が足りなかったことを認めています。しかし、重要なことですが、彼は一点を強調しています。このような追加テストがなくても、GPT-O3が本当にユニークで印象的なシステムであるという事実は変わらないということです。
突然現れた新しいバスケットボール選手が次々とシュートを決めるようなものです。まだすべての動きをテストしていなくても、その背後に何か特別なものがあるのは明らかです。
そして、前回のO3発表の動画でインタビューを紹介したベンチマークの作成者であるフランソワ・ショレが、今度は自分の意見を述べています。彼の言葉も非常に興味深いものです。基本的に、彼は「みんな、これはそのために作られたんだ。教科書のようなもので、学習するためのものだ」と言っています。
確かに、ChatGPT-O3がこれらのデータを事前に見ていなかったらさらに印象的だったことは認めています。しかし、それは結果を無効にするものではありません。
一方で、先ほど見たゲイリー・マーカスのような批評家たちは、かなり挑発的な比較をしています。彼はこれを、テイラー・スウィフトがErasツアーでリップシンクをするような大スキャンダルに例えています。OpenAIは公開例の75%を使用したことについて、もっと透明性を持つべきだったと示唆しています。
そしてこれらの批判は重要です。AI界では、より厳密になり、私たちの行動により注意を払い、適切な質問を投げかけるよう促す声が本当に必要です。これが本当の進歩につながるのです。
しかし、物事を適切な視点で見る必要もあります。さらに興味深いことに、ニュースが流れた時、Twitterでの反応は非常に過熱しました。OpenAIの従業員が皮肉を込めて「ああ、なんてこと、彼らは訓練データで訓練したんだ。世界の終わりだ」とツイートしました。明らかにこの論争を揶揄しているのです。
しかし、話はここで終わりません。OpenAIのリティク・ガルグ研究員が重要な点を3つ明確にしました:

彼らが使用したモデルは完全に汎用的なものである
ARCデータはChatGPT-O3が訓練されたすべてのデータのごく一部に過過ぎない
そして最も重要なことに、このテストのために特別な調整は一切行っていない

繰り返しますが、これは学生が試験を受ける前に教科書を読んだことを非難するようなものです。絶対的な天才でない限り、それは不正どころか、むしろ必須なのです。
OpenAIのブランドン・マッキンジーも、モデルに与えた指示は特別なものではなく、単純で直接的なものだったと付け加えています。
EMシアーによって提起された別の非常に興味深い質問は、「チームはGPT-O3の開発中にARCについて特に考えていたのか?」というものでした。基本的に、これは計画された成功だったのか、それとも幸運な偶然だったのかを問うています。
ここでもリッド・ガルグは直接的に回答しています:「いいえ、全くそうではありません。ARCは私たちの進歩を測るために使用する多くのテストの1つに過ぎません」。
別の例えを提案させていただくと、これは複数の病気に効果のある新薬を開発するようなものです。開発時に特定の病気を対象にしていたのか、それともすべての病気に効果があることが幸運な偶然だったのか?このモデルO3の場合は後者のようです。
つまり、ここで明確に示されているのは、GPT-O3が単に全般的に優れたものになり、このテストでも他のテストでもそれが示されているということです。
誰かが「tune」の意味について尋ねると、OpenAIの別の研究者は、これはARCの訓練例をGPT-O3のトレーニングに含めたという奇妙な言い方であり、ChatGPT-O3のファインチューンされたバージョンではなく、単なる基本モデルだと説明しました。
これは非常に重要な違いです。彼らが使用したモデルはファインチューンされたモデルではなく、基本モデルなのです。つまり、それ以上のトレーニングは行っていません。一度トレーニングを行い、それで終了。その後、ARC AGIを含む様々なテストに使用したのです。
もし今後、このChatGPT-O3モデルをファインチューニング、つまりさらなるトレーニングで改良できるとすれば、そのポテンシャルは計り知れません。
内部のチームは実際にはこのARC AGIベンチマークを特に対象としていなかったのではないか、それは単なる意図せざる副次的効果だったのではないか、と私は推測します。これが真実かどうかは、この動画で提供したすべての情報を基に、皆さんご自身で判断していただきたいと思います。
このような情報から、あるグループはベンチマークを対象にしたと主張し、他のグループは例などを理由に対象にしていないと主張しています。私個人としては、たとえそれが事実であり、純粋な記憶力の問題だとしても、このGPT-O3モデルは信じられないほどの進歩だと考えています。
実際、これを私に確信させているのは、Anthropicのフロンティア数学ベンチマークです。これは別のベンチマークテストですが、これまでの最先端システムでは2%以上の正解率を得ることができませんでした。前回の動画でもこのベンチマークについて言及しましたが、ここでChatGPT-O3は25%以上の達成率を示しており、これはシステムが意味するものを考え始めると、かなり驚異的なことです。
この飛躍の大きさと、この結果がいかに信じられないものであるかを理解していない人のために説明すると、このテストは単なる通常の試験ではありません。これは人類がまだ答えを持っていない研究課題なのです。
しかし、これについては、現存する最も偉大な数学者の一人とされ、数学界で最も権威ある賞であるフィールズ賞を受賞し、カリフォルニア大学の教授でもあるテレンス・タオの言葉に勝るものはありません。
彼はこのベンチマークの発表時に、これらは少なくとも数年はAIが解決できないような極めて困難な問題だと述べました。そして今、OpenAIの2番目のイテレーションであるChatGPT-O3が、テレンス・タオ自身が判断した非常に困難なベンチマークで25%の成功率を達成しているのです。
最も驚くべきことは、このベンチマークを見ると、利用可能なデータが少ないため、記憶に頼ることが本当に難しいということです。これは私たちが持っていないデータに関するテストであり、基礎研究を行う能力についてモデルをテストし始めているのです。
彼らのチャンネルに投稿された動画で述べられていることを見てください。ほとんどの人が見逃していると思いますが、その動画の視聴回数は数百回しかありません:
「これが私たちがフロンティア数学を作成した理由です。世界中から60人以上の数学者、教授、著者、フィールズ賞受賞者と協力して、何百もの独創的で極めて複雑な数学の問題を作成しました。これらは真に本物の問題です。課題の一つは訓練材料の不足です。これは非常に特殊な分野で、おそらく十分に文書化されていません」
「あなたが送ってきた10個の問題を検討しました。原理的には解析の3問は解けると思います。他の問題については、どうすればいいかわかりませんが、誰に相談すべきかは知っています」
「フロンティア数学の問題は、オリンピアド形式のパズルから研究レベルの課題まで及び、数学の主要分野すべてをカバーしています。これらは現在のAIの能力を超えています。私たちは利用可能な最先端のシステムをテストしましたが、それぞれが2%未満の問題しか解決できませんでした」
「これが短期的な状況です。その分野の真の専門家がいない場合、これらを解決する唯一の方法は、関連分野の博士課程の学生のような準専門家と現代のAI、そして様々な他のツールを組み合わせることです」
「フロンティア数学は高度な数学的推論を評価しますが、証明支援システムの数学ライブラリの大きな進歩を必要とせずに自動的な検証が可能な、整数などの閉じた形式の答えを持つ問題を使用しています。これは問題を作成する数学者にとって厳しい設計上の制約です」
ご覧の通り、これらの問題は本当に本物です。これらの問題を解決する上での課題の一つは、このような分野には文書化されたデータがない、あるいは少なくとも答えそのものが存在しないため、訓練データが不足しているということです。私たちは基礎研究を行うAIについて話しているのです。
先ほど申し上げたように、今日利用可能な最も進んだAIモデルをこのテストで試したところ、最先端のシステムでも2%未満の問題しか解決できませんでした。実際、短期的には、その分野の真の専門家がいない場合、これらを解決する唯一の方法は、関連分野の大学院生のような準専門家と現代のAI、そして多くの他のツールを組み合わせることです。
これらの結果の25%を解決できるAIについて話しているのです。100%の問題を解決できるAIを作れる日が来れば、AIは自身で基礎研究を行うことができるようになり、そこで世界は大きく変わるでしょう。発見は人間だけでなく、AIによっても行われるようになるのです。
正直なところ、5年後に私たちがどこにいるのか、本当に興味があります。基礎研究を行うことができるAIが5年以内に登場すると本当に思っています。そして私たちが今日想像もできないような発見が次々と行われるでしょう。
すぐに思い浮かぶ例の一つは、超伝導体材料です。私たちの世界観を完全に変え、浮上を可能にするような材料です。最近、韓国の研究者たちが最初の超伝導体材料を発見したと主張し、大きな話題を呼びました。メディアやTwitterなど、誰もがこの話題に飛びつきましたが、結局はフェイクでした。もし超伝導体が発見されるとすれば、それは私たち人間ではなく、AIによってだと思います。しかし、それは未来が教えてくれるでしょう。
この動画を作りたかった理由は、この発表が偽装されていたのか、ベンチマークが本物だったのかについて、多くの議論があり、その混乱を明確にしたかったからです。このベンチマークとその結果について、皆さんが自分なりの意見を形成できるよう、できる限り包括的な概要を提供できたと思います。
私が申し上げた通り、個人的にはこれは大きな進歩だと考えています。コメント欄で皆さんのご意見をお聞かせください。
動画の説明欄にリンクがありますので、ご確認ください。また、明日の次回の動画でお会いしましょう。

いいなと思ったら応援しよう!