![見出し画像](https://assets.st-note.com/production/uploads/images/171350112/rectangle_large_type_2_a35ccee8791e99927faf58281074a1ec.jpeg?width=1200)
AIへの恐れが増す理由:天才級の難問ですら解けてしまう現状
以下の解説は、2025年1月23日付で The New York Times に掲載された
「If you’re looking for a new reason to be nervous about artificial intelligence, try this: Some of the smartest humans in the world are struggling to create tests that A.I. systems can’t pass.」
(実際のWebページタイトルは「AI test? Humanity’s Last Exam.」に近い内容)
をもとに構成しています。実際の内容と多少の相違がある可能性がある点、ご了承ください。
1. 基本情報
1.1. タイトル
If you’re looking for a new reason to be nervous about artificial intelligence, try this: Some of the smartest humans in the world are struggling to create tests that A.I. systems can’t pass.
(本文では「Humanity’s Last Exam」という評価手法に焦点が当たっている)
1.2. 著者
Kevin Roose(The New York Times テクノロジー・コラムニスト)
日付: 2025年1月23日
1.3. 記事
本記事は、AIモデルの性能評価(特に高難度テストである “Humanity’s Last Exam”)に関するニュース解説記事です。
主題は、AI研究者がAIモデル(OpenAI, Google, Anthropic等)に対し、従来の学力テストや専門家レベルの問題を与えてきたが、それらをAIが突破し始めているため、さらに「Humanity’s Last Exam」と呼ばれる超高難度テストが開発されたというもの。
2. 要約
2.1. 1行要約
AIが高難度試験まで突破しつつあるため、研究者たちは「Humanity’s Last Exam」と呼ばれる史上最難のAI評価テストを作成したが、それすらも近いうちにAIが乗り越えるかもしれないという記事。
2.2. 3行要約
AIは従来の学力テストや上位レベルの試験を次々と高スコアで突破し、測定指標としての限界が顕在化している。
そこで、Dan Hendrycks らが中心となり大学教授や数学者が「Humanity’s Last Exam」という極めて難度の高い試験問題を作成し、最新AIに挑戦させたが、現時点でAIはほとんど解答できなかった。
しかし今後、AIの進化によりこのテストもすぐに突破される可能性が高く、AI能力の評価手法をどうするかが大きな課題となっている。
2.3. 400字要約
本記事によれば、近年のAIモデルはSAT相当のテストを軽々と解き、大学院レベルの難問でさえ高得点を取るようになった。そのため研究者たちはさらに「Humanity’s Last Exam」という超高難度の問題集を新たに作成。名だたる教授や数学の賞受賞者が、専門分野の深い問題を考案し、ChatGPTなどの大手AIモデルに与えてテストを行った結果、いまのところAIはいずれも惨敗に終わった。しかし、AIの進歩ペースを鑑みると早晩この試験も攻略される可能性が高く、問題作成の難しさや、AI進化のスピードに対する懸念がますます強まっている。
2.4. 800字要約
AIの試験突破の歴史
かつては高校や大学レベルの標準テスト(SATなど)がAIモデルの進歩を測る指標となっていた。しかし大規模言語モデルの性能が上がるにつれ、それらのテストを簡単に突破するようになり、さらに大学院レベルの試験でもAIが高得点を取る事例が増えた。
Humanity’s Last Exam の背景
Dan Hendrycks(Center for AI Safetyディレクター)が提唱し、Scale AIの支援を受けて「Humanity’s Last Exam」を開発。
学者や数学者が寄稿した3,000問以上の多岐選択・短答式問題が収録されており、大学院試験の最上級問題、専門家向け競技レベルの問題など非常に難易度が高い。
AIモデル(OpenAI, Google, Anthropicなどの大規模言語モデル)に解かせたところ、現段階ではほぼ失敗に終わった。
AIの進化に対する懸念
記事に登場する専門家は「数カ月〜数年のうちに、この試験もAIに攻略される」と予想。すでにChatGPTなどは単純な算数や論説問題だけでなく、高度な数学オリンピック問題やプログラミング課題、医療診断においても人間を凌ぐ成果を出すケースが散見される。そのため、高難度の試験を作っても、短期間で無効化されるリスクが指摘される。
テストの意義と今後
この試験はAIが人間の学者レベルの問題にどこまで対応できるかを測る最後の砦のような位置づけ。今後AIがこれらを突破しても、実際の研究や創造的活動で真価を発揮できるかはまた別の課題。著者Kevin Rooseは、標準化された筆記試験だけでなく、経済や科学的発見への貢献度など多面的評価が必要だと述べている。
2.5. 1,200字要約
1. 従来のテストが限界に
AIモデルの性能を比較する標準ベンチマークとして、数学や論理、SATレベルの問題が用いられていた。だが、OpenAIやGoogleなどの先進AIはこれらのテストをほぼクリアし、高度な大学院試験レベルでも高得点を連発。そのため現行のテストではAIの実力を十分に評価できなくなってきた。
2. 超難問集「Humanity’s Last Exam」の誕生
Center for AI SafetyのDan Hendrycksが提唱し、Scale AIの協力で開発された「Humanity’s Last Exam」は、約3,000問の超高難度問題を収録。寄稿したのは専門分野の教授や数学賞受賞者であり、通常の大学院試験を超えるレベルの題材を準備。たとえば分析哲学、ロケット工学、理論物理学など多岐にわたる科目の問題をAIに課す。
3. 結果と評価
現在の最先端モデル(OpenAI, Google, Anthropic等)6種に解かせたところ、いずれも点数が極めて低く、多くがランダム回答を下回るものや単に失敗に終わる問題が続出。
最も高得点のモデルですら8.3%程度という結果で、人間の専門家水準とは大きく差があると判明。
しかし研究者は「AIは急速に進化しており、数カ月内にこれらの問題もクリアするかもしれない」と警戒を示す。
4. テストの意義と限界
意義: AIが人間レベルの難題をどの程度解けるかを総合的に評価し、モデルの実力や進化スピードを把握するために設計された「最後の試験」。
限界: AIがテスト問題を学習すれば簡単に攻略される可能性がある。さらに、テストで高得点でも本当の意味での創造性や研究成果と直結するわけではない。
5. 今後の課題
本記事の著者Kevin Rooseらは、AIが汎用レベルで人間を凌駕する日に備え、より多角的な評価方法(経済への影響や新規発見の有無)を模索すべきと論じる。専門家からは「試験が人間を上回るだけでなく、未知の問題をAIが解決する段階に進むと、本当のAI革命が始まる」との意見も出ている。
2.6. 1,600字要約
1. 背景:AI評価の難度上昇
近年、大規模言語モデル(LLMs)の性能向上は目覚ましく、かつてのベンチマーク(大学入試相当の数学・論理問題など)はAIが容易に満点近くを取得するようになった。大学院レベルの試験でも高得点が出始め、「AIをどう測るか」が喫緊の課題となっている。
2. 史上最難の試験「Humanity’s Last Exam」
Dan Hendrycks(Center for AI Safety ディレクター)が中心となり、「Humanity’s Last Exam」を創設。
名称は当初「Humanity’s Last Stand」を予定していたが「大げさ」との理由で改名。
Scale AIと協働し、3,000問以上の高度問題を集める。出題分野は解析哲学やロケット工学、理論物理など多岐。執筆者には大学教授や受賞歴のある数学者も含まれる。
問題はAIモデルに先に解かせてみて、モデルが答えられないか大きく間違えたもののみを精査し、正答を確定。さらに人間の専門家レビューを経て洗練化した。
3. 現在のAIスコア
GoogleのGemini 1.5 Pro、Anthropic Claude 3.5 Sonnetなど6モデルが試験を受けたが、どれも得点は非常に低い。最高でもOpenAIのo1モデルが8.3%。
Dan Hendrycksは「年末までには50%超も見込まれ、いずれAIがどんな専門分野も上回る可能性がある」と予測。
4. テストの意図と今後のシナリオ
意図: AIが“ほぼすべての人間レベルの知的課題”を突破できるかどうかを測る総合試験。アカデミック領域の博士課程レベルの専門性をも網羅。
限界: AIが学習してしまうと問題を解けるようになるため、繰り返し利用するうちに試験自体が陳腐化するリスク。また、テストが“応用的・創造的力”をどこまで正確に評価できるかも不明。
5. AI進化の不均一性
この記事では「AIは数学オリンピック問題や医学診断で人間を凌駕する一方、基本的な計算や詩の定形などで失敗することもあり、性能にバラツキがある」点が取り上げられている。こうした不均一性はユーザーに誤解を与える一因だが、着実に全般的な性能が上がっている事実も見逃せない。
6. 専門家の見解
提案者や数学者は「試験に合格しても実際の研究活動では不足」と指摘し、実世界の創造や新発見には“構造のない課題”が重要だという。
Dan Hendrycksは「最終的には、この試験もAIによりクリアされる。もっと先の段階では、未知の問題をAIが解決に導くかどうかが焦点になる」と見ている。
7. 結論
AIモデルが大学院レベルの問題さえ突破するスピードは高まっており、従来のテストでは性能を計りきれない状況にある。新たに開発された「Humanity’s Last Exam」は、当面はAIにとって最大の“壁”となるかもしれないが、すぐに突破される可能性も大きい。今後は創造性や未知への挑戦度など、数値化や問題化が困難な領域でAIを評価する手法が求められるだろう。