
AIモデル(o1、Claude、Gemini、DeepSeek、QwQ)が大学レベルの天体物理学の問題に挑戦する(ハイライト)
6,043 文字
新年あけましておめでとうございます。これからご覧いただくのは、2025年の私の最初のストリーミングを要約したハイライト版です。今年は全てのストリーミングについて、20分以内のハイライトや要約版を作成していきたいと思います。ライブ配信を見逃した方でも、重要な瞬間や情報を凝縮版で得られるようにしたいと思います。
このストリーミングでは、様々なAIモデルに与える天体物理学の問題を考えました。o1の完全版モデル、Claude Sonnet 3.5、QwQ(つまりQuin)、DeepSeek、Geminiをテストしました。これが全てだと思います。この新しい戦略をテストするためで、この形式が気に入ったかどうか、このような形式をもっと見たいかどうか、ぜひ感想を聞かせてください。ストリーミングをより多くの方にアクセスしやすくしたいのですが、もちろん長時間のものになりますので、1時間以上の映像を見る時間がない方のために、このようなダイジェスト動画が役立てばと思います。
今夜は、AIモデルに挑戦させ解かせるために考えた問題について少しお話ししたいと思います。既に全てのモデルにプロンプトを与え、ほぼ全ての結果が出ています。では、その問題をお見せしましょう。
この問題は「現代天体物理学入門 第2版」というレベルの教科書から着想を得ています。正直に言うと、この本の問題の1つを大幅に改変したものです。では読み上げてみましょう。
「周期5ミリ秒、t=0秒での周期の微分が0.1ミリ秒/秒のパルサーがあるとします。p・pの積が常に一定であると仮定して、以下の4つの問題に答えなさい。
微積分と微分方程式の知識を使って、パルサーの周期を表す式を求めなさい。
問1で求めた式を使って、t=11秒での周期pを求めなさい。
Pythonを使って、t=0秒からt=1000秒までの周期pの時間変化をプロットしなさい。
パルサーからの電波パルスを数えて時を刻むパルサー時計と、P dot=0の"完全な時計"があり、両方の時計が0を示すときに同期していると想定します。」
この問題で何が起きているのでしょうか。まず、パルサーとは何かについてお話ししましょう。パルサーは回転する中性子星として知られています。これは恒星の最期の形態の1つです。恒星は3つの異なる形で最期を迎えることができます。白色矮星になるか、中性子星になるか、ブラックホールになるかです。中性子星は白色矮星とブラックホールの中間的な存在です。非常に高密度の物質で、大きさは都市程度の球体、つまり半径約10kmほどですが、太陽程度の質量を持っているので、信じられないほど密度が高いのです。
パルサーは回転する中性子星で、この緑の配信が邪魔になりますが、ダミーの地球を例に使って説明すると、回転していて、基本的に電波を放出します。強い磁力線があるためですが、電波だけでなく、通常は電波周波数で観測されます。灯台のような回転効果があり、特定の周波数でパルス状に光ります。周期性があるのです。
基本的に、このパルサーは5ミリ秒ごとに点滅することが分かっていますが、周期の微分は実際には変化しています。5秒の周期は一定ではなく、実際に変化するのです。AIの解答を見たい人もいると思うので詳細には立ち入りませんが、基本的には微分方程式を立て、変数分離法を使って時間の関数として周期を片側に分離するステップを踏む必要があります。
そうすると、このような一般的な形の式が得られます。問題で与えた数値を代入すると、単位を全て省略すると、t+25の平方根のような式になるはずです。問題の第2部では、この式にt=11を代入するだけです。数値は意図的に簡単な値になるようにしてあり、6ミリ秒という結果が得られます。
そして、グラフを作成する部分では、この関数をt=0から1000までプロットします。これが私のコードで、およそこのような形になります。
最後の部分が最も難しく、2つの時計があるという設定です。パルサー時計と完全時計です。完全時計は周期が変化せず、実際の経過時間を測定します。一方、パルサー時計はパルサーのパルスを数えて時間を計りますが、問題は、パルサー時計が同期しないということです。というのも、パルスの周期が時間とともに変化する関数だからです。そのため、パルサー時計と完全時計は同期しません。
2つを関連付ける必要があり、2つのシナリオ間で不変なものがあります。それはパルスの数です。パルスの数については誰もが同意しますが、経過時間については意見が分かれます。パルサー時計と完全時計はこの式で関連付けられます。計算をすると、最終的に、私は怠け者なのでMathematicaを使いましたが、完全時計で1分が経過すると、パルサー時計では約42秒、より正確には42.2秒となります。
では、各AIモデルがどのように解いたか見ていきましょう。最初のAIモデルはChatGPT o1です。実は2つの方法でテストしました。問題のスクリーンショットを与える方法と、テキスト版で与える方法です。
第1部について、式はt+25の平方根のような形になるはずで、実際に正しく得られています。数式の一部は見にくいですが、ほぼ最終的な答えは正しく、この式を得ています。単位は省略されています。評価すると6が得られるはずで、実際に6が正しく得られています。
ここでグラフを作成しており、実際に全ての言語モデルにプロットさせました。これが私のプロットで、基本的にy軸にミリ秒つまり周期、x軸に時間をとったときどのように見えるかを確認しようとしました。はい、正しいですね。これがコンテキストウィンドウで提供されたコードです。ネタバレですが、テキストでも行い、少し異なる方法でしたが、ほぼ正しく実行しています。
そして問題の最も難しい部分は最後の部分です。確かに、ここまで来ると42.2という正しい答えを得ています。o1はスクリーンショットを使用して、タイプミスがあったにもかかわらず正解を得ました。これは印象的です。
テキストだけを使用したバージョンでも、ほぼ同じような式を得ています。ここでは実際に数値を入れず、この形のままにしていますが、もし私が採点するなら、これで全く問題ありません。t=11秒で評価すると6ミリ秒になるはずで、実際に6が得られます。コードもあり、予想通りtの平方根の挙動を示しています。
最後の部分に行くと、ここを見てみましょう。ああ、はい、42.2です。最終的な答えでは少し奇妙な形で残していますが、42.2という正しい答えを得ています。
他のモデルをお見せする前に、これがどれほど印象的なことかを説明させてください。私はこの問題を考えるのに約1時間かけ、実際に解いて、全てが正しいことを慎重に確認しました。そして、これらのモデルはどれくらいの時間で解いたでしょうか。OpenAIは1分6秒、スクリーンショットを使用したものは少し長くて1分56秒でした。つまり2分未満です。
この難しくはないものの、時間と労力をかけて全て入力し、考え、プロットする必要がある問題を考えて解くのに1時間から1時間半かかりました。この問題は私が一から作ったものなので、どこにも存在しないことを確信しています。それにもかかわらず、正しい推論を使って正解にたどり着けるのです。
次にClaude Sonnet 3.5を見てみましょう。式はt+25の平方根のような形になるはずで、これはテキストだけを使用しました。Claudeはほぼ瞬時に解きました。驚くほど速く、しかも正解でした。t+25の平方根が正しく、6ミリ秒も正しいです。プロットも自分で作成し、コードも生成しました。これは実際にかなり素晴らしいです。アーティファクトが自分でコードを生成するのを見たのは初めてだと思います。
そして、パルサー時計と完全時計の関係を決定し、完全時計が実際の1分を測定するとき、パルサーのパルスを使って時間を測定すると約42分10秒になるはずです。確かに42分15秒を得ましたが、ほぼ正解です。
DeepSeekも調べてみました。DeepSeekにはテキストしか与えられませんでしたが、スクリーンショットを与えようとしました。ああ、そうですね、スクリーンショットも与えましたが、最初は読み込みに問題があったと思います。
いずれにせよ、問題のスクリーンショットを与え、DeepSeekは全てを完全に正しく解けたわけではありません。これらのモデルはほとんど最初の3つの部分を正しく解きました。つまり、周期の式はt+25の平方根になるはずで、これは正しいです。そして第2部は6ミリ秒で、これも正しいです。
関数のプロットについて、これがそのコードで、私はコピー&ペーストしただけで変更は加えていません。DeepSeekのコードはここにあり、やはり平方根の挙動を示しています。これは非常に複雑なコードではありませんが、同時に、正しい式を得るために全ての数学と物理学を経なければならず、それをプロットする必要があります。
私が本当に印象的だと感じるのは、これらのことの1つ1つは信じられないほど難しいわけではありませんが、それらを全て文脈の中で結びつけることです。しかし、最後の部分は正しく解けなかったようです。最後の部分で、この積分をする際にモデルが最も失敗したようです。この式は正しくありません。2つの時計を適切に関連付けることができていないようです。
その数学には完全には理解できない部分がありますが、この積分の方法に何か間違いがあるようです。周期の逆数のdtの積分をしようとしていますが、実際にはこの積分が必要です。分子のpというファクターが抜けていると思います。
次にお見せしたいのはQwQ、つまりQuin with Questionsです。Quin with Questions 32bと72bの両方をテストしました。これらもビジョン機能を持っています。QwQ 72bプレビューでは、問題のスクリーンショットを与えただけで、何も説明せずに解かせました。
結果はどうだったでしょうか。他のものより少し読みにくいですが、ほぼt+25の平方根で、これは正しいです。ここに見られるように6ミリ秒も、ここで見たように正しいです。コード自体は適切にフォーマットされていないので、プロットできるように整理し直す必要がありました。
QwQ 72bはここにあります。プロットするために適切にインデントする必要がありましたが、適切にインデントすれば正しい形のプロットが得られます。最後の部分については、ああ、はい、解けていません。ここでも同じ間違いをしているようで、周期の逆数を積分しようとしていますが、ファクターが抜けています。P not over P of tdtというファクターが抜けています。この積分を行うとき、次元的に正しくないことを認識していないようで、そのため完全に間違った答えを得ています。
32bについても同様です。これは実際に興味深いことに、遠回りな方法で解いています。私自身もこの問題を遠回りな方法で解きましたが、これらの定数を定義し、最終的にそれらの定数が何になるかを見つける必要があります。しかし、最終的にはこれを解けていないようです。なぜなら平方根が付いていないからです。
実際、ここで自己チェックをしているのは興味深いですね。はい、ここにあります。しかし、ここでは括弧や指数が見えないのかもしれませんが、興味深いところです。いずれにせよ、これを得ていますが、正しく書かれていないのは面白いですね。6ミリ秒という正しい答えを得ているので、これで大丈夫なはずです。QwQ32は与えられたコードを使って、ここで正しいプロットを得ています。
この問題の最後の部分が最も難しく、待ってください、実際にファクターを入れたのでしょうか。それとも正しく因数分解しただけでしょうか。はい、でも見てください。自分自身で認識しているんです。「待って、それは間違っているようだ。単位をチェックしよう。計算に間違いがあると思う。積分を適切に書き直そう」と。
最終的な正解に辿り着けなかったとしても、最後の部分を間違って解いていることを疑い、アプローチを見直すべきだと考えているのは本当に驚くべきことです。後戻りして別の方法を試みようとする能力があることに、正直感心しました。
もちろん、Gemini 2.0 Flash Thinking Experimentalもテストしました。数学や物理の問題には0.4から0.6のtemperatureが良いと誰かに言われたので、0.6を使用しました。正解を得たと思います。これは少し過剰ですが、秒単位で行いたかったようです。はい、10のマイナス3乗のファクターを考慮する必要があり、6が正解です。
Geminiのプロットも予想通り正しく、このプロットでtの平方根の挙動が良く見えます。興味深いことに、ここで何度も自分自身に立ち返っています。ああ、そしてパルスについて、パルスの単位や、パルスレートについて...すごいですね、最後に正解を得ています。はい、42.195、つまり42.2が私たちが求めていた答えです。
これらの問題を解くことの素晴らしい点は、前にも述べたように、正しい数値解を得るために、物理的な関係を「推論」し「考え」「導き出す」必要があるということです。はい、このようにして、プロットは良く、最後の42.2という答えも得られました。
Claude Sonnetでスクリーンショットを使ってみたかったのですが、まだやっていなかったので、せっかくなのでやってみましょう。どのように解くか見てみましょう。はい、25の平方根はすでに正しいことが分かっています。これも正しいですね。このプロットはどうなるでしょうか。
ああ、これは正解を得られませんでした。申し訳ありません、Claude Sonnet 3.5はスクリーンショットでは解けませんでしたが、テキストでは...待ってください、申し訳ありません、言い間違えました。Claude Sonnet 3.5のテキストバージョンは解けませんでした。この数字は良く見えますが、実際にはミリ秒ではなく実際の秒数で完全に間違っています。そこを見落としていて申し訳ありません。数字を見ただけで「わあ、できた」と思ってしまいましたが、正しくありませんでした。
ご視聴ありがとうございます。今後もこのような動画を期待してください。物理学、天体物理学、数学を説明しながら、AIのテストも行っていきたいと思います。うまくバランスを取れれば、私たちみんなが少しずつ賢くなれると思います。皆様、ご視聴ありがとうございました。