見出し画像

1ヶ月3万円のChatGPT pro modeに色々やらせて性能を検証したけど、小学校の算数すら解けない。

12月5日に、OpenAIが発表したChatGPT proプラン。
1ヶ月あたりのサブスクリプションが3万円と高価なことで、話題になりました。

OpenAIはこのモデルにかなり自信を持っているようですが、その実力のほどはどの程度なのでしょうか。
解説を読んでみると……

本日、OpenAI の最高のモデルとツールにスケールアクセスを可能にする月額 200 ドルのプラン、ChatGPT Pro を追加します。このプランには、最もスマートなモデルである OpenAI o1 のほか、o1-mini、GPT-4o、Advanced Voice への無制限アクセスが含まれます。また、より多くのコンピューティングを使用してより深く考え、最も難しい問題に対してさらに優れた回答を提供する o1 のバージョンである o1 プロ モードも含まれます。今後、このプランに、より強力でコンピューティング集約型の生産性向上機能を追加していく予定です。

ChatGPT Pro は、研究者、エンジニア、および研究レベルのインテリジェンスを日常的に使用するその他の個人が生産性を加速し、AI の進歩の最先端に立つための方法を提供します。


ChatGPT Pro は、最も信頼性の高い応答をより長く考える、最もインテリジェントなモデルのバージョンへのアクセスを提供します。外部の専門家テスターに​​よる評価では、o1 プロ モードは、特にデータ サイエンス、プログラミング、判例分析などの分野で、より信頼性の高い正確で包括的な応答を生成します。

o1 と o1-preview の両方と比較すると、o1 プロ モードは、数学、科学、コーディングにわたる困難な ML ベンチマークで優れたパフォーマンスを発揮します。

ということで、オフィスワークよりも、研究者やエンジニアの用途に向いているようです。

チームプランではなく、個人プランでしか契約ができず、またサブスクリプションも月単位ということで、ひとまず1ヶ月だけ契約して、どの程度の性能なのかを検証しました。


投資信託の年平均リターンを求める(Gemini、Claude、GPT-4oとの比較)

まずは手始めに、投資信託の年平均リターンを求めてもらいます。
題材としては、いつものように「オルカン」を使わせていただきます。

なお、基準価格の推移はこちらからダウンロードできます。
  

ちなみに、ツールを用いると、基準日から2024年12月13日現在までの年平均リターンは17.9%が正解です。

ただこのタスク、人間には簡単ですが、LLMには予想以上に難しいらしく、これまでのChatGPT、Gemini、Claudeのすべてのモデルが「解けなかった」問題なのです。

Google Geminiの場合

では、やってもらいましょう。比較用として、手始めにGeminiにやらせます。

はい、まだダメですね。念の為繰り返し処理をさせましたが、答えが変わってしまいました。

GoogleのGeminiには難しすぎるようです。
これだけを見る限りでは、依然とあまり性能変わってないですね。
ちなみに数日前に公開された、Google gemini2.0にもやらせましたが、解いてすらくれません。

データを提供しているのに、「具体的なデータを提供いただければ」とか言ってるので、全く役に立ちません。
もっと頑張れGoogle。

Claude3.5の場合

ではClaude3.5でやってみましょう。

惜しい!のですが、結論としては18.2%と間違いです。……なんででしょうか。総リターンまでは正しいので、複利計算が微妙に間違っている、ということになります。

ただ、計算の間違いは惜しいもクソもないので、間違いは間違い。
Geminiとさしたる差はありません。

GPT-4oの場合

ではGPT-4oです。
現在の多くのアプリケーションが使っているモデルですが性能はどうでしょうか。

ちなみに、以前はこの計算はできませんでした。その後、性能が上がっているという話もありましたが、検証します。

やらせてみましたが、結果は以下の通り。

年平均リターンは15.4%とClaudeと同じようなイメージです。
間違ってます。
なんでこの程度のことができないのか、という話なのですが、とにかく今のLLMの性能はこんなもん、ということでしょう。

つまり計算や、アルゴリズムにはまだ弱いのです。
(とはいえ、特に言語に強い、というわけでもないのですが)


GPT o1の場合

そして、科学技術計算に強いと言われるモデル、o1です。
結果は……

17.8%で、正解です!
自然対数による近似を用いて、複利計算を正確に行いました。ただし、反応は最も悪く、この計算をするのに、1分56秒かかっています。

以前のモデルが、すぐに回答していたのに対して、LLMは思考チェーンを組んでから演算をしますから仕方ないのでしょう。


GPT o1 pro modeの場合

では最終的な検証として、3万円のproモードでやらせましょう。

ここから先は

3,500字 / 16画像
インターネット上における 「生成AIの利活用」 「ライティング」 「webマーケティング」のためのノウハウを発信します。 詳細かつテクニカルな話が多いので、一般の方向けではありません。

ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…

この記事が気に入ったらチップで応援してみませんか?