1ヶ月3万円のChatGPT pro modeに色々やらせて性能を検証したけど、小学校の算数すら解けない。
12月5日に、OpenAIが発表したChatGPT proプラン。
1ヶ月あたりのサブスクリプションが3万円と高価なことで、話題になりました。
OpenAIはこのモデルにかなり自信を持っているようですが、その実力のほどはどの程度なのでしょうか。
解説を読んでみると……
ということで、オフィスワークよりも、研究者やエンジニアの用途に向いているようです。
チームプランではなく、個人プランでしか契約ができず、またサブスクリプションも月単位ということで、ひとまず1ヶ月だけ契約して、どの程度の性能なのかを検証しました。
投資信託の年平均リターンを求める(Gemini、Claude、GPT-4oとの比較)
まずは手始めに、投資信託の年平均リターンを求めてもらいます。
題材としては、いつものように「オルカン」を使わせていただきます。
なお、基準価格の推移はこちらからダウンロードできます。
ちなみに、ツールを用いると、基準日から2024年12月13日現在までの年平均リターンは17.9%が正解です。
ただこのタスク、人間には簡単ですが、LLMには予想以上に難しいらしく、これまでのChatGPT、Gemini、Claudeのすべてのモデルが「解けなかった」問題なのです。
Google Geminiの場合
では、やってもらいましょう。比較用として、手始めにGeminiにやらせます。
はい、まだダメですね。念の為繰り返し処理をさせましたが、答えが変わってしまいました。
GoogleのGeminiには難しすぎるようです。
これだけを見る限りでは、依然とあまり性能変わってないですね。
ちなみに数日前に公開された、Google gemini2.0にもやらせましたが、解いてすらくれません。
データを提供しているのに、「具体的なデータを提供いただければ」とか言ってるので、全く役に立ちません。
もっと頑張れGoogle。
Claude3.5の場合
ではClaude3.5でやってみましょう。
惜しい!のですが、結論としては18.2%と間違いです。……なんででしょうか。総リターンまでは正しいので、複利計算が微妙に間違っている、ということになります。
ただ、計算の間違いは惜しいもクソもないので、間違いは間違い。
Geminiとさしたる差はありません。
GPT-4oの場合
ではGPT-4oです。
現在の多くのアプリケーションが使っているモデルですが性能はどうでしょうか。
ちなみに、以前はこの計算はできませんでした。その後、性能が上がっているという話もありましたが、検証します。
やらせてみましたが、結果は以下の通り。
年平均リターンは15.4%とClaudeと同じようなイメージです。
間違ってます。
なんでこの程度のことができないのか、という話なのですが、とにかく今のLLMの性能はこんなもん、ということでしょう。
つまり計算や、アルゴリズムにはまだ弱いのです。
(とはいえ、特に言語に強い、というわけでもないのですが)
GPT o1の場合
そして、科学技術計算に強いと言われるモデル、o1です。
結果は……
17.8%で、正解です!
自然対数による近似を用いて、複利計算を正確に行いました。ただし、反応は最も悪く、この計算をするのに、1分56秒かかっています。
以前のモデルが、すぐに回答していたのに対して、LLMは思考チェーンを組んでから演算をしますから仕方ないのでしょう。
GPT o1 pro modeの場合
では最終的な検証として、3万円のproモードでやらせましょう。
ここから先は
生成AI時代の「ライターとマーケティング」の、実践的教科書
ビジネスマガジン「Books&Apps」の創設者兼ライターの安達裕哉が、生成AIの利用、webメディア運営、マーケティング、SNS利活用の…
この記事が気に入ったらチップで応援してみませんか?