見出し画像

【海外記事】月3万円以上するGPT-Proに課金したから性能テストしてみた

今日はこちらの記事を読んでみます。なお、画像も以下から引用します。

本日もよろしくお願いいたします。


ChatGPT-Proに200ドル支払ったけど、これって天才なの?ゴミなの?

Open AIの2024年の最初の分割払いの”shipmas”が今日届きました。最初のアップデートと一緒にChatGPT-Proへのサブスク申込みの招待が届きました。200ドル、それはあまりに信じられないくらい高額で、これは本当にChatGPTを使いまくっている先進的なユーザーへ向けたものだったでしょう。

本当にこれにはその価値があるのでしょうか?

ここに私なりの答えを記していこうと思います。

核心

GPT Proで何ができるのかを書いていきます。

  • 4o,o1そしてo1-miniによる無制限のチャットメッセージ

  • 無制限の先進的なボイスモード

  • GPTo1-Proへのアクセス(1週間50メッセージ限定)

  • 全てのモデルに128,000のトークンコンテキストウィンドウがフルで備わっている(通常のサブスクでは32,000のみ)

…はい。これです。

私は初めこのアナウンスを聞いた時、あなたが今まさに感じたことを思いました。どこに200ドルの価値があるのだろう?

無制限かつ幅広く他のモデルにアクセスできることは素晴らしいことです。個人的には、すべてはGPT o1-Proのパフォーマンスの如何に関わってくると思います。もしこれが本当にo1よりも優れているのであれば、確かにこの価格の価値はあるでしょう。そういう訳で、テストをしてみたいと思います。

GPT o1-Proを調べよう

ChatGPT Proに付属する革新的なAIモデルであるo1-Proは、LLMにおける真の芸術作品です。どれだけこれが素晴らしいものなのでしょうか?

Open AIによると、これはo1やo1-previewやその他現在のすべてのLLMよりもはるかにスマートで一貫性があるものだということです。

いくつか少数のLLMベンチマーク結果においてはo1 previewに対するo1-Proの改良点はとてつもないことを示しています(ソース

私は実際にこれらを試す時間はなかったのですが、いくつか、これらの限界を図るための面白いテストをしてみたのでした。

テスト1:アプリ全体の変換

最初のタスクは大きなものでした。私はo1-Proに私のDjangoアプリの全てのコードを読み込ませ、それら全体をFlask frameworkへ変換するように指示をしました。

これはGPT-4oでは開始すらできなかったもので(単に一度に処理する限界値を超えていた)、数日前に私がo1-previewで試したときは深刻な失敗をしていたものでした。

このアプリには多くの考慮事項が存在しています。データベースやデザインシステム、そしてStripeの統合、、もちろんその中には全てAIコンポーネントが組み込まれています。

しかし、o1-Proはこの膨大なタスクに対して行った素晴らしい仕事ではコンバージョンへのわかりやすいガイドを出力し、各要素へのコードを書き終えてくれました。

どれだけこのタスクが膨大だったのかを示すスクリーンショットの一部を掲載します。パフォーマンスは素晴らしいものでした!

テスト2:アナログ時計の読み取り

もしかしたらGPT-o1でさえアナログ時計の画像を正確に読み取れないということに驚いてしまうかもしれません。

見事に読み取りに失敗しています(GPTは画像を10時10分と読み取っています)

しかし、o1=Proはもう少しいろんなことを考えてくれて、劇的に近い答えを導き出してくれます。

未だに正解ではないものの、良くはなっています

このテストは決定的なものではありませんが、それでも興味深いものです。何か新しいモデルの背後でo1-Proに対して良質なデータを渡しているような秘密でもあるのでしょうか?もしかしたら…

テスト3:暗号テスト

最後に、私は4o,o1,o1-Proの純粋な論理力を図るための暗号テストを作りました。これは単純なシーザー暗号で、問題を少しむずかしくする以外にも、私はいくつかの文字(iやoやそれ以外の文字)を排除しました。これによって単純な文字変換のテストではなく、潜在的な解決策をテストするためにより多くの論理的な操作が必要となってきます。

ここに実際に使った暗号のテキストを貼ります。

I am not so sure that this model can solve a cipher, because there simply isn’t enough text here to actually get a meaningful answer. However, I could be wrong!

暗号化したテキストがこちら。

I ar sox wo wyvj xmax xmiw rohjq gas woqbj a gitmjv, fjgaywj xmjvj wirtqe iws’x jsoylm xjdx mjvj xo agxyaqqe ljx a rjasislkyq aswcjv. Mocjbjv, I goyqh fj cvosl!

その結果は・・・

GPT-4oは完全に間違いをおかし、全く回答ができませんでした。

しかしGPT-o1は非常によくできていました。最終的な回答は

I am not so sure that this model can solve a cipher, because there isn’t enough text here to actually get a reasonable answer. However, I think it works!

非常に近しい答えですが、いくつかのセクションに誤りがあります。

驚くべきはGPT-o1-Proで、このテストにおいては実際うまく答えを導き出せませんでした。最終的な答えは以下。

I am not so sure that this cipher can prove a theory, anyway there exists isn’t enough sense here to adequately draw a reasonable conclusion. However, I think it works!

これにはちょっと失望しました。しかし何度試してみてもo1の性能を超えることはできませんでした。

・・・

全てのテストを終えて、o1-Proがo1より明らかに良いものであるかどうかを言うことは難しいです。しかしながら、私はより深くこれらが日々のタスクに本当に良いものかどうかを現実世界でのユースケースをもとに書いていきたいと考えています。

もしあなたが単純にo1-Proへのアクセスがしたいがためにプランのアップデートを考えているのなら、私はおすすめしません。

最終判断

さて、あなたはGPT-Proにアップグレードすべきでしょうか?

個人的には、あなたがChatGPTのハードユーザーであったり、そのコストに見合うだけの成果を上げられるような予測もないのであれば、依然としてこのままのメンバーシップで良いと思います。

おすすめはしませんが、ここにいくつかアップグレードすべき理由をあげておきます

  • アドバンスドボイスモードが大好きで、それらをもっと使いたい場合

  • 128kのコンテキストウィンドウがあなたの全てのモデルに対して必要な場合(もしあなたが長いコンテンツを書いているなら、これは重要なことです)

  • 1週間50メッセージというo1の制限にずっと引っかかってしまっている場合(これは私にとって非常にやっかいなものでした)

とにかく、もしあなたが1日に1~2時間ChatGPTを使っているわけでないのなら、明らかに180ドルの価値はありません。

一方で私はメッセージの制限をなくしたいのでこのサブスクは続けようと思います。でもこれは多くの人にとっては不要なものかと思います。


感想:コアなプロユースを見据えた生成AI界隈のビジネス展開

以前は生成AIサービス事業者がどのように収益化、資金回収するのかが結構話題になっていた気もしましたが、月額180ドルという超強気な価格設定でもってかなりプロユース向けなプランを提供しているということがわかりました。

性能に関しては記事の中でなかなか難がありそうな内容ではありましたが、日進月歩で技術革新が行われている領域なので、ここで述べられていたような課題が解決されることも時間の問題でしょう。

一方でちょっとChatGPTのような汎用ツールでの高価格プラン提供って結構難しいのかなぁなんてのも思ったのですが、例えば音楽生成AIのSUNOのような特定の領域に特化したAIツールはこういった高価格サブスクプランとの相性が良いような気がしています。

AIの進歩にはずっと驚かされ続けていますが、明らかにChatGPTやStable Diffusionが脚光を浴びた2022年から、ビジネスでもクリエイティブの領域でも明らかなゲームチェンジが起こっており、その流れについていけるかどうかは常に最新の情報をキャッチアップしながら、自分で手を動かしてAIを身体の一部として使いこなせるようになっておくことだと考えています。

引き続きAI関連の記事は読んでいこうと思いますので、またよければお付き合いください。


個人的に気になった海外記事を週数本メモしていますので、よければフォローおねがいします

▼X:noteの更新などをお伝えします▼
https://twitter.com/yamashita_3

▼YouTube:初心者向けデザインYouTubeやっております▼

__________________________________________________________

#海外記事翻訳

いいなと思ったら応援しよう!

やました
サポートいただいたお金は今後の発信活動に関わるものに活用させていただきます。