見出し画像

ChatGPT o1 Pro - 私が今まで使った中で最も賢いAIモデル

2,822 文字

o1 Proは、月額200ドルのChatGPTの最新モデルです。コーディングで試してみましたが、私が今まで触れる機会のあった中で恐らく最も賢いモデルの一つだと言えます。このビデオでは、私が依頼したコードの詳細を見ていき、Claude、Gemini、そして通常のo1との比較も行います。最後には、あなたが購入すべきかどうか、そして価値があるのかどうかについてお話しします。
ChatGPT o1 Proにアップグレードしたばかりですが、月額200ドルということで、かなり躊躇していました。人々が非常に良いと言っているのを見て、実際に使い始めてから約5分で、これは間違いなく他のどのモデルよりも一段階上のものだと分かりました。その理由と、どのようにしてその結論に至ったのかを正確にお見せしましょう。
同じプロンプト、全く同じ内容で、利用可能な全てのモデル - Gemini、Claude、o1 - で試してみましたが、o1 Proから得られた回答には全く及びませんでした。
では、私たちは何をしようとしていたのでしょうか。具体的に言うと、フロントエンドのコードベースをリファクタリングする必要があり、Glideアップのような感じのデータグリッドに移行する必要がありました。私たちの製品では、基本的に多くの更新がある spreadsheet で、製品自体には多くの処理が含まれています。私は非常に良くない方法で実装してしまい、アプリ全体が重くなってほぼクラッシュする状態でした。
リアルタイムの更新が大量に入ってきており、electric SQLを使用していましたが、注意点として、ドキュメントやそれに類するものは全てトレーニングセットに含まれていないので、モデルに何が起きているのかを説明する必要がありました。
これがコードベースです。いくつかのファイルがありますが、実際には全てこの巨大なprompts MDフォルダにあります。これは多くのファイルが絡み合っているためで、ここにドキュメントや多くの情報を貼り付けました。約14,000トークンのファイルと情報があります。
Ed sheet hookがあり、electric SQLのshape hookを使用しており、それがreact use effectを使用していて、基本的にはこれがクラッシュの原因となっています。そのファイルは約200行のコードです。他にも850行のコードがあるファイルや、もう1つ250行ほどのファイルがあります。リファクタリングが必要な、密接に絡み合った4つのファイルがあります。react queryを使用しているため、他にも多くの要素があります。
とにかく、現在は非常に長く混沌としたコードベースになっています。私がやりたかったのは、基本的に「これを直してください」とお願いすることでした。これは非常に面倒な作業で、全てのモデルに同じプロンプトを与えてみました。
まずo1 Proモードの結果から見ていきましょう。ここでの重要な点は、パフォーマンスの問題や何が起きているのかを正確に理解する必要があることです。モデルは少し考えてから、非常に詳細な回答を提供してくれました。
ガイドラインと指示のセットを提供し、詳細な回答をくれました。query set clientのロジックを削除するように指示し、それがレンダリングの原因となっていると説明しました。さらに、use effectsを取り除くことも提案してくれました。そしてどのファイルに行って、どの変更を加えるべきか、どのような更新が必要かを説明してくれました。
実装をお願いすると、3分24秒かかりました。全体的に良さそうに見えます。実装する前に、ClaudeとChatGPTの結果を見てみましょう。
これは通常のo1の結果で、GPT-4ではありません。14秒で回答を始め、いくつかのrefsを渡すことを提案していますが、アプリを重くしている原因となっているuse effect hooksを削除すべきという言及はありません。そして、なぜかuse stateを保持するように言っていて、アプリをレンダリングさせている元々のuse effectがまだ残っています。一見しただけでも、これは正しい答えではないことが分かります。
次にClaudeの回答を見てみましょう。正直なところ、これは全く役に立たない回答だと言わざるを得ません。
Geminiに関しては、今日リリースされた新しい12.06モデルを使用しました。一見して、このモデルはかなり優秀だということが分かります。基本的なシステム指示を与え、同じプロンプトを使用しました。必要な作業を説明してくれましたが、なぜか別のshape streamを作成するように指示しており、それは必要ないと思われます。use effectがまだ残っていて、これがアプリを重くしている原因です。この回答は不完全です。
また、cursorでも試してみましたが、その解決策も正直なところ役に立ちませんでした。
この1つのタスクの初期テストでは、まだ実装はしていませんが、o1 Proモードが提供する細かなニュアンスと詳細は、私が今まで使用したどのものよりも genuinely に一段階上のものです。これは本当に複雑なリファクタリングでした。500ものファイルがあるという意味ではなく、最適化すべき点が多く、use effectをいつ使用するかなど、見たとおり多くの要素があります。
また、ドキュメントを貼り付け、プロンプトには実装方法のコード例も含めました。このモデルは実際に何に回答しているのかを考えていることが分かります。読んでいくと、多くの部分が理解できますし、完全な実装コードも提供してくれました。これには3分ほどかかりました。
全体的に非常に感銘を受けました。月額200ドルが必要な場面については確信が持てません。新規プロジェクトを始める場合には、おそらく必要ないでしょう。ただし、試してみる価値はあると思います。1ヶ月だけでも200ドルを払って、有用かどうかを確認する価値はあります。
これは何か特別なものに感じます。これは私にとってかなり強力なモデルです。私が行っているタスクがどのようなものかを示せたと思います。決して些細なものではありません。ドキュメントを読み、レンダリングを生成するための最適な方法を参照する必要があり、トレーニングセットに含まれていない2つの異なるドキュメントがあります。それでも非常に良い仕事をしてくれます。
これが私のレビューです。新しいGeminiモデルについても付け加えておきますと、ざっと読んだ限りではかなり良いと思います。まあまあの回答を提供できていました。実際にかなり感心しました。一方で、Claudeには全く感心しません。この回答は一体何なのでしょうか。以上です。

いいなと思ったら応援しよう!