実感できる進化!新しくなったClaude 3.5 Sonnet:Anthropic AI
2024年10月23日、AnthropicはClaude 3.5 Sonnet等の大幅なアップデートを発表しました。この記事では、これまでのモデルでは誤っていた回答や、コーディングの品質を軽く確認しています。
さて、早速使ってみましたが、以前試して誤答だった「ストロベリー問題」も、今回は正確に回答してくれました。数日前のこの同じ質問に対しては、幻覚(ハルシネーション)的な回答をしており、文字「r」のカウントも間違えていたのですが、新バージョンではそういった問題が解消されています。(当時のやりとりは、下部の参考にも掲載しています。)
モデル名は変わっていないものの、実際に使ってみると以前のClaude 3.5とは明らかに異なる、より洗練された知性を感じます。回答の際も、より慎重に考えを組み立てているような印象を受けました。
さらに、コーディングの品質も向上しているようです。以前、公開したビンゴアプリに実はバグがありましたが、同じプロンプトを使って再度作成させたところ、今回は全く期待通り動作するものが完成しました。
↑コーディングは全くAI同士のやりとりだけで作成(最終バージョン)。
↓Claudeが初回作成したもの。
↓これをOpenAI o1-previewにコードレビューさせました。(本筋から逸れますが。一応、上記のバージョンでも、期待通りの品質だと思います。)
↓それを受けてClaude 3.5 Sonnetが修正。
今回のリリースには「Computer use」も発表されています。現時点では一般利用者向けには未開放ですが、文字通りPCをClaudeが操作できる機能のようです。具体的な性能は不明ですが、公式が公開している情報を見る限りでは、かなり使えそうですよね。
さて、一般の利用者からすれば、一見してインパクトの小さな発表に思えるかもしれません。しかし、実際に使用してみると、その進化は目を見張るものがあります。個人的には、これをClaude 4.0と呼んでも違和感のない品質だと感じました。
Anthropicの公式ベンチマークには記載がありませんが、OpenAIのo1-previewと比較しても遜色ない品質だそうです。o1-previewは思考に時間がかかる傾向がありますが、Claude 3.5 Sonnetは従来通り数秒で回答を生成し始めます。この応答速度を考慮すると、現時点で最強のAIモデルと言えるかもしれません。ただし、OpenAIサービス(ChatGPT-4o等)ならではのPython実行環境や画像生成機能など、それぞれの強みを考慮して選択することをお勧めします。
個人的なオススメは、ChatGPT(OpenAI)とClaude(Anthropic)の両方に課金することです(25ドル+25ドル)。コストは確かにかかりますが、日常的に活用すれば十分に元が取れる投資になるでしょう。
参考
数日前に行った、同じ質問のやりとりです。
この記事が気に入ったらサポートをしてみませんか?