見出し画像

実感できる進化!新しくなったClaude 3.5 Sonnet:Anthropic AI

2024年10月23日、AnthropicはClaude 3.5 Sonnet等の大幅なアップデートを発表しました。この記事では、これまでのモデルでは誤っていた回答や、コーディングの品質を軽く確認しています。

さて、早速使ってみましたが、以前試して誤答だった「ストロベリー問題」も、今回は正確に回答してくれました。数日前のこの同じ質問に対しては、幻覚(ハルシネーション)的な回答をしており、文字「r」のカウントも間違えていたのですが、新バージョンではそういった問題が解消されています。(当時のやりとりは、下部の参考にも掲載しています。)

Claude 3.5 Sonnet(new)

モデル名は変わっていないものの、実際に使ってみると以前のClaude 3.5とは明らかに異なる、より洗練された知性を感じます。回答の際も、より慎重に考えを組み立てているような印象を受けました。

工夫して考えて回答しているように感じますね。

さらに、コーディングの品質も向上しているようです。以前、公開したビンゴアプリに実はバグがありましたが、同じプロンプトを使って再度作成させたところ、今回は全く期待通り動作するものが完成しました。

↑コーディングは全くAI同士のやりとりだけで作成(最終バージョン)。
↓Claudeが初回作成したもの。

↓これをOpenAI o1-previewにコードレビューさせました。(本筋から逸れますが。一応、上記のバージョンでも、期待通りの品質だと思います。)

↓それを受けてClaude 3.5 Sonnetが修正。

Claudeへの連携は上記のように、まるっと貼り付けました。
しかし、AI同士のやり取りの橋渡しをするだけで出来上がるのは良いですね。
一応、不正防止のために最終更新日時を表示してほしい、等は要望として人間側が出しています。

今回のリリースには「Computer use」も発表されています。現時点では一般利用者向けには未開放ですが、文字通りPCをClaudeが操作できる機能のようです。具体的な性能は不明ですが、公式が公開している情報を見る限りでは、かなり使えそうですよね。

さて、一般の利用者からすれば、一見してインパクトの小さな発表に思えるかもしれません。しかし、実際に使用してみると、その進化は目を見張るものがあります。個人的には、これをClaude 4.0と呼んでも違和感のない品質だと感じました。

Anthropicの公式ベンチマークには記載がありませんが、OpenAIのo1-previewと比較しても遜色ない品質だそうです。o1-previewは思考に時間がかかる傾向がありますが、Claude 3.5 Sonnetは従来通り数秒で回答を生成し始めます。この応答速度を考慮すると、現時点で最強のAIモデルと言えるかもしれません。ただし、OpenAIサービス(ChatGPT-4o等)ならではのPython実行環境や画像生成機能など、それぞれの強みを考慮して選択することをお勧めします。

個人的なオススメは、ChatGPT(OpenAI)とClaude(Anthropic)の両方に課金することです(25ドル+25ドル)。コストは確かにかかりますが、日常的に活用すれば十分に元が取れる投資になるでしょう。

参考

数日前に行った、同じ質問のやりとりです。

この記事が気に入ったらサポートをしてみませんか?