Claude3のOpusではなくSonnetを使うことにした理由
みなさんこんにちは。ケンブリッジ・テクノロジー・パートナーズでコンサル兼テクニカル・アーキテクトを担当している広沢です。
Claude3のOpusがAWSのBedrockにローンチされたので早速検証しました。
意外な結果となり私自身も驚きました。
まず結論
RAGにおいてSonnetとOpusを比べると、回答の品質差はほぼない
OpusはSonnetに比べてレスポンスが約1.7倍遅い
Opusはスロットリングが頻発する(発生率55%)
非機能面も含めると総合的にはRAGではSonnetの方が良い
首を長くして待っていたよ
先日の記事「Claude3とGPT-4どちらが上か、あるいはタケノコの里」でも紹介しましたがGPT-4を頭一つ越えたのがAnthropic社のClaude3の「Opus」というモデルでした。
これまでAnthropic社の本家サイトではOpusは使えていたのですが、AWSのBedrockにローンチされていませんでした。
3月頭に「あと数週間でローンチされるよ」というので首をキリンよりも長くして待っていました。1日1回「Bedrock opus」で検索していたほど。
それが、4/17ついにBedrockにローンチされました。パチパチパチ
公式ブログの発表
Anthropic’s Claude 3 Opus model is now available on Amazon Bedrock | AWS News Blog
早速、弊社のRAGに組み込んで検証してみました。
RAGに組み込んだら意外な結果に
実際に弊社のRAGに組み込んで、OpusとSonnetを比較した結果がこちらです(毎回回答の質が変わるので各5回実行して総合的な評価としています)。
ちょっと拍子抜けしたというのが正直な感想です。
ほとんど差はないと言っても良いと思います。
なんなら、この表だけを見るとSonnetの方が良いと言っても良いくらい。
驚いたのはNo.3の「複数の資料を複合的に整理する質問」で何度やってもSonnetの方が良い回答になっていた点。
Opusのレスポンス性能とスロットリング発生率
<レスポンス性能>
OpusとSonnetを同時に検索して評価したのですが明らかにOpusの方が明らかにレスポンスが遅かったです(ちょっと待ってられないくらいの感覚)。
レスポンス性能を集計した結果が以下となります。
first_byte_latency, invocation_latencyともに、Sonnetに比べて約1.7倍ほど遅くなっていました。
RAGはレスポンス時間がUXに大きな影響を与えます。Sonnetの6秒でも遅いのに、Opusの10秒は耐え難い遅さと言えます。
補足:
LLMの応答性能はインプットとアウトプットのトークン数に比例します。
上記検証では以下のトークン数で検証を行いました。
インプット :約2万トークン
アウトプット:約400トークン
<スロットリング発生率>
検証中に、Opusはかなりの頻度でスロットリングが発生していました。
集計したところ55%の割合でスロットリングが発生していました(感覚的にはまたかよという感じ)。
レスポンスが悪いこともさることながら、スロットリングもUXに大きな影響があるので見逃せない問題です。
現状、Opusはオレゴンリージョンのみの公開で、かつ注目されていたモデルなので、アクセスが集中していることが推察されます。これによりスロットリングが発生していたのではと想像しています。利用リージョンが広がり、スロットリング問題が緩和されることを願います。
また、Bedrockのクォータについても英語サイトにはOpusの設定が更新されていましたのでご紹介します(Sonnet, Haikuに比べてクォータ制限が低く設定されています)※日本語サイトは4/20時点で未反映
なお、今回の検証ではクォータに引っ掛かることはない使用頻度・量だったのでBedrock側のリソース逼迫問題ではと推察しています。
まとめ
検証結果をまとめると、RAGで使用するなら現時点ではSonnetの方が良いのかなと考えます。
理由としては、以下でまとめたとおり、回答品質に有意な差はなく、非機能面(性能、スロットリング率)を考えるとSonnetを選択せざるを得ないからです。
<検証結果まとめ>
RAGでSonnetとOpusを比べると、回答の品質差はほぼない
OpusはSonnetに比べてレスポンスが約1.7倍遅い
Opusはスロットリングが頻発する(発生率55%)
非機能面も含めると総合的にはRAGではSonnetの方が良い
最後まで読んでいただきありがとうございました。
みなさんの活動の参考になれば幸いです。