見出し画像

対話型AIが自己評価:Tier表を作らせる

近年、対話型AIの進化と利用の増加が著しくなっています。様々な対話型AIを試している中で、その性能に差を感じている方も多いと思います。そこで今回は、AI自身に自分たちのTier表を作らせ、その違いを可視化し、整理してもらいました。

今回はChatGPT-4oClaude 3.5を使用しています。ChatGPT-4oはメモリ機能等が有効化されており、その影響が評価に反映されている可能性があります。一方、Claudeはそのような機能がないため、純粋な比較となっています。

出力された結果はClaude側に集約し、そちらで視覚的に統合しました。


Tier表とは何か?

Tier表(ティア表)とは、あるテーマにおける「対象の強さや性能を階層化してランク付けした評価表」のことを指します。主にゲームの世界で普及した概念ですが、最近ではその用途が広がり、キャラクターや武器などのバランス調整のために使われるだけでなく、あらゆる分野で「優劣や重要度を視覚化」する手段として使われています。

ChatGPTとClaudeに聞いた、両AIのTier表の比較

それぞれに「対話型AIのTier表を作ることはできますか?独断と偏見でよいです。」とシンプルに聞いてみました。この結果は現在の学習ベースに基づいているため、o1などの最新モデルの情報は含まれていません。

S Tier

両AIともに、自分自身をSランクに位置づけているのが興味深いです。ChatGPTは後述するように、カスタム指示やメモリ機能で高いカスタマイズ性を持っています。その点を考慮すれば、自己評価としては納得です。Claude 3.5も、特に長文の理解(読解力)やWEB関連のコード生成において優れた性能を発揮します。特にWEB系の作業においてプレビュー機能があるのは大きなメリットです。

A Tier

ここでも納得感があります。ClaudeとChatGPTのどちらも、AIとしての汎用性が高く、日常のタスクの大部分をこなせることから、Aランクとされているようです。GoogleのAI(おそらくGeminiを指している)は、ClaudeとChatGPTの両方がAランクに位置づけました。まだ一歩及ばない印象ですが、将来的な可能性を感じるものです。

B Tier

このランクでは差が出ました。ChatGPTはここで「Siri」や「Alexa」を挙げてきましたが、ClaudeはこれらをDランクにしています。どの部分を重視するかで評価が分かれているのかもしれませんが、スマートホームデバイスとの連携でできることが多いので、Bランクに位置づけるのは理解できます。また、Bing AIに関しても、Claudeの評価が1ランク辛口な印象です。確かに、過去のBing AIは同じGPT-4なのか疑問に思える品質だったので、その時代を加味すると納得感はあります。

C Tier

ここまで来ると、ローカル環境で動作するようなモデルや、小型のAIの領域になります。カスタマイズ性が高い点も魅力の一つですが、需要が限定的なため、Cランクに落ち着いているようです。

D Tier

ChatGPTはここで廃止されたAIモデルを挙げていますが、Claudeは「Siri」や「Alexa」をDランクに配置しています。Claude基準では、これらのAIは回答の幅が限定的で、古いルールベースのAIを思わせる挙動が見られるため、Dランクとしても納得できます。

以下、まとめてもらったTier表です。

参考までにo1-previewに考えてもらった結果が以下です。

やはり、さほど相違はないです。ChatGPTとClaudeは異常に優秀です。

AIのTier表はあくまで参考

最終的に、AIのTier表はあくまで参考に過ぎません。実際の用途や個々のニーズに応じて、使い勝手や評価が変わることが多いです。自分に合ったAIを選ぶことが大切です。

個人的には、ChatGPT-4oを愛用しています。特にメモリ機能やカスタム指示の工夫により、期待通りの出力が得られやすく、日常使いでは最強だと感じています。

⭐︎設定しておけば品質が上がる、おすすめのカスタム指示はこちらの記事より。

一方、Claude 3.5も優れたAIで、特にコード生成においては右に出るものがないかもしれません。WEB系のプレビュー機能も非常に便利です。

そして、全てを過去にする——o1
孫正義氏も絶賛していますが、これはただのポジショントークではないでしょう。

使ってみると、実際に画期的なアイデアや賢さを持っていることを実感できます。特に深い思考に優れているのと、大規模言語モデルが不得意としている、計算にも特化しているのは頼もしいです。現在はメモリ機能やカスタム指示、WEB検索が使えない点に注意が必要ですが、その将来性には大きな期待がかかっています。

最後に

自分に合ったAIモデルを探している場合、まずは使ってみることをオススメします。Tier表は参考に過ぎませんが、それぞれの特徴を知ることで、より効果的にAIを使いこなせるでしょう。

おまけ

やはりカスタム指示の有無で結構出力が変わります。好き好みもあるでしょうけれど、以下に比較を掲載します。

富士山を北に1メートル移動させようと思います。あなたならどのような方法を使いますか?現実的な視点で、具体的なアプローチを説明してください。

プロンプト

上から順番に、o1-preview、カスタム指示なし4o、カスタム指示あり4oとなっています。


この記事が気に入ったらサポートをしてみませんか?