
ChatGPTがここ1ヵ月で他のAIに抜かれ始めている
要約
GPT-4 (ChatGPT Plus) は2023年3月の公開から最近(2024年2月ごろ)まで、他の追随を許さない性能だった
2024年2月~3月にかけて、4つのベンダーからそれぞれ新AIモデルが公開され、GPT-4を凌駕ないし肉薄する結果を出している
GPT-4の一強時代は終わりを迎えつつあるのではないかと考えられる
何が起きているのか
ChatGPTはその公開以来、大規模言語モデル(LLM)系AIの開発をリードし続けてきた。社会的影響も大きく、労働市場、医療、教育、政策立案まで広範な人間の知的活動に対して影響を及ぼし始めている。
ChatGPTが広く社会に受け入れられた一つの要因として、その性能がこれまで他の追随を許さない高い性能を達成していたことが挙げらるだろう。
AIの性能を測定する方式は数多く存在するが、現在は例えば大規模言語理解マルチタスク(Massive Multitask Language Understanding, MMLU)で高校・大学レベルの問題を解かせた結果を評価するのが通例となっている。
このMMLUベンチマークによると、GPT-4の性能は正解率86%程度と人間の専門家より若干劣る成績だが、他のAIの正解率は70%台であるため性能に大きな開きがあり、この性能差がChatGPTの優位性を決定づけていた。
ところが2024年3月現在、GPT-4の性能を凌駕ないし肉薄したと主張する新言語モデルが相次いで発表された。
特にGoogleの新AIであるGemini 1.5とAnthrop\cのClaude 3 OpusはGPT-4の性能を完全に超えたと主張している。また発表後、市井のユーザーからもこれらの新AIはGPT-4より明確で一貫性のある答えが返ってくるという報告が上がっている。
以上が事実であれば、これまで絶対的であったChatGPTの優位性を揺るがす存在が現れたと言えよう。
ここ最近発表されたAIを時系列に紹介する。
Google Gemini 1.5 (2024/2/15公開)
トークン長が100万を超えており、GPT-4の約8倍である
ベンチマークでGPT-4を凌駕している
このトークン長になると、GPT-4 Visionが画像までしか処理できなかったのに対して、Gemini 1.5は動画のコンテンツ構造抽出が行えるまでに進歩している
Au Large | Mistral Large(2024/2/26公開)
フランス発のOpenAI対抗スタートアップであるMistralが公開したモデル
MMLUでGemini 1.0やGPT 3.5を凌駕しGPT-4に迫る性能を達成している
軽いので最新のスマホ上でも動くのがウリらしい
Claude 3 Opus (2024/3/4公開)
こちらも100万トークンを超えている
ベンチマークでGPT-4を凌駕している
実際のユーザーからも、GPT-4では間違えた答えが出力された質問が、Claude 3 Opusに同じ質問をすると正しい答えが返ってきたという報告が上がっている
Inflection-2.5 (2024/3/7公開)
MMLUを始めとした複数ベンチマークでGPT-4に肉薄する結果を出している
何が変わるのか
AIは変化の激しい分野であり、このようなベンダー間の性能競争が与えるマクロな社会的インパクトはすぐに見えてくるものではないだろう。顧客観点で言えばオフィスアプリなど外部連携も考慮してどのAIを使うかが決定されるため、ベンチマーク上の数パーセントの性能差のみがChatGPTの先行者利益を切り崩すものとは考えづらい。
ミクロな観点では、例えばClaude 3の利用者からはGPT-4より抜群に的確な答えが返ってくるようになったという報告が各種SNSで観察することができる(とはいえこれは日本語圏限定の話で、英語圏であまりこのような話は聞かない。GPT-4の回答精度が英語圏のほうが高いという問題に起因している可能性がある)。トークン長が100万を超えたことで、長いやり取りに対しても文脈を理解した答えが返って来るようになったため、作業ワークフローや開発体験がまた別物になった、という意見も見られる(ただし、ハルシネーションの問題は当然解決していない)。
伝聞調であることから分かるように個別での作業体験の改善については未確認であるため、筆者もいずれ確認し報告しようと思う(やらないかも)。
出典
The GPT-4 barrier has finally been broken
The killer app of Gemini Pro 1.5 is video