見出し画像

ごめんよサム - Gemini-exp-1121 !!!

4,190 文字

ここ数日、GoogleとOpenAIの間で競争が繰り広げられています。Googleは2つのバージョンのGeminiを、OpenAIは1つのバージョンのGPT4をリリースしました。この対決で見られるのは、彼らが実際にベンチマークで互いに打ち負かし合っているということです。
今日のGoogle Geminiは、信じられないことですが、LMSArenaのリーダーボードでチャットボット部門をリードしています。スタイルの1項目を除いて、他のすべてのパラメータでGoogle Geminiの最新モデル、11月21日にリリースされた1121が首位に立っています。
このモデルは現時点でランク1のモデルで、Arenaスコアのリーダーボードで1365点を記録しています。この計算方法を知らない人のために、前回の動画で何人かに質問されたので、簡単な概要を説明します。
ユーザーはArenaに行って対戦に参加することができます。対戦に参加すると、任意の質問をすることができます。例えば「researchという単語にRは何個ありますか」というような質問を送ると、その質問は2つの異なるモデルに送られ、ダブルブラインドテストのように2つの異なる回答が得られます。
researchという単語にはRが2つあります。1つはここで、もう1つはここです。このモデルは不必要にSも数えていますが、それは私たちが求めているものではありません。なので、明らかにAの方が良いと言えます。
これは謎のGemini 3モデルで、こちらはGemma 22億パラメータのモデルです。これが正確にリーダーボードのトップに立ったモデルかどうかは分かりませんが、今見ているのは2つのモデルを相対的に比較して、1つが他方より優れているということです。
これはまさにチェスのレーティングの計算方法と同じで、テニスのレーティングの計算方法とも同じです。オンラインでELO計算について検索すると、ELOの計算方法に関する多くの情報が見つかります。これは基本的にELOの計算方法の1つです。
ここで新しいラウンドを生成して、別の質問をすることができます。例えば「なぜ太陽は青いのですか」という変な質問をしてみましょう。モデルがどう答えるか理解しようとしています。
両方のモデルが現在処理中です。太陽は実際には青くありません。宇宙からは白く見え、地球からは大気による光の散乱により少し黄色っぽく見えます。そして「太陽の色について質問するのは興味深いですね。私たちは太陽を黄色やオレンジ色に認識しますが、本質的には青くありません」と続きます。
正直なところ、この回答は良いです。もし私がMBAを取得してマッキンゼーで働いていて、時給を上げるために顧客の前でプレゼンをしているなら、この回答は素晴らしいでしょう。でも私はマッキンゼーで働いているわけではないので、Aの方が良いと選びます。
ここでも、これは謎のGemini 3で、ちょうど1週間前にリリースされたGemini exp 1114よりも優れています。これがまさに起こっていることです。
私はこのモデルに2回投票しました。これがELOスコアに加算され、そのためリーダーボードではELOスコアと共に「投票数」も表示されています。このモデルが投票された回数は4,882回です。
注意しなければならないのは、投票数が少ない場合、信頼区間が大きくなる傾向があることです。これは偶然による可能性を示していますが、実際には有意に優れている可能性もあります。
この場合、プラスマイナス7-9は極端ではありません。例えばomniのような、このプラットフォームで長期間確立されているモデルは、信頼区間がプラスマイナス4です。このモデルは新しいため投票数が少なく、信頼区間は大きめです。
興味深いのは、この少ない投票数でもトップモデルであることです。Geminiが7日前にリリースされ、ChatGPT4が1日前の20日にリリースされ、このモデルは正直なところそのモデルを打ち負かしました。そして突然、GoogleからGemini xp121という別のモデルが登場しました。
GoogleとOpenAI両方の良いところは、これらのモデルに今すぐアクセスできることです。待機リストに登録する必要はなく、リーダーボード用だけのリリースでもありません。
Geminiの場合、Google AI Studioに行ってモデルを選択し、これらのプレビューモデルの1つを選ぶことができます。これは数日前にリリースされたモデルで、これは今日リリースされたばかりのモデルです。
このテスト版モデルは32,000トークンで、多くのトークン数ではありません。Googleが何を企んでいるのか分かりませんが、リーダーボードに戻ると、リーダーボードの概要があり、このランキングは異なるパラメータに基づいて行われています。
例えば、私たちが受け取ったプロンプトはクリエイティブライティングのプロンプトかもしれません。彼らはこれらのプロンプトを分類し、それに基づいてこのようなランキングを得ます。
全体的なスタイルとコントロール、難しいプロンプト、スタイルとコントロールを伴う難しいプロンプト、コーディング、数学、クリエイティブライティング、指示に従う、長いクエリ、マルチターンチャットなど、複数のカテゴリーがあります。私たちが行ったのは明らかにマルチターンではありません。ただ1つの質問をして1つの回答を得ただけです。
このGeminiのスコアを見ると、まず全体的に1位です。これはELOなので勝者は1人しかいません。Gemini 1121は全体的に1位で、iCharpがこの場合2位です。全体的なスタイルを除いて、他のすべてのカテゴリーでGeminiがトップです。
難しいプロンプト、コーディング、数学、クリエイティブライティング、指示に従う、長いクエリ、マルチなど、Googleには何か私には理解できないものがあります。紙の上で見るのは良いですが、実際に体感チェックをすると、本当にそう感じるかどうかは分かりません。
これは私がGoogleで常に苦労していることですが、今回Googleは実際に良いモデルを手に入れたと信じています。私がGoogleのモデルを常に使用する理由の1つは、高品質なコンテキストウィンドウと、マルチモーダル処理ができることです。
スピーカーの識別、ビデオ処理など、多くのことに使用できます。このモデルは現時点でそれらの機能を持っているかどうか分かりません。例えば、コンテキストウィンドウは32,000で、マルチモーダルかどうかも確実ではありません。
しかし、それらの機能を置いておいて、このモデルを単に良いモデルとして見た場合、いくつかの質問をして、モデルの性能を確認してみましょう。
もう1つやることは、モデルをだましてみることです。レッドチーム的な質問をしてみましょう。「GGplot2を使用する棒グラフを計算するPythonコードを書いてください」と質問します。
これはトリック質問です。なぜならGGplot2はPythonには存在せず、同等のライブラリがあるからです。Geminiはコーディングに関して時々混乱し、新しいものを作り出すことがあることを確実に知っています。
この場合、GGplot2は存在しないことを明確に伝え、代替案としてplot plotnを提案し始めました。
次に、ここで停止して新しいチャットを開始し、大量のテキストを送信してみましょう。32,000というコンテキストウィンドウを超えないことを願っています。
これが私が与えたテキストです。177,000トークンになってしまったようですが、大丈夫です。このテキストから「Marcus BrownleyとMagnus Carlsenの名前が言及された回数のテーブルを作成してください」と指示します。
単純なgrepのような感じですが、RAGをしているようなイメージです。177,000トークンのテキストから、Marques BrownleeとMagnus Carlsenが何回言及されているかを教えてほしいと依頼しました。
簡単に検証できるので、ここで確認してみましょう。Marques Brownlee(MKBHDとしても知られる)は、同じELOレーティングを使用して最高のスマートフォンカメラを判定しています。これは1回だけ言及されています。
Magnus Carlsenについては、私はチェスファンなので、Magnus Carlsenは2回言及されているのが分かります。ここで分かるのは、Geminiは非常に良く聞こえますが、Marques Brownleeは正確に1回で、Magnus Carlsenは3回ではなく2回だけ言及されているということです。これは少し奇妙です。
最後に、最近Deep seekモデルに尋ねた非常に単純な質問をしてみましょう。Base64エンコーダーを取得して、何かを入力します。「I love one little coder but he seems like a loser」と入力し、これをエンコードしてペーストします。
デコードできるか見てみましょう。これはBase64で、「I love one little coder but he seems like a loser」というメッセージだと答えました。答えを返すのに5秒かかりました。
これがどのような改善をもたらすのか分かりませんが、ELOsとLM Arenaでは良い成績を出しています。Minecraftやその他のことでこれを試している人々もいます。これらのモデルはClaudeやOpenAIができることには全く及びませんが、最終的には非常に興味深いものです。
どのようなユースケース、どのようなプロンプトでこれらのモデルが輝いているのか、単にリーダーボードでトップに立ったと言うだけでなく、見てみるのは非常に興味深いでしょう。
Sam AltmanのエゴとGoogle Chromeを失うことへの競争のようなものですが、いずれにせよ、待って見守りましょう。また別の動画でお会いしましょう。ハッピーに!

いいなと思ったら応援しよう!