新たな王者の誕生!!!
4,199 文字
人類の歴史上初めて、GoogleがOpenAIの主力モデルを打ち負かすことに成功しました。これは前例のない出来事であり、私たちはその瞬間を目撃したのです。これが壁の存在を意味するのか、あるいは壁がないことを意味するのかはわかりませんが、少なくとも今日、GoogleはLMSチャットボットアリーナでリーダーボードのトップに立ちました。
このモデルについて学び、なぜこのモデルが優れているのかを見ていき、簡単なテストを行って、このモデルにどうアクセスできるかを見ていきましょう。このモデルには奇妙なことに名前がありません。ただGeminiと呼ばれているだけで、Gemini 1.5のようなバージョン名もありません。現時点ではただGeminiなのです。
驚くべきことに、GoogleのCEOであるスンダー・ピチャイは、この分野で非常に有名な開発者リレーションのプロダクトリードであるローガンのツイートを引用リツイートしました。彼は「Gemini exp 1114はかなり良い」と述べ、これはLMSアリーナのツイートの引用でした。
このメッセージを見ると、このモデルが初めて総合リーダーボードで1位を獲得したことがわかります。数学リーダーボードで1位、難しいプロンプトで1位(正直に言って、難しいプロンプトは本当に難しいものです。だからこそ難しいプロンプトと呼ばれているのです)、クリエイティブライティングで1位、ビジョンでも1位です。これは単なる大規模言語モデルではなく、ビジョン言語モデルでもあります。他にもモダリティがあるかどうかはわかりませんが、現時点でビジョンでは1位、コーディングでは3位、スタイルコントロールでは4位となっています。
これがGoogle DeepMindの新しいモデルです。評価の信頼区間を見ると、WSの数が少ないため少し高くなっています。時間とともに信頼区間は下がっていくと思われます。知らない人のために説明すると、信頼区間が小さいほど、モデルのELOスコアをより確実に信頼できます。
この特定の仕事ができるのは、数学の分野ではow preview、Gemini XP 1114、W1 miniの3つのモデルだけです。これは、何らかのテストタイムスケーリングやテストタイム計算が行われているのではないかと考えさせられます。これは最近、HermesのReasoning ForgeやHermes for re in APIで見られた傾向です。
このモデルの下で何が調理されているのかはわかりませんが、現時点で私たちが知っているのは、モデルがあり、エンドポイントがあるということです。これが単一のモデルなのか、複数のモデルの集合体なのかさえわかりません。私たちが知っているのは、Google DeepMindから新しいエンティティ、新しいモデルが登場し、それが多くの異なるベンチマークで1位を獲得し、初めてLMSリーダーボードのトップに立ったということです。
あなた自身で確認できます。LMSアリーナに行けば、このモデルとチャットを始めることができます。これが一番簡単な選択肢です。他のモデルとこのモデルの応答を比較したい場合も、非常にシンプルで分かりやすいです。
しかし、もしあなたがそれを望まない場合、つまり対決を見るためではなく、グラディエーターを見ているわけでもなく、エンターテイメントを求めているわけでもない場合は、Google AI Studioに行くことができます。モデルはすでに利用可能です。
Googleを賞賛すべき点が1つあるとすれば、このモデルがウェイトリスト制ではないことです。発表と同時にモデルが利用可能になっています。これは最近の多くの企業ではあまり見られないことです。
唯一の注意点は、このモデルが32,000トークンのウィンドウで提供されていることです。OpenAIならわかります。Googleは100万トークン、200万トークンのモデルを持つ会社です。そして今、Google は実験的な1114を発表しましたが、これは32,000トークンです。
確実ではありませんが、ローガンに尋ねたところ、更新されるとのことでした。値が更新されるのか、コンテキストウィンドウが更新されるのかはわかりません。このモデルのコンテキストウィンドウが小さいという事実は、何らかのテストタイムスケーリングが行われているのではないかと再び考えさせられます。テスト時、つまり推論時に何らかのコードインタープリターのようなものが動作しているのかもしれません。おそらく、十分な遅延を避けるために小さなコンテキストウィンドウを望んでいるのでしょう。これはただの推測です。純粋な推測です。
このモデルについては、先ほど説明したように、LMSアリーナに行って遊ぶことができます。運が良ければモデルを使用できます。または対決に行って、現在デフォルトで利用可能なGoogleモデルを選択し、比較したい他のモデルを選んでチャットを始めることができます。
しかし、私は比較をするためにここにいるわけではありません。とても単純な基本的な質問をしてみましょう。誰もが尋ねる最も退屈な質問の1つを私も尋ねたいと思います。「ジョークを書いて」...申し訳ありません、これはフロイト的な失言です。私はR&ストロベリーについて尋ねるつもりでしたが、私の潜在意識の中には常にイーロン・マスクについての質問があったようです。
では、「イーロン・マスクについてのジョークを書いて」と送信してみましょう。かなり考えていますね。5秒かかりました。今度は同じことをGemini 1.5 Pro O2に対して試してみましょう。これは200万のコンテキストウィンドウを持つモデルです。同じ質問をして、かかる時間を見てみましょう。
より小さいコンテキストを持つモデルの場合、単純な質問に対して4倍の時間がかかっていることがわかります。一回限りのことかもしれません。他の質問をしてみましょう。
「なぜイーロン・マスクはTwitter本社にはしごを持って行ったのか?」「彼らがバーを上げようとしていると聞いたからです。」
このモデルは「なぜイーロン・マスクは道を渡ったのか?」「火星に行くためです。」明らかに陳腐なジョークですね。
もう一度試してみましょう。「イーロン・マスクについて、深刻でないジョークを書いて」同じ質問ですが、キャッシュが働いているかどうかを確認したいと思います。
「なぜイーロン・マスクは彼のガールフレンドの人工知能と別れたのか?」「彼女が彼の文章をコードで終わらせ続けたからです。」なんて陳腐なジョークでしょう。私にはジョークが理解できなかったのかもしれません。
再び4秒かかりました。元のモデルに戻って、大文字小文字を変えて質問してみましょう。実行すると1.2秒かかります。
私の推測では、テスト時に何か起こっているようです。テストタイムスケーリングの計算やコードインタープリターのような何かかもしれません。
では、数学の質問をしてみましょう。実際には、ビジョンに関する質問をしたいと思います。りんごの数を数えてみましょう。通常、私はラッパー付きの5つのりんごがある写真を選びます。1、2、3、4、5。これをコピーして戻って貼り付けます。
「いくつありますか?」画像だけを提示し、りんごという言葉はヒントとして与えないようにします。新しいモデル、1114は6秒かかって「画像には5つのりんごがあります。1、2、3、4、5」と答えました。
こちらは4秒かかり、6秒かかり、4秒かかって「3つの緑のりんごと2つの赤いりんご」と答えました。正直に言うと、私は最新のモデルではないこちらの応答の方が好きです。
では、別の質問、数学の質問をしてみましょう。「bananasの中のbの数は?」単にbと言うのではなく、テストしてみたいと思います。
この質問をしました。何秒かかるか見てみましょう。平均応答時間は4〜5秒くらいだと思います。古いモデルは「banには0個のbがあります」と答え、真面目です。これがナンバーワンモデル、トップモデルなのに、私にウインクしています。なぜですか?正しい答えを出していないのにウインクするなんて。
こちらに戻ると、「bananasという単語には1つのbがあります」。再びGemini 1.5 Pro O2は私が求めていた答えを、より短い時間で出してくれました。こちらはより多くの時間がかかり、少なくとも2秒多くかかって間違った答えを出し、大文字のBが1つあると言ってウインクしてきました。
このビデオを終える前に最後の質問をしてみましょう。「Pythonを使って棒グラフを作成するのを手伝ってもらえますか?」ですが、Pythonのライブラリ名の代わりにRのライブラリ名であるggplot2を指定してみましょう。
かなり考えていますね。これはPythonのライブラリではなく、Pythonでのggplotの相当するものはplotlineだと説明してくれています。かなり良い仕事をしていますね。
同じ質問を試してみましょう。トリックはできないようです。レイテンシーが問題なのかもしれません。32,000のコンテキストウィンドウにした理由がそれかもしれません。この質問に答えるのに30秒かかり、こちらは16秒かかりました。2倍の時間がかかっています。これも再び、テスト時に何か起こっているのではないかと推測させられます。
このモデルをさらに探求したいと思います。これは数時間前にリリースされたばかりです。得られた応答についてどう感じたか教えてください。私はまだGeminiファミリーのモデルの中ではGemini 1.5 Proが好きです。
このモデルを本当に優れたものにしている要因を理解するにはまだ時間がかかりそうです。まだテストできていない何かがあるかもしれません。基本的なテストでは、このモデルはかなり多くの時間を要します。推論時に何か裏で動いているという事実かもしれません。しかし、Googleがイノベーションを起こしているのを見るのは嬉しいことです。おそらく壁はないのでしょう。また別の動画でお会いしましょう。ハッピープロンプティング!