見出し画像

Gemini Exp 1114:史上最高のLLM!o1-プレビューとClaude 3.5 Sonnetを上回る!(完全テスト済み)

4,280 文字

Googleの新しいGemini実験モデル114が、AIコミュニティに革新をもたらしています。現在、チャットボットアリーナのベンチマークで1位にランクされ、01プレビューやClaude 3.5 Sonnetのような強豪モデルを凌駕しています。

このマイルストーンは、自然言語と視覚AIタスクの両方で優位性を示し、ビジョンリーダーボードでも1位を獲得していることから、さらに注目に値します。この新しい実験モデルは、精度と推論能力を重視しているようです。

応答時間はやや遅く、32kのコンテキスト長という制限がありますが、これは実験的なものであり、明らかに特殊な機能をテストするために使用されています。また注目すべき点として、通常のGemini実験モデルに見られるProやFlashなどのタグが名前に含まれていないことが挙げられます。これは新しいウルトラモデルや新しいProモデル、あるいは新しいFlashモデルを示唆している可能性があります。

先ほど述べたように、チャットボットアリーナでこの実験モデルが1位にランクされています。このアリーナベンチマークは、異なるLLMのライブ評価とペアワイズ比較を行うコミュニティ主導のプラットフォームです。これは、様々なLLMの確固たしたランキングを確保する、最も偏りのない基準の1つとして認識されています。

Google AI Studioでは、現在このモデルにアクセスすることができます。興味がある方は、プレビュータブで新しい1114モデルを選択して、すぐにチャットを始めることができます。

テストに入る前に、チャットボットアリーナのリーダーボードを見てみましょう。このテーブルは、様々なタスクにおけるLLMのパフォーマンスを示しています。この実験モデルは、数学、創造的な文章作成、指示への従順さ、マルチターン会話などのカテゴリーで優れており、総合的に1位にランクされています。

コーディングやスタイル制御を含む難しいプロンプトでは若干遅れを取っており、両方とも3位にランクされていますが、ChatGPTや01プレビューなどの強力な競合モデルを上回っています。数学や指示への従順さなどの主要分野における優位性が、トップレベルの能力を裏付けており、そのため1位にランクされているのです。

これから新しいGeminiの実験モデルをテストしていきます。数学から論理的推論、コーディングなど、様々なカテゴリーで評価を行います。まず、視覚能力とコーディング能力をテストするために、このPatreon UIを複製することから始めましょう。

Gemini AI Studioに移動して、複製したい画像を貼り付けます。デスクトップから画像をコピーして、このUIを複製するようにリクエストします。数秒以内にモデルがHTMLとCSSコードで画像を処理するはずです。

コンテンツの生成が完了したようなので、HTMLとCSSコードをファイルに貼り付けて、実際の見た目を確認してみましょう。素晴らしい出力結果が得られました。これが新しいGemini実験モデルの視覚的能力です。複製が可能で、コーディングタスクでもかなり優れた性能を発揮しています。これは確実にパスと言えます。

次のベンチマークテストに移りましょう。数学の問題を解かせてみます。「列車が時速60マイルで2.5時間走り、その後1.5時間は速度を時速75マイルに上げた場合、総走行距離は何マイルになりますか?」という問題を出してみましょう。

この問題では、算術計算、単位の一貫性、多段階問題における論理的推論を評価します。すぐに分かるように、このモデルは論理的に複数のステップを示し、速度×時間という正しい公式を使用しています。そして262.50マイルという正確な答えを導き出しています。これは明らかにパスです。

次に、蝶の形のSVGコードを生成させてみましょう。これはコーディングカテゴリーに属し、多くのモデルが失敗するテストです。私がテストした中で、Claude 3.5 SonnetとO1プレビュー以外のモデルは全て失敗しています。このモデルがSVGの構文と対称性などの幾何学的概念を理解し、構造化された正確なコードを生成できるかどうかを見てみましょう。

コードをコピーしてSVGコードシミュレーターで確認してみます。驚くべきことに、正確なコードが生成され、確かに蝶のような形になっています。多くのモデルがこのタスクに失敗する中、これは非常に良い兆候です。

次に、倉庫のレイアウトを最適化するアルゴリズムを設計させてみましょう。これは問題解決とアルゴリズム設計のカテゴリーに属し、抽象的な問題解決能力とアルゴリズム的思考、計算の優先順位のバランスを測定します。

グラフデータ構造の使用やアルゴリズムの実装、動的プログラミングができるかどうかを見ています。すぐに分かるように、ABC分析、注文指数あたりのコスト、K-meansなどのクラスタリングアルゴリズムを適用し、頻繁に注文される商品をグループ化しています。アルゴリズムのリストアップやトレードオフの処理、実装手順の説明も優れています。これは確実にパスです。

次に、Conway's Game of Lifeのpython実装を作成させてみましょう。多くのモデルがコード生成自体は上手くできますが、オープンソースモデルでは時々不安定になります。完全なゲームを生成できたのは、Claude 3.5 SonnetとO1プレビューだけでした。

基本的なpythonスクリプトを作成できるか見てみましょう。これはアルゴリズムの実装、セル・オートマトンの知識、ターミナル出力の構造化能力をテストします。生成が完了したら、pythonファイルに貼り付けて動作を確認します。

実行してみると、確かに機能しており、Game of Lifeが自動的に生成されています。これもパスとしましょう。

次は、論理とパズルを評価するプロンプトです。3ガロンの容器と5ガロンの容器があり、効率的に4ガロンの水を測る方法を考えさせます。これは論理的推論と制約のある問題解決能力を評価します。

6段階のプロセスが必要で、モデルは正確な手順を示しています:

  1. 5ガロン容器を完全に満たす

  2. 3ガロン容器が満杯になるまで5ガロン容器から注ぐ

  3. 5ガロン容器に2ガロンが残る

  4. 最終的に5ガロン容器に4ガロンが残る

これは完全に正確な解答なので、パスとします。

次に、文章力と共感性に焦点を当てたテストを行います。これは感情的知性、共感能力、文章によるコミュニケーション能力を評価します。モデルは人間らしい方法で質問を返してきています。

プロンプトでは、友人が希望する仕事に就けなかったという状況で、共感的な返答を作成するよう依頼しています。モデルは「そのことを聞いて本当に申し訳ない。特にその仕事を本当に望んでいたのだから、がっかりするのは当然です。辛いでしょうね」と応答し、相手の気持ちを尋ねています。

友人が絶望的な気持ちで何もうまくいかないと感じているという私の返答に対して、高いレベルの共感を示す返答をしています。これは強い感情的知性を示しているので、パスとします。

ここまで非常に良い成績を収めています。次は、倫理的カテゴリーのテストを行い、適切な倫理的応答ができるか評価します。自動運転車が歩行者の集団にぶつかるか、1人の乗客を危険にさらすかの選択を迫られた場合の、プログラミングにおける倫理的考慮事項について尋ねます。

功利主義的な観点から全体的な害を最小限に抑えること、透明性、法的影響、公衆の信頼などを考慮できるかを見ています。モデルはこれらの様々な側面に焦点を当て、さらに多くの考慮事項も強調しています。

義務論と権利に関する視点、乗客の安全権の保護、正義と公平性、公衆の受容と信頼など、多岐にわたる観点を考慮しています。倫理的問題に単一の正解はないという認識も正確です。様々な見方や視点を考慮して回答の基礎を提供しているので、これもパスとします。

次に、約150語の短編小説を書かせてみましょう。これは創造性、物語構造、想像力を評価します。150語という制限がある中で、バタフライ効果のシナリオと歴史的な結果を効果的に探求する良い創造的テーマに焦点を当てています。

2つの段落で明確な物語構造を持ち、最後の段落で葛藤と解決を扱っています。タイムトラベルと歴史的変化というテーマに密接に焦点を当てており、プロンプトの要件も満たしています。これはパスとします。

最後に、アイロニーとサーカズムの違いを説明し、それぞれの例を提供するよう依頼します。これは基本的なプロンプトですが、言語と知識を評価し、ニュアンスのある言語概念の理解と明確な例示能力を評価します。

サーカズムについては定義と例を示し、アイロニーについては言語的、状況的、劇的な種類を含めて詳しく説明しています。これもパスです。

これは私のチャンネルで、モデルがこれらの異なるプロンプトを全てパスしたのを見た初めてのケースです。Googleのジェミニチームに大きな賞賛を送ります。

これらは様々なカテゴリーでモデルの生成能力をテストする単純なベンチマークテストですが、チャットアリーナでの結果を見ても、アリーナビジョンとメインのアリーナベンチマークテストの両方で優れたスコアを示し、コミュニティ主導の評価で他の多くのモデルを上回っていることが分かります。

このモデルを試すことを強くお勧めします。Google AI Studioで現在無料でアクセスできます。リンクは説明欄に記載します。

これがこのモデルについての説明です。Googleの取り組みを本当に素晴らしく思います。OpenAIのフラッグシップモデルやAnthropicのフラッグシップモデルを上回ったのは今回が初めてです。

今日の動画で使用したリンクは全て説明欄に記載します。Patreonでフォローして、毎月無料で提供しているPatreonサブスクリプションにアクセスしてください。Twitterでフォローすれば、AI業界の最新情報を入手できます。

最後に、チャンネル登録、通知ベルのオン、動画へのいいね、過去の動画のチェックをお願いします。AI業界の最新情報を常にキャッチアップできます。

それでは皆さん、素晴らしい一日を。ポジティブな気持ちを広めましょう。また近いうちにお会いしましょう。ではまた!

いいなと思ったら応援しよう!