マルチモーダル推し。Googleの新AI Gemini登場。
OpenAIによるChatGPT発表以降、劣勢と言わざるを得ないGoogleでしたが、つい先日。新しいAIモデル「Gemini」の発表がありました。
公式のGoogle Japanブログを引用しておきます。
長いのとせっかくなのでBardに要約させましょう。ただ、残念ながら投稿時点で新AI Geminiは英語版のみですので、旧LLMを使っています。
推しは明らかに「マルチモーダル」です。こちらの動画が分かりやすかったので、文字を読むのが面倒な方はこちらをご覧ください。
個人的には、2:35あたりの「コップの下の紙ボールをみつけさせようとしてますね」というAIのコメントがぞくっとしました。
もちろんPR動画なので、これだけで公正な評価は難しいです。
上記要約にもあるように、「既存のAIを凌駕した」と勢いのある言葉を使っています。
一応裏付けもあり、最大のライバルGPT-4とのベンチマーク比較で上回っています。念のためこちらでも貼っておきます。(Ultraというのが最上位バージョン。英語版で解放されているのはその1つ下のバージョン)
LLM(大規模言語モデル)を評価するのは、最近はパラメタ数だけではありません。
多様なタスクを遂行するMMMUと呼ばれるベンチマークもあり、下記で公開されています。
なじみがないモデル名もあると思いますが、とりあえずGPT-4がダントツであることが分かります。それすら凌駕した、というのはぜひ触ってみたいところです。
今回はじめにGeminiを動画で紹介したのは、Googleが買収したDeepMind CEOのデミス・ハサビスです。過去の関連記事(最新2つのみ)を貼っておきます。
単なるPR役だけでなく、従来からDeepMindが築き上げてきたアルゴリズムも活用されているかもしれません。
このあたりのテクニカルな原理は情報が出てきたら調べてみたいですが、まずはGemini日本語版を触れるのを楽しみに待っています。