
Google AIがOpenAIを打ち破る!最終的なAI対決に決着
3,737 文字
この動画では、Googleが現在のAI界の王座をOpenAIから奪取した経緯について説明します。数日前、GoogleがフラッグシップモデルのV2を発表しました。これは、他のどのビデオモデルをも凌駕する生成型テキスト・動画モデルです。ここで見られるのは、完全に革新的なものであり、初めてハルシネーション(誤った生成)を起こさないビデオモデルとなっています。物理法則や髪の毛など、すべてが正確に機能しており、これはまさにビデオモデルに求められていたものです。
これは、Googleのコア製品群の実力を初めて垣間見る機会となりました。多くの人々がGoogleは後れを取っていると考えていたため、これはAI業界全体にとって明確な警鐘となりました。GoogleがV2を発表したとき、実は彼らがかなり先を行っていることが判明したのです。
興味深いのは、OpenAIがSoraをリリースしてからそれほど時間が経っていないということです。テック業界でよく知られている人物の一人、マーカス・ブラウンリーは、テクノロジーレビュアーとして活動しています。最近、彼がSoraについて言及しているのを見ました。12月9日、彼は「噂は本当だった。OpenAIのビデオジェネレーターSoraが一般公開される」と述べ、このソフトウェアには大きな期待が寄せられました。そしてわずか5〜6日後の12月16日、同じインフルエンサーから別のツイートが投稿されました。「Googleの新しいビデオ生成モデルはV2と呼ばれ、もしこれらの厳選された例が本物なら、Soraから得られたものよりも優れている」と述べています。最も尊敬されているテクノロジーレビュアーの一人が、あなたの製品について「見たことのあるものの中で最高」と評価するのは驚くべきことです。
その週にはOpenAIもビデオジェネレーターをリリースしましたが、これも本当に注目に値します。これらのソフトウェアのデモンストレーションは、本当に驚くべきものでした。V2がトマトを非常に一貫した方法でスライスする様子が見られた一方、Soraにはいくつかの間違いが見られました。これはSoraの唯一のミスではありませんでした。残念ながら、これらは選り抜きの例ではないようでした。
Twitterでは、V2がほぼすべての指標でSoraを上回ったという意見が継続的に見られました。例えば、The Venture twinsの例では、ハードル走をしている人物の映像において、Soraは正確に生成できていませんでした。しかしGoogleのV2を見ると、あらゆる面で驚くほど正確な映像が生成されています。
V2だけでなく、Imagen 3も驚くべき成果を上げました。これはGoogleの別の製品で、基本的に現在利用可能な最高品質のテキストから画像生成モデルです。ベンチマークを見ると、他のどの画像生成モデルと比較しても、Imagen 3がELOレーティングでリーダーとなっています。Midjourney、DALL-E 3、Stable Diffusion、Flux 1.1など、短期間でたくさんのモデルが登場しましたが、それらを上回る画像生成モデルは現在存在しないという驚くべき成果です。
画像生成だけでなく、GoogleはGemini exp 1206も発表しました。これは基本的にGeminiの2番目のモデルになる可能性があり、過去2〜3週間、チャットボットアリーナでランキング1位を維持しています。つまり、現在人々が2つのモデルを並べてブラインドテストを行う際、多くの場合GoogleのGemini新モデルが選ばれているということです。これは、OpenAIが王座から降ろされただけでなく、多くの人々が様々な用途で使用していたClaudeも同様に王座から降ろされたことを意味します。
もちろん、ブランド名はモデルの出力をどう見るかに影響を与えますが、モデルの出力を並べてブラインドで見た場合、Geminiがリーダーボードで明確に1位であることがわかります。さらに、Gemini Flashを見ると、そのモデルはo1 previewやo1 miniよりも上位にランクされています。つまり、Googleはビデオ、画像、そしてテキスト生成のすべてを支配することに成功したように見えます。
また、これらの大規模言語モデルのビジョン面でも、Gemini Flashやその他のGemini experimentalモデルがトップに立っていることがわかります。ClaudeやChatGPTからの出力を上回っており、これはビジョン領域でClaudeがトップを維持すると考えていた私にとっては驚くべき成果です。
ビジョン領域だけでなく、軽量モデルに関してもGemini 2.0 flash experimentalは単純に傑出しています。これらのベンチマークを見ると、他のモデルとは比較されていませんが、Gemini 1.5 flashはかなり凄いモデルでした。そして今、Gemini 1.5 Proよりもはるかに優れたこのモデルが登場し、Gemini 2.0 flashはほぼすべてのモデルを凌駕していることがわかります。このモデルがランキングで2/3位にいることを考えると、これは驚くべきことではありません。
素晴らしいLLMを持っていただけでなく、GoogleはAIエージェントのデモプロジェクト「Astra」も発表しました。これは基本的にOpenAIへの対抗というわけではありませんが、AIのリーダーになることを目指したものです。もちろん、最も重要なことの一つはAIアシスタントを持つことです。これはGemini 2.0を使用して、ユーザーのためにリアルタイムで世界について推論するAIアシスタントです。
これは高度なAIアシスタントで、基本的に超人的な能力を得ることができます。カメラを使って行き先を推論したり、地図機能を使用したり、人間ができることは基本的に何でもできます。もちろん物理的な世界は除きますが、その膨大な知識データベースとインターネットに基づいて必要な情報を教えてくれます。
Googleが様々な製品に深く組み込まれていることを考えると、このエージェントがツールの使用やマルチモーダル推論を用いて目標を達成できることは、将来的に多くの人々が使用することになるでしょう。
エージェントだけでなく、もちろん周りの世界で異なることができるエージェントを持つことは素晴らしいですが、物理的なデバイスについてはどうでしょうか。これはGoogleが最近発表したAndroid XRプラットフォームで実現されています。これは拡張現実、仮想現実、複合現実を含むXRデバイス向けに特別に設計された新しいオペレーティングシステムです。これは、AIをシームレスに生活やワークフローに統合できるようにGeminiが組み込まれたグラスであり、非常に画期的なものです。
これはおそらくすべてのGoogleアプリに組み込まれ、接続され、Googleスタックにシームレスに統合されることになります。さらに、GoogleはこれをGoogle開発者やAndroid開発者が開発を始められるように開放しました。開発者は非常にクリエイティブな集団であることを考えると、このプラットフォームには多くのクールなものが登場することでしょう。私はメタのグラスでAIウェアラブル製品を実際に使用した経験がありますが、それらには完全なAI機能は搭載されていませんでした。
物理的な製品だけでなく、GoogleはDeep researchと呼ばれるものを統合することで、さらに一歩進んだ取り組みを行いました。これは、インターネットを毎日使用する人にとって最も素晴らしいツールです。インターネット上の100の異なるウェブサイトを検索し、欲しい情報について10ページの研究レポートを生成することができます。これは最新の情報で、あなたよりも速く、時間を大幅に節約でき、インターネットで愛用されているツールの一つであるPerplexityを上回るものです。
このようなものがGoogleから突然登場したことは、本当に驚くべきことです。もちろん小規模な検索には使用しますが、個人の研究に何時間もの時間を節約してくれます。また、Google Geminiにはデータ分析の秘密機能も組み込まれています。これは他のLLMにはない機能であり、Google Geminiに組み込まれたことで、この素晴らしい機能を使用する人がどれほど増えるか興味深いところです。
さらに、GoogleはGeminiにメモリー機能も追加しました。OpenAIのChatGPTにメモリー機能があったことを覚えていますか?今はGoogle Geminiでも「これを覚えておいて」「あれを覚えておいて」と言うことができ、全体的により個人化されたものになります。
Googleがこの1週間だけで成し遂げたすべてのことを見ると、彼らがAIイノベーションとAI分野のリーダーであることは明らかだと思います。