「Gemini 2.0」徹底解剖！前モデルから進化したポイントと驚きの新機能を公開

2024年12月17日 23:10

こんにちは！AI-Bridge Labのせいやです😊

みなさんは、先日Googleから発表された「Gemini 2.0」の内容はご存知でしょうか？
単純に前のモデルと比べて回答速度や精度が上がっただけでなく、実生活ですぐに使えるような新しい機能も搭載されましたね。

ChatGPTが毎日少しずつ新機能を披露しているのに対して、Geminiはその全貌を一挙に公開したというようなアップデート内容でした。

今回は、Gemini 2.0で実装されたモデルの性能や新機能について、実際に使ってみた使用感も交えながら解説していきます！

Gemini 2.0の特徴は？

Geminiには現在「Flash」「Pro」「Ultra」というモデルがあります。
Flashはコンパクトでスピード重視、Ultraは高性能で処理するデータ容量のサイズが大きく、Proはどちらの強みも活かしたバランス型の仕様が特徴です。
今回登場したGemini 2.0では、一番小さいモデルだったFlashが前世代のProを超える性能を実現したということが、特に注目されている点です。

FlashはProよりも2倍高速で出力できるという優位性もあり、現状ではGoogleのモデルの中で
Flashが最も優れた選択肢と言えるのではないでしょうか。

Github（LLMモデルの有用さ）ランキングでもライバルのClaudeを抑えて3位にランクイン。

Gemini 2.0は従来の1.5モデルと比べて処理速度が2倍になり、より高精度な応答が可能になりました。
音楽や画像を含むマルチモーダル入出力に対応して、多言語での音声出力も可能になりました。
そして、リアルタイムでの会話支援や大量データの瞬時の分析、複雑な数理計算の高速処理など、幅広い機能を備えています。

使い方

今回は無料でも使えるGoogle AI studioで操作してきます。

ホーム画面の右側のタブにあるModel（赤枠）を押して、
青枠の「Gemini 2.0 Flash Experimental」を選択すると使えます。

Google AI studioはGemini 2.0 Flashを1分間で15回まで、さらに1日1500回まで無料で使えるので、かなり太っ腹なサービスと言えますね！

驚異的な処理能力

処理能力も前回のモデルと比べて上がっていて、従来の1.5 Flashと同じ高速レスポンスに加えて1.5 Proを上回る処理能力を持っています。

他のLLMモデルと比べてどのくらい速いか分かりやすいように、今回はClaudeの有料版（Claude 3.5Sonet）との出力速度の比較をしてみました。

リモートワーク研究所【リモ研】(いけとも)さんの1時間以上の長尺Youtube動画の内容を要約してもらいます。
動画の文字数は1万6千文字です。
🔽プロンプト
この内容を下記の項目に当てはめて教えてください。
1、タイトル
2、背景情報
3、主なポイント
4、アクションプラン
5、まとめ

引用元の動画:https://www.youtube.com/watch?v=vClCNuSQ2Ac&t=398s&ab_channel=%E3%83%AA%E3%83%A2%E3%83%BC%E3%83%88%E3%83%AF%E3%83%BC%E3%82%AF%E7%A0%94%E7%A9%B6%E6%89%80%E3%80%90%E3%83%AA%E3%83%A2%E7%A0%94%E3%80%91

出力速度はClaudeに比べて圧倒的にGemini 2.0が早かった上に、同じテーマで回答した場合、Claudeが873文字、Gemini が2090文字と、文字数でもGeminiが2.5倍多い結果となりました。

🔽Claudeの出力結果

🔽Geminiの出力結果

注目されている新機能

1、Stream Realtime

赤枠の「Stream Realtime」を押すと、青枠の3つのモードが選べます。

リアルタイム音声対話（Talk to Gemini）

AIとリアルタイムで自然な音声会話ができる機能で、テキスト入力なしで、人間と会話しているような対話が可能です。
リアルタイムの言語翻訳や建設的な意見を出すためのブレインストーミングの相手役になってくれます。

カメラ映像共有（Show Gemini）

PCのウェブカメラを通じて映像をリアルタイムで共有し、視覚情報に基づいた対話が可能です。
操作方法が分からない機器の説明や場所を映し出せば、観光案内などもしてくれます。

画面共有機能（Share your screen）

PCの画面をGeminiと共有でき、画面上の情報を理解しながら対話することが可能です。
プログラミングコードやデバッグを解説してくれたり、プレゼンテーション資料の改善のアドバイスをもらうこともできます。

画面を共有しながら回答してもらう様子。（英語の論文も翻訳して内容を伝えてくれます。）

2. Starter Apps

次は、赤枠の「 Starter Apps」を押すと、青枠の3つのモードが選べます。

Spatial Understanding（空間認識）

概要：2Dおよび3D空間の認識と推論能力を活用する機能。
機能：オブジェクトの位置や関係を解析し、空間的なデータを処理します。例えば、バウンディングボックス（物体の境界）の解析を行うことが可能です。
用途：空間データを扱うアプリケーションのプロトタイプ作成や、空間的な問題解決の支援に役立ちます。

Video Analyzer（ビデオ分析）

概要：ビデオ内のイベントや内容を探索するための機能。
機能：ビデオデータを解析し、特定のイベントやシーンを抽出することができます。
用途：動画編集、監視システム、またはビデオコンテンツの分析に適しています。

Map Explorer（地図探索）

概要：Google Maps APIを活用して地図データを探索する機能。
機能：地図上でのデータ表示や操作を可能にし、地理的な情報を視覚化します。
用途：地図ベースのアプリケーションや、位置情報を活用したサービスの開発に役立ちます。

Spatial Understanding（空間認識）機能で、画像内にに含まれる要素を解析してみました。

AIで生成した雑多な画像の中から「coin」を探してもらいました。
しっかりと解析してくれていることがわかります。

逆にこの画像内にない「sea（海）」と入力すると、検出できないという表示が出ます。

実際の使用感

良かった点

回答精度も高い上に出力速度が速い。
カメラ共有した時の認識能力が高くて機器の操作方法を教えてくれたり、画面共有した箇所について答えてくれるのはかなり便利。
画像の分析機能がついたことで、請求書やレシートの画像を解析して経理に必要な情報を自動的に抽出するような応用に使えそうなこと。

改善が期待される点

日本語での音声対話が不自然だったり、対応しない時がある。
こちらの質問の意図が伝わらず流れるような会話ができない場合がある。

まとめ

今回はGeminiの新機能についてお話しましたが、特にマルチモーダル機能に関しては、他のLLM、例えばChatGPTやClaudeに比べて、Googleが一歩先を行っている印象を受けました。

やはり膨大なデータ量や潤沢な計算リソースを持つGoogleの強みが光りますね。「さすがGoogleだな」と思わされるアップデートの内容でした。

リアルタイム応答や分析の機能は、この先さらなる進化が期待される分野ですし、これからの展開がどうなるのかとても楽しみですね！

AI-Bridge Labについて

AI-Bridge Labでは、今後もGemini 2.0の進化や活用事例について、継続的に情報を発信していきます。最新のAI技術とその活用方法について、ぜひ一緒に学んでいきましょう！

メール：ai_business@doerstokyo.jp

最後まで読んでいただき、ありがとうございました。気に入って頂けましたら「スキ」や「フォロー」「コメント」をしていただけると幸いです😄

いいなと思ったら応援しよう！

皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます！