【速報】Google AI「Gemini」が進化🚀最新モデル「2.0 Flash」はマルチモーダル対応で何ができる?音声・画像・動画を理解するAIを無料で使う方法を解説します!
はい!こんにちは皆さん!人混みでお店の袋を全く同じ人とすれ違って「まさかの運命?」と勘違いする、葉加瀬あい(ハカセアイ) です!
最近、 Google Gemini という言葉をよく耳にしませんか?
実は、この Gemini、ものすごい進化を遂げているんです!
今日は、この驚異の進化を遂げた Gemini について、初心者の方にもわかりやすく解説していきたいと思います。
驚異の進化!Gemini 2.0 Flash が登場
なんと、最新 AI モデル「 Gemini 2.0 Flash 」がリリースされたそうです!
この Gemini 2.0 Flash、その名の通り、現在主力の Google の AI である Gemini 1.5 Pro の 2倍の速度 で動作するとのこと…驚きですよね!?
Gemini は音声や画像、動画を理解できる?
それだけじゃないんです。
今まで AI って多くはテキストしか処理できなかったですよね?
できても少し画像の特徴を調べて「どういうものが映っています」って返答してくれるぐらいでしたよね。
それがなんと、 音声や画像や動画などを理解できるようになった んです!
マルチモーダル出力で性能が大幅に向上!
詳しい言葉で言うと「 マルチモーダル出力 」に対応したということになるんですけども、つまりは今まで頑張ってテキストとして特徴を文字起こししてから処理していたのを、そのまま音声とか動画とか画像を理解できるようになっているということですね!
なので、情報の抜け落ちがなくなって、より正しく人間みたいに理解できるようになったことで、 性能がすごく向上している んです!
Gemini 2.0 Flash のリアルタイム処理とは?
しかも、これ、すごいのが、今回の Gemini 2.0 Flash は リアルタイムでできる んです!
どういうことかというと、リアルタイムで画像とか動画とかを見せたりすると、それに合わせた回答とか処理を行ってくれたりする、というわけなんですよね。
これは本当にすごいです! まさに昔夢見た世界ですよね?
ドラえもんとかで出てきた、あの機械に話しかけてためになることを教えてくれるようなことが、すでに現実になったんです!
Gemini 1.5 Proで先行実装されていた動画理解機能
それで、実はこちらの ビデオを理解する機能 とかに関してはですね、すでに今Geminiで主流の Gemini 1.5 Pro というもので使えるようになってたんですけども、料金が高かったり、あとは無料枠が少なかったり、本当に一部の人しか使ってなかったんですよね。
マルチモーダル処理への注目度
ただ、元々Geminiの マルチモーダル処理 に関しては、結構注目が集まっていました!
なので、この段階で知っている人と知っていない人では、結構差がつけられてしまっていました。
Gemini 1.5 Proの活用事例
具体例を出すと、頭のいい人とかは結構この 動画理解 とか 画像理解 とかを使って、 YouTubeの動画のタイムライン を簡単につけたり、 動画を記事に変換 したり、あとは動画から分析したものを使って仕事に役立てたり、といったことを行っていたわけなんですよね。
AIの進化と情報格差
AIって次から次に新しいものが出てきてよくわからないけども、でも周りと差をつけられたり、気づいたら自分だけ損してた、みたいな感じになるのは嫌ですよね。
Googleの最新AIモデル「Gemini 2.0 Flash」とは?
そこで今回は、新しくなった Gemini 2.0 Flash を使って、最新のAI処理技術を皆さんに解説していきたいと思います!
Googleアカウントの登録や、Google AI Studioという聞き慣れない場所に登録していただくなど、少しご不便な点もありますが...
現在、実験版ということで 無料 で使えるんです!とってもラッキーですよね?
この無料期間中にどんどん触って、今度は 周りに差をつける人 になっちゃいましょう!
今回は、全く知らない人でもきちんと最新のこの マルチモーダルAI を3ステップで使いこなせるようにしていきます!
まず、① Googleの最新AIモデル「Gemini 2.0 Flash (Experimental)」の内容 を解説します。
その後、② GeminiのAIとおしゃべりしながら画像や動画などのマルチモーダル処理を行う方法 を解説します。
そして最後に、③ その他のGeminiのPC画面の操作の自動化技術など、今注目の3つの最新技術 をご紹介していきます。
それで、私の メンバーシップ に入門されている方は、いつものように記事内容を 『動画』 で見ることができます!
こちらのURLからご覧ください!
https://note.com/ai_hakase/n/n37dae45c46b7
それと英語版もお届けしています!
最新のAI技術を学びながら 英語学習も一緒に進めたい方はこちらのURLからご覧ください!
https://note.com/ai_hakase/n/n14927fa2187d
それから、Noteのメンバーシップ入門者さんには 質問対応 なども行っていますので、感想や質問などありましたら、できれば Xのリプライ で教えてください!
XのDM や Noteのコメント でも構いません🙆♀️
※ 質疑応答の際は 『NoteのID + 質問したいNote記事のURL』 を添えてください。
それでは、本日もよろしくお願いいたします!
Googleの最新AIモデル「Gemini 2.0 Flash (Experimental)」の内容
では、この「Gemini 2.0 Flash (Experimental)」とは、一体どういった最新AIモデルなのでしょうか?
Googleの最新AIモデル「Gemini 2.0 Flash」は、先ほども説明した通り マルチモーダルな入出力 を備え、ネイティブツールを使用し、なんと 10,000行ものコードを処理 できるそうです!すごいですよね...!
そんな多機能に加えて、もちろん マルチモーダルアーキテクチャ で 音声 とか 動画の理解 もできるので、結構膨大な容量のそういったコンテンツでも処理できるというわけですね!
それが リアルタイムチャット とか おしゃべり ができるものの秘訣にもなっているわけです。
すごいですよね?
テキストと画像を組み合わせたコンテンツ生成も可能
さらに、これらの点に加えて テキストと画像を組み合わせたコンテンツ生成 も可能だそうですよ…!
ちょっとここについては後ほど解説をしていきます!
知識のカットオフは2024年8月
ちなみに 知識のカットオフは2024年8月 とのことで、最新の情報にも対応しているようです。
検索などのツールを直接呼び出し可能
あとはですね、 検索などのツールを直接呼び出し できたりします!
利用制限について
利用制限につきましてはこんな感じです。
利用制限:
1分間に15回のリクエストまで
1日に1500回のリクエストまで
本当にすごい実用的なモデルですよね!
Gemini 2.0 Flashの性能をベンチマークで確認
それでは、もっと詳しくこのモデル、この高性能なおしゃべりチャットの コアになっている技術のモデル について見ていきましょうか?
AIの世界では、性能を測るのに ベンチマーク というものがあるんです!
つまりはどのくらい優れているのか、ということですね!
表で公開されているベンチマーク結果でも、すごい結果が出ています!
コード生成能力を示す Natural2Code ベンチマークでは驚異の 92.9% を達成しているようです!
数学能力を示す MATH ベンチマークでも 89.7% と、非常に高いスコアを記録しています!
さらに、推論能力を示す GPQA (diamond) ベンチマークでも 62.1% と、他のモデルを上回る結果を出しています。
これ、結構すごいことなんですよ?
多くの項目で最も高いスコアを記録しているのがわかります!
Gemini 2.0 FlashがChatbot Arenaで総合3位にランクイン
Gemini 2.0 Flash が、Chatbot Arenaで総合3位にランクインしました!これは、AIの性能を評価する上で非常に重要な指標です!
ちなみに、Chatbot ArenaとはAIの価格に対する性能を比較したランキングになります。
参考:https://x.com/lmarena_ai/status/1866873983569891378
Geminiが大幅な進化を遂げた理由
実は、Geminiは元々、あまり性能が高くないと言われていました。しかし、今回のアップデートにより、大幅な進化を遂げたんです!
特に、
難しいプロンプト では15位から2位
コーディング では22位から3位
長いクエリ処理 では、なんと8位から1位
にまで順位を上げています!
さらに、総合的なスタイル制御では19位から3位、難しいスタイル制御では25位から2位へと大幅に改善されています。
GoogleのCEOであるSundar Pichai氏によると、 Gemini 2.0 Flash は Gemini 1.5 Pro の2倍の速度で主要なベンチマークを上回っているとのことです!詳しくはこちらをご覧ください。
Gemini 2.0 Flashを気軽に試す方法をご紹介!
はい、それではですね、実際にGemini 2.0 Flashを使ってみたい方もいると思うので、そのやり方も解説していきます!
AnyChatから試してみよう!
まず、気軽に試してみたい方は AnyChat から試せます!
こちらは、いろんなAIを気軽に試せるHugging Faceのデモスペースになるのですが、そちらで使用できます!
AnyChatの魅力とは?
結構、私、このAnyChatを 激推し してまして…こちらの記事で詳しく解説をしているので、よかったら見てみてください!Geminiだけではなくて、他のAIモデルのこととかにも触れているので、より詳しく理解できるかと思います!
それと、他のGeminiの最新版モデルですね、実は ランキングを1位獲得 したそうです!その1位のGeminiのモデルについても解説しているので、よかったら見てみてください!
Geminiの公式ページからも試せます
あとはですね、普通にこんな感じで、Geminiのページにアクセスしてもらって、使用することも可能です!
画面右上の「Gemini Flash Experimental」をクリックして、指示文や画像を貼り付けて送信すると、 推論結果 が出力されます!
簡単ですよね?
Gemini Flash Experimentalの出力結果を見てみましょう!
実際にどんな内容が返ってきたかというと、Gemini Flash Experimentalはこんな感じの言語モデルです、という説明から始まっています。
その他、様々な処理能力や、1万行のコードを処理できること、料金体系、1分間に25回、1日あたりの利用回数といった情報が出力されています!
元の画像と比較してみましょう!
ちなみに、こちらが元の画像です。どうでしょうか?おおむね合っていますよね!
注意点や補足情報も出力してくれます!
他にも、画像に書いてある情報だけでなく、注意点や補足情報も出力してくれました!
さらに、「質問があれば気軽にお聞きください」といった、 親切なメッセージ も添えられていて、長文の情報が返ってきました!
本当にすごいですよね!
②GeminiのAIと会話しながら画像や動画を処理する方法
はい、それではここまでで Geminiのモデル について理解できましたでしょうか?
次に、いよいよおしゃべりをさせてみましょうか!
ChatGPTのAdvanced Voice Modeとは?
それでは、まずはじめにどんな感じになるのか、イメージについてお話しします!
「ふむふむ、どんな感じかしら?」と気になりますよね!
AI に詳しい方ならご存知かもしれませんが、以前、 ChatGPTの Advanced Voice Mode(高度な音声モード) がリリースされて、大きな反響があったのを覚えていますか?
今回のものは、その Gemini版 、つまりGoogleバージョンということになります!
Advanced Voice Modeのリリースで広がるサービスとは?
私もこちらの記事で詳しく解説をしています!
この Advanced Voice Mode がリリースされることで、今後どのようなサービスが拡充していくのかということについても詳しく触れているので、よかったら見てみてください!
Gemini(ジェミニ)を使って簡単におしゃべりやマルチモーダル処理を始めよう!
それではイメージがつかめたところで、 Gemini の機能を使って早速会話したりしていきましょうか!
それでここからは、私のNoteのメンバーシップ、もしくはYouTubeのメンバーシップ限定にしていきたいと思います。
正直この Gemini 2.0 Flash の新機能かなり便利で、自分の操作している画面とかを見せながらAIを動かしたりみたいなこともできるんですよね。
これが分かっていると、結構仕事のタスクとかデザインのタスクとか、メールでも執筆でもその他諸々のいろんなタスクが本当に便利になるので、いつも読んでいただいている皆さんにはぜひそのチャンスを掴んでいただけると嬉しいです!
なお、私のメンバーシップでは質問対応とかも行っている関係で参加人数を制限しております。
検討されている方は、他の人よりもお早めに!定員に達してしまわないうちに他の人よりもお早めにご加入されることをお勧めいたします!
Gemini入門!AIとおしゃべりしながら画像や動画を処理する方法
はい、じゃあそしたらですね、入門者の皆さんは早速続きをやっていきましょう!
ここからは具体的にですね、 Gemini のAIとおしゃべりしながら画像とか動画とかの マルチモーダル処理 を行う方法を解説していきます!
この記事が参加している募集
この記事が気に入ったらチップで応援してみませんか?