Google AI Studioの可能性：Geminiを活用した動画解析

2024年11月17日 23:32

お疲れ様です。

日々、ChatGPTをはじめとするLLMと対話を楽しんでいます。普段はChatGPTやClaudeを使うことが多いのですが、時々Googleのアプリで使えるGeminiも試しています。

Googleのアプリで使えるGeminiの特徴として、YouTubeのリンクを貼ると内容を要約してくれる機能があります。

ただし、この要約はYouTubeのトランスクリプト情報をもとに推測して行われているようで、音声情報や動画の各シーンの画像情報を解析して回答しているわけではないようです。

そのため、「Geminiには独自の機能があまりないかも」と感じていたのですが、最近Google AI Studioの存在を知り、印象が大きく変わりました。

Google AI Studioは、OpenAIのPlaygroundのような開発者向けインターフェースを備え、その環境の中で、Geminiを一定の計算負荷までは無料で利用することができます。

注目すべきは、mp4形式の動画ファイルをアップロードすると、その内容を音声や画像情報を含めて解析し、動画が何を示しているのか説明してくれる点です（Geminiのアプリにはこの機能がありません）。

試しに、自分で撮影した約2分間の動画をアップロードしてみて、動画の内容について質問してみたところ、適切に回答していました。

また、画像として認識していなければ答えられないような質問にも適切に回答しており、ある程度画像と音声データを理解できているようです。

もちろん、動画の種類やジャンルによってはうまく処理できない場合もあるかもしれませんが、この機能の今後の発展には大いに期待しています。

なお、長時間の動画をアップロードすると、無料枠では計算負荷が高くなり対応が難しい可能性があるため、数分から長くても10分程度の動画で試してみるのが良いと思います。

Geminiの魅力について理解が深まり嬉しく思います。

最後までお読みいただき、ありがとうございました。

いいなと思ったら応援しよう！