Google VertexAIのマルチモーダル機能のSample promptsを一通り試してみた!
GoogleのVertex AIに「マルチモーダル」というメニューがありますが、ここでは色々できるようになっており、未来の可能性を感じさせます。
どのような機能があるのかをSample promptsをそのまま、もしくは少しいじって叩き、使い方を考えてみます。
Extract Text to Image : 手描き文字の読み取りも可能に
OCRと何が違うのか理解できていませんが、複雑な手書き文字も読めるということで精度が上がったということでしょうか?
日本語もやってみましたが、大丈夫でした。
以下より写真を拝借
Vertex AIのレスポンス
Few shot image to JSON 複数の画像とテキストから、答えを出す。
サンプルでは、ローマと北京のランドマークを画像とJSONテキストで表示。
そこで最後に以下の画像を与えると、
以下の答えが導き出されました。
{"city": "Rio de Janeiro", "Landmark:", "Christ the Redeemer"}
画像分類とかに使えそうですね。
Image question answering 画像&質問へ回答
例では、Brazil nutsの写真をつけ、「What is the price of this ?」とすると、
The price of Brazil nuts is 3.75 euros.
と返っていました。画像検索の意味合いもありそうですし、画像から問題分析をする、といった応用もあるかもしれません。
例えば、工事現場の写真を写して「何か危険はない?」と聞いて回答させ、危険状況の自動監視ができる、とか。そういう使い方も出そうですね。
Image text to JSON(画像をJSONに)
これは、OCRと画像の解釈が組み合わされたもののようです。例では、フィッシュマーケットの写真から、魚ごとの価格を見事に表示しています。
これも情報整理として、使えそうなイメージですね。
商品の在庫管理とか?棚の写真をとって、商品名と価格と在庫量を自動チェックするとかまでいけそうですね。
Write story from image(画像からStoryを作る)
画像とテキストをインプットにすると、ストーリーを書いてくれる機能です。日本語でも大丈夫そうです。
もっと淡白なテキストが出てくるかと思ったら、
なかなか、面白いストーリーになっていませんか?
絵本が、秒で作られる世界は、すぐそこですね。
Ad copy from video(ビデオから広告コピーを作成)
サンプルでは、どこにでもありそうなサーフィンの動画です。
これをインプットに「このビデオから、旅行会社のコピーを考えて」をつけてみると、、、
このようなものが出てきました。利用シーンとしては、例えば、ローカルな地域が、旅行客を呼びたいと考えた時に、動画のシーンを細切れに渡して、ひたすらコピーを考えさせることができそうですね。
ただ、Ad Copyとしては、もう少しインプットを与えた方が良いかもしれませんが。
Video QA - exercise (エクササイズ動画から動きを説明させる)
こちらは、ピンポイントでエクササイズの動画説明AIになっていました。
ただ、出てくる答えはかなりシンプルなもので以下のようなアウトプットです。
The person in the video is doing tricep dips on a bench.
(ビデオの中の人はベンチの上で上腕三頭筋ディップスをしている。)
これは何に使えるでしょうか?
エクササイズの説明はもちろんですが、
例えば、工場での作業マニュアルとかですかね?作業を写して、何をしているかを説明させるとか、そういうことはできそうです。
Describe video content(動画コンテンツを描写する)
最後は、動画の説明です。以下のような感じでアウトプットが出てきます。
たくさん動画を保有する人が整理をしたり、検索用のIndexをつけたりできそうですね。何年か前の子供の運動会の動画とかを探すとかも、こういうのを使うと、簡単になりますね。
以上、VertexAIを試してみました。