Vertex AI Studio(Vision)を使用してみる

ytamura

2025年1月9日 00:13

はじめに

この記事では、Vertex AI StudioのVisionを使用して、簡単な画像を表示しています。
凝った画像を生成するというよりは、コンソールから操作を試して結果を確認していくような内容となっています。

使用してみる

Vertex AI Studio Visionを開く

まずは、Vertex AI Studio Visionの用意をします。
Google Cloudのコンソールの検索ボックスへ「vertex ai studio」と入力し、サービスの検索を行います。

プルダウンから「AI Studio」を選択すると、Vertex AI Studioのコンソールへ遷移します。

左のメニューから「Vision」を選択し、「Vision」画面へ遷移します。

今回は「Generate Images」で画像生成していきます。
使用するモデルを確認します。モデルは「Imagen 3」を使用します。

日本語プロンプトを入力してみる

下記のプロンプトを入力して、送信を押下します。

・リアルなバベルの塔のイラスト。頂上から空に向かって、光を放出している。

待ち受け画面では、Tipsを表示してくれます。

画像が出力されました。が、期待したものとは違うようでした。

日本語は使えないのかもしれません。「自由形式」画面のメッセージへ下記の質問を投げてみました。

Vertex AI StudioでVisionを使用します。
日本語のプロンプトではうまく画像が表示できません。
プロンプトに入力できる言語は何ですか？

下記のような回答が得られました。

Vertex AI Studio の Vision モデル（画像生成モデルなど）で利用できるプロンプトの言語についてですね。

現状、Vertex AI Studio の Vision モデル（特に画像生成モデル）は、英語でのプロンプトに最適化されている傾向があります。日本語を含む他の言語でプロンプトを入力した場合、期待通りの結果が得られない、またはエラーが発生する可能性があります。

プロンプトに入力できる言語について

推奨: 英語
英語はモデルが最も得意とする言語です。高品質な画像を生成するためには、英語でのプロンプトの使用を強く推奨します。
具体的な指示や詳細な説明を英語で記述することで、より意図した通りの画像を生成しやすくなります。
対応言語（実験的）:
一部のVisionモデルでは、日本語を含む多言語でのプロンプト入力を実験的にサポートしている場合があります。ただし、英語に比べて品質が劣る場合や、期待通りの結果にならない可能性があります。
今後、多言語対応が改善される可能性はありますが、現時点では英語の使用を基本とするのが良いでしょう。
日本語プロンプトを試す場合のヒント

もし、どうしても日本語でプロンプトを試したい場合は、以下の点を考慮してください。

翻訳ツール:
まず、日本語のプロンプトをGoogle翻訳などのツールで英語に翻訳してみてください。翻訳された英語プロンプトをVisionモデルに入力することで、より良い結果が得られる可能性があります。
シンプルな表現:
日本語のプロンプトは複雑な構造になりがちです。できるだけシンプルな表現にすると、モデルが理解しやすくなる場合があります。
キーワードの抽出:
プロンプトから重要なキーワードを抜き出し、それらを英語に翻訳して使用してみるのも有効です。
複数回試行:
同じプロンプトでも、生成される画像は毎回異なります。何度か試行することで、意図した画像に近いものが得られるかもしれません。
今後の動向

Google Cloud Platform は、AIモデルの多言語対応を積極的に進めています。将来的には、日本語を含む多くの言語で高品質な画像生成が可能になることが期待されます。最新の情報については、Google Cloud の公式ドキュメントやブログなどを参照してください。

まとめ

現時点では、Vertex AI Studio の Vision モデル（特に画像生成モデル）では、英語でのプロンプトの使用が推奨されます。日本語プロンプトを試す場合は、上記のような工夫をしながら、実験的に利用してみてください。

ご不明な点がございましたら、お気軽にご質問ください。

英語推奨とのことなので、英語でプロンプトを入力していきます。
しかしならが、いい感じのプロンプトが作れるかどうか不安なので、プロンプトもVertex AIの機能で作成したいと思います。

プロンプト作成①

「自由形式」画面から画像生成のプロンプトを作成します。
メッセージへ下記を入力し、送信アイコンを押下します。

あなたは優秀なプロンプトエンジニアです。
次の文章を、Vertex AI StudioのVisionを使用して、高品質でユニークな画像を出力するプロンプトを教えてください。

・リアルなバベルの塔のイラスト。頂上から空に向かって、光を放出している。

画像生成のプロンプトの他にたくさんアドバイスをくれました。とても勉強になります。

はい、承知いたしました。優秀なプロンプトエンジニアとして、Vertex AI StudioのVisionで高品質かつユニークな画像を出力するためのプロンプトを提案します。

基本プロンプト

A highly detailed and photorealistic illustration of the Tower of Babel, reaching towards the sky and emitting a bright, ethereal light from its peak.

プロンプトの分解と追加要素

この基本プロンプトをベースに、より詳細でユニークな画像を生成するための要素を追加します。

1. 画風の指定:
  ・photorealisticだけでなく、他の画風を試すことで、様々な表現が可能です。例:
    a. hyperrealistic: 極めて現実的な表現
    b. painterly: 絵画のような表現
    c. fantasy illustration: ファンタジー的な表現
    d. concept art: コンセプトアートのような表現

2.バベルの塔の詳細:
  ・intricate details: 細部まで緻密な描写
  ・ancient brickwork: 古代のレンガ造りの質感
  ・various building styles: 様々な建築様式が混在している
  ・spiral structure: 螺旋状の構造
  ・massive scale: 巨大な規模

3. 光の効果:
  ・ethereal light: 神秘的な光
  ・radiant glow: 輝くような光
  ・beams of light: 光線
  ・light piercing the clouds: 雲を突き抜ける光
  ・dramatic lighting: 劇的な照明

4. 背景:
  ・cloudy sky: 曇り空
  ・stormy atmosphere: 嵐のような雰囲気
  ・rolling hills: なだらかな丘陵地帯
  ・distant city: 遠くに見える都市
  ・twilight sky: 夕暮れ時の空

5. 雰囲気:
  ・majestic: 雄大な
  ・powerful: 力強い
  ・mysterious: 神秘的な
  ・awe-inspiring: 畏敬の念を抱かせる
  ・epic: 壮大な

6. 構図:
  ・low angle shot: ローアングルからの撮影
  ・wide angle view: 広角からの視点
  ・centered composition: 中心に配置された構図
  ・dynamic perspective: ダイナミックな遠近感

より具体的なプロンプトの例
以下に、上記の要素を組み合わせた具体的なプロンプトの例をいくつか示します。

・例1: 神秘的で力強い表現
A hyperrealistic illustration of the Tower of Babel, with intricate details of ancient brickwork and various building styles. The tower is a massive spiral structure reaching towards a stormy sky, emitting radiant beams of light piercing the clouds from its peak. The overall atmosphere is majestic, powerful, and awe-inspiring.

・例2: ファンタジー的な表現
A fantasy illustration of the Tower of Babel, with a whimsical spiral structure adorned with fantastical elements. The tower is emitting an ethereal glow from its peak, reaching towards a twilight sky with a distant city in the background. The composition is a wide angle view, creating an epic and mysterious feeling.

・例3: 細部にこだわった表現
A highly detailed photorealistic painting of the Tower of Babel, constructed from ancient brick and stones with various building styles layered on top of each other. A bright, ethereal light is emitted from the very top, casting beams that pierce through the cloudy sky above. The image is a low angle shot, emphasizing the massive scale of the tower.

プロンプトのポイント

・具体的なキーワード: 曖昧な表現を避け、具体的なキーワードを使うことで、AIが意図を理解しやすくなります。
・画風の指定: 好みの画風を明確に指定することで、イメージに近い画像が生成されます。
・詳細の記述: バベルの塔の構造、光の効果、背景などを具体的に記述することで、よりユニークで高品質な画像が生成されます。
・実験: 様々なキーワードや組み合わせを試して、最適なプロンプトを見つけることが重要です。

Vertex AI Studioでの使用方法
1. Vertex AI StudioのVisionにアクセスし、画像生成を選択します。
2. 上記のプロンプト例を参考に、テキストボックスにプロンプトを入力します。
3. 必要に応じて、画像サイズ、画風などのパラメータを調整します。
4. 画像を生成します。
5. 生成された画像を評価し、必要に応じてプロンプトを修正しながら、より理想的な画像を目指してください。

補足
・プロンプトの品質は、AIの学習状況やモデルのバージョンによって変動する可能性があります。
・上記を参考に、様々なキーワードや表現を試して、自分だけのオリジナルのプロンプトを発見してください。

これらのプロンプトと説明が、あなたの画像生成の助けになれば幸いです。

それでは、下記のプロンプトを「Vision」画面へ入力し画像を生成してみます。

A highly detailed and photorealistic illustration of the Tower of Babel, reaching towards the sky and emitting a bright, ethereal light from its peak.

期待通りの画像が得られました。かなりブリューゲルっぽいですが。

プロンプト作成②

次は、「プロンプト作成サポート」を利用してみたいと思います。
画面左メニューから「プロンプト管理」を選択し、「プロンプト管理」画面へ遷移します。

画面上にある「プロンプト作成サポート」を「開く」と「文書作成サポート」ダイアログが開きます。

「プロンプトの目的」に下記を入力し、「プロンプトの生成」を押下します。
※何度かプロンプトの生成と画像出力を試してみましたが、前述「画像9」とほぼ同じ画像を生成するプロンプトが出力されるため、少し趣向を変えた画像を表示してみようと思います。

Vertex AI StudioのVisionで以下の画像を生成します。

・円筒型でメタリックなバベルの塔のイラスト。背景は近未来都市。天気は快晴。頂上から空に向かって、光を放出している。

「提案されたプロンプト」の内容です。

 Generate an image using Vertex AI Studio's Vision tool based on the following specifications:

Subject: A cylindrical, metallic Tower of Babel. The tower should have a metallic texture and appearance.  It should be cylindrical in shape, resembling a tall, slender cylinder.

Setting: The tower stands in a futuristic city.  The city should have elements that suggest a futuristic or advanced setting, such as sleek architecture, flying vehicles, or neon lights. The weather is clear and sunny, with a bright blue sky.

Additional Details: A bright beam of light emanates from the top of the tower, reaching towards the sky.

Style:  The overall style should be illustrative, but with a level of detail and realism that captures the metallic texture of the tower and the complexity of the futuristic city.

これを、「Vision」画面へ入力(コピー＆ペースト)して画像生成を行ってみます。
※ちなみに「画像12」で「挿入」ボタンを押下すると「自由形式」画面へ自動入力されます。

いい感じに画像が生成されました。個人的にこの中でのお気に入りの画像は以下ですかね。

もう少し遊んでみる

もう少し画像を生成して遊んでみます。プロンプトは、「プロンプト作成サポート」(画像11)で作ったものを使用します。

まずは、アニメっぽいキャラクターを生成してみます。

Vertex AI StudioのVisionで以下の画像を生成します。

・アニメ風のイラスト。キャベツと鳥イメージした個性的で可愛らしいキャラクター。

次は、某映画のワンシーンを意識して生成してみました。広告がビルに映るように入力すればよかったかも…。

Vertex AI StudioのVisionで以下の画像を生成します。

・歌舞伎町をイメージしたサイバーパンクな都市の写真。「強力わかもと」という日本語の広告。

次は、格闘アニメ＆ゲームに出てきそうなキャラクターをイメージして生成してみました。
※ちなみに、「服を着ている。」という文を外した場合、ガイドライン違反の画像が生成されたらしく、いくつかの画像がブロックされる(表示されない)ことがありました。

Vertex AI StudioのVisionで以下の画像を生成します。

・刃牙に出てきそうな物凄い筋肉の架空の格闘家の写真。服を着ている。背景は闘技場。

おわりに

今回は画像生成のプロンプト自体をプロンプトによって生成するという手法をとってみました。私自身、画像生成のプロンプト入力にそれほど精通しておらず、出力結果のプロンプトを盲信し、そのままコピー＆ペーストで画像生成するような形になってしまいました。
出力された画像はとても良く、満足しています。

記事の執筆にあたり、もっとプロンプトエンジニアリングを勉強したくなりました。

以上