初体験:Googleの画像生成AI"ImageFX"を使ってみよう
GoogleのGenAI"ImageFX"をはじめて使ってみる
この1年ほどで凄まじい進化を見せるGenAI界隈、特にぼくが使用している分野だと、画像生成AIとか動画生成AIとか音楽生成AI、生成型人工知能的チャットボットもまあまあ使うかな。
"GenAI"群雄割拠時代の幕開け
様々な分野のGenAIに関しても、もちろんそうだけれど、焦点を絞って、画像と動画に関してだけ言っても、世はまさに群雄割拠的なことになっている。ぼくが把握しているものだけでもたくさんあるけれど、細かなアプリなんかも合わせたら、たぶんぼくが知らないし使ったことのないものも、いっぱいあるはず。
Stable Diffusion
ぼくが、はじめて触り出したのは"Stable Diffusion"(ステーブルディフュージョン)。
発音的には「ステイブル・ディフュージョン」だと思うんだけれど、検索すると「ステーブルディフュージョン」率がかなり高い。日本における英語の読み方片仮名あるある、である。映画俳優とかも、時代によってコロコロ変わる。「カタカナにする必要ないやん!」って思う、英語表記でやれや。
話を戻そう。
Stable Diffusionは、WindowsのそれなりにハイスペックなPCのローカルにWeb UI版をインストールして使用していた。オンライン版はまだ使ったことがない。ちなみにぼくはMac使いなので、現在自宅では、かなり老朽化したMacBook Proを使用していて、それにもインストールはしてみたものの、スペックが追い付かずに、1枚の画像を生成するのに永劫の時間を要するので、今は使っていない。その詳細は以下の記事に記してあるので、興味があれば読んでみて欲しい。
Leonardo AI
Stable Diffusionと同時期に使用していのが、"Leonardo AI"(レオナルドエーアイ)、かのレオナルド・ディ・セル・ピエーロ・ダ・ヴィンチ(Leonardo di ser Piero da Vinci)の名を冠したGenAIである。
オーストラリアのシドニーに拠点を置く同名の企業による開発だそうだが、最近ほとんど使わなくなってしまった。いちおうFreeプランでも、トークン制である程度の枚数を生成可能。ただ有料版の上位に移行しないと、使えない機能は多い。まあどのサービスも同じようなものだけれどね。
DALL-E
有名なところだと、OpenAI開発のGenAI"DALL-E"(ダリ)、DALL-Eの名前は、かのサルバドー・ドメネク・ファリプ・ジャシン・ダリ・イ・ドメネク(Salvador Domènec Felip Jacint Dalí i Domènech)と、アニメーション映画『ウォーリー』(WALL・E)の融合だそうである。
https://openai.com/index/dall-e-3/
このURL、noteに埋め込めないっぽい、制御がかかってるのかな?
ぼくは、DALL-Eをまだ使ったことがない。
Adobe Firefly
もうひとつ大御所だと、"Adobe Firefly"(アドビファイアフライ)かな。リリース当時、ベータ版の際にはけっこう使っていた。"Adobe Creative Cloud"(アドビクリエイティブクライド)を使っているので、今でも時々使うけれど、最近触ってないなあ。
Midjourney
ぼくが、ここしばらくでいちばん使っているのが、"Midjourney"(ミッドジャーニー)、唯一、課金して使っている。よく考えたらけっこう高いけどね、まあお金を使う価値はあるかなと、今は思っているけれど。
Google ImageFX
Googleの生成型人工知能的チャットボット"Gemini"(ジェミニ)にも導入されるという「Imagen 3」(イマジンスリー)を採用した"ImageFX"(イメージエフエックス)、Imagenは、今まではデペロッパー向けに公開されていたようだが、現在、つい最近かな?ImageFXで利用できるようになっている。
Google ImageFXを使ってみよう!
というわけで、Google ImageFXを使ってみたよ。
UI(ユーザーインターフェイス)はこんな感じ。
左側にプロンプト記入のウインドがあって、右側に生成したイメージのプレビュー画面がある。プロンプトウインドの下に、プロンプトの候補を選択できるウインドがあって、その下に「編集履歴」と「設定」。設定の内容はほとんどなくて、使用モデルの選択と、Seed(シード)値固定の設定だけ。使用モデルの選択肢は、Imagen 3の一択のみ。だから、プロンプトを入れる以外は、Seed値を固定するかしないかくらいしか設定はできない。
まだβ(ベータ)版といったところなのだろう。
ImageFXにクソ長い画像生成用プロンプトを使ってみる
まずは、のっけからスタートダッシュで、Midjourneyでの検証用に作成したすげえ長いプロンプトをぶち込んでみようかと思う。予想するに、たぶんおかしな画像が生成されるか、あるいは生成できずにエラーが出るのではないか。とりあえず、やるだけやってみよう。人生、なにごとも経験である。経験なくして、先に進むことはできない。
ImageFXの画像生成に失敗しちゃった・・・
結果は・・・、はい、しょっぱなから生成できませんでした。
「生成できませんよ。」というような意味合いのエラーメッセージが表示されて、生成画像のプレビューウインドには、
「コンテンツが見つかりません。別のプロンプトをためして、こちらのコンテンツポリシーをご確認ください。」
と、表示されている。そしてプロンプト入力ウインドには、ぼくが入力したプロンプトの単語部分のいくつかに、薄紫の帯が敷かれて文字が強調され、プルダウンで他の候補を選べるようになったぞ。
ImageFXのプロンプト補助機能
例えば上記の画像のように、"20-years-old"というプロンプト のプルダウンを開くと、"30-years-old"、"40-years-old"、"50-years-old"というプロンプト候補が表示される。色々試せるように候補を出してくれるんだね。
ただし、同義あるいは同種類のバリエーションだけではなく、"super cool"のプロンプトをプルダウンすると、"nordy"、"uncool"、"awkward"といったsuper coolとは反対の意味を持つプロンプト候補が表示される。
ただこれは、あくまでも次の生成に対する補助的な親切機能であって、ぼくのプロンプトが却下された理由にはたぶん関係ないので・・・、プロンプトがアホみたいに長かったから、却下されたんだろう。もっと簡単なプロンプトで試さなきゃ。
ImageFXでの画像生成に、今度は真面目に再チャレンジ
というわけで、クソ長いプロンプトを最適化して、少し短いものに調整したので、再度ImageFXにお伺いを立ててみよう。
今度はなんとか生成できたが、4つ生成されるはずが、生成されたのは1つだけで、あとの3つは再び却下されたようである・・・、なんでなん?ひとまず初生成画像はこちら。
クオリティはよい、リアルではある。画像サイズは1024×1024で生成されて、アップスケールは現状できない。縦横比も1:1のSquareのみ。
画像生成後に編集が可能
画像生成後に、「画像編集」というボタンが表示され、生成した画像を編集することができる。
ブラシで塗りつぶした箇所に改めてプロンプトを入力して、修正が行えるよ
うである。
「選択したリージョンでの変更について説明します」、どのように編集したいかプロンプトを書けということだろう。
規模は違うけれど、MidjourneyのWEBブラウザ版に追加された編集ツールとほぼ同じようなものかな。
改めて、短く再調整したプロンプトで「日本人女性」生成を試みる
さて編集はさておき、ちょっとちがう画像を生成してみよう。
と思って、最初のプロンプトをさらに短く調整したのだけれど、やはり生成してくれない。プロンプト内に複雑な単語や文章が入っていると、ImageFXは対応してくれないのかな。仕方ないので、単語をベースとしたかなり単純なプロンプトに変更を余儀なくされる。
さらにプロンプトを調整する・・・。あ、コンマで区切らないでひとつの文章にしたらいいのかな?というわけで、短い文章に。
はい、これでも生成されません。こうなったら余計なものすべて省こう。
単純に「廃墟にたってる日本人女性」だけにする。
これでやっと2つだけ生成された。ImageFXのプロンプトの好みがよくわかんないぞ。
以下が生成された画像です。
クオリティは高い気がする!背景のクオリティも高いし、指先もきれい!全身でも女性のクオリティが破綻していない。
ただし、プロンプトでのコントロールがまったくわからない。最初の白髪の女性はいったい手になにを持ってるんだろう?フォークソングのシングル盤レコードかな。そして全身で生成された女性、買い物帰りっぽいけど、廃墟との関連性は?ここでなにしてんねん。
ちょっと違うものを生成してみよう。
廃墟に立っているゾンビを生成する
「廃墟に立ってるゾンビ」というだけのプロンプト。
これはあっさり4つすべて生成される。そしてけっこうクオリティ高いぞ。
ゾンビ映画が作れそうなクオリティかも
全身のゾンビがいっぱいいるのに、それぞれのヴィジュアルが破綻&崩壊していない点はすごい!よし、今回はゾンビ推しで、あと少し生成しよう。
ゾンビと交戦中の米軍を生成。Midjourneyでは、銃を発砲しているシーンは生成できなかったんだけれど、あっさり「Fire!」。あとでMidjourneyで検証してみよう。
ゾンビに噛まれてゾンビになってしまった米軍。
というわけで、まだおそらくβ版なんだと思うけれど、かなり可能性を感じる生成クオリティです。ちょっと正式リリースになったら、やばいかもね。
では、ここまで。