Whisk実際に使ってみた話と、結局何をどうしているのか?と、疑似Whiskのやり方
〜2月1日 00:00
Whiskについて気になっている方に。
Whiskとは
2024年12月16日、Googleが実験的かつ革新的なAI画像生成ツール「Whisk」を発表しました。
感覚的に複数の画像をドラッグ&ドロップするだけで、それぞれの画像の要素を組み合わせた画像が生成できる!というサービスです。画像生成AIは「こんな画像を作ってみたい」を実現してくれるという少し前からすれば夢のようなサービスですが、プロンプトの書き方がわからないと思うような画像が作れない…という問題もありました。ImageFXやDalle3のようにプロンプト追従性がかなり高いサービスもありますが、頭の中にある「こんな画像を作りたい」をプロンプトに表現するのはなかなか難しかったりもします。「違う!そうじゃなくて…」と身悶えしたことがある方も少なくないのではないでしょうか。
そんな中で、プロンプトが必要ない、元となる画像を用意さえすればできる…というWhiskは「これを待っていた!」という方も多いサービスだと言えるのではないでしょうか。
Whiskを実際に使ってみた
実際に使ってみたらこんな感じ、というのを示してみます。
先ほど載せたトップ画面から、より自由に作りたいので下部の「START FROM SCRATCH」をクリックします。
さて、ここから実際に画像を作っていきましょう。
まず、「SUBJECT」の画像をドロップします。これはメインとなる被写体です。
※なお、今回題材として使用している画像は全てImageFXで生成したものです。
女性の画像を上げてみました。
これは私のアイコン画像にしている けうちぇるちゃん(仮) です。
数秒間「analysing image…」と表示され画像がぐるぐると回転し、読み込み完了します。
※この時点で問題がある画像と判断された場合は弾かれます
けうちぇるちゃん(仮)の画像は、白いワンピースとベージュのスカートを着た可愛らしい女性がグレーっぽい壁の前に立っている、というシンプルなものです。
ではどんどん行きましょう。
続けて「SCENE」の画像をドロップします。これは風景、背景と考えてください。
海辺の砂浜にしてみました。
では、最後に「STYLE」の画像をドロップします。これは画像のスタイル、画風と考えてください。
アニメ風の少女ですね。
これで準備は完了です。
つまり、今回生成したい画像は
・けうちぇるちゃん(仮)のような可愛らしい女性が
・海辺の砂浜にいる
・アニメ風の画像
ということです。
では、実際にその画像を生成してみましょう!
右下の「Genetate your combined images」で示された矢印をクリックしてみましょう。
画面中央でうにょうにょと白い図形が形を変えながら動いています。
ドキドキしながら待ちましょう。
待ち時間は多少のブレはありますが、まぁ大体1,2分くらいでしょうか?
そして、画像ができました!
実写(風)からアニメ風ということで「わー、けうちぇるちゃん(仮)そのまんまだ!」かというとちょっと難しいところですが、服装とかはかなりそれっぽいですよね。
そして、きれいな海と砂浜はかなり意図した通り。
「けうちぇるちゃん(仮)のような可愛らしい女性が」「海辺の砂浜にいる」「アニメ風の画像」ができた、と言えるのではないでしょうか?
※ちなみに、この生成時点で問題がある画像ができたと判断された場合、画像が1枚しか出なかったり、全く出ない場合もあります…
ちなみに。
最初の画像生成時はあえてスルーしたのですが、画像を生成する矢印の所にはプロンプトを入力する欄があります。
Whiskはプロンプト不要で画像の提示のみで画像生成できるのが魅力ですが、プロンプトを足すことで補足ができるようなイメージですね。
では、先程の3枚の画像はそのままに、プロンプトを入力して画像生成してみましょう。
「the character is eating an ice cream」とあるので、試しにそれを入力してみましょうか。
ポチッとな。
「けうちぇるちゃん(仮)のような可愛らしい女性が」「海辺の砂浜にいる」「アイスクリームを食べている(追加)」「アニメ風の画像」になりました!
ちなみに。
SUBJECT・SCENE・STYLEに1枚ずつ指定と決まっているわけではありません。
例えば、SUBJECTにもう1人追加してみましょう。
けうちぇるちゃん(仮)とは違う女性というのがわかりやすくしてみました。
麦わら帽子で茶髪、夏っぽいワンピース。
これで生成してみるとどうなるか?(アイス食べるってプロンプトは消しました)
けうちぇるちゃん(仮)にお友達ができたよ!特徴ちゃんと表現されてますよね。
「けうちぇるちゃん(仮)のような可愛らしい女性と夏っぽい服装の可愛らしい女性(追加)が」「海辺の砂浜にいる」「アニメ風の画像」ができました。
ちなみに(再)。
SUBJECT・SCENE・STYLE全てを指定する必要はありません。
例えば、STYLEを指定しないとどうなるか。
既にアップロードした画像にマウスポインタを持っていくと右下にゴミ箱マークが出るのでクリックすると画像が外れます。
先程の画像からSTYLEを外した状態。
これで生成してみましょう。
実写(風)になりました。
つまり「けうちぇるちゃん(仮)のような可愛らしい女性と夏っぽい服装の可愛らしい女性が」「海辺の砂浜にいる」「アニメ風の画像」画像ができたということですね。
STYLEは指定していないのでその部分はお任せとなった結果、SUBJECTに指定した画像2枚とも実写(風)だったのでそうなった、という感じでしょうか。
と、こんなところでWhiskの基本的な使い方はおわかりいただけたのではないでしょうか。
さて、Whisk、どうでしょうか?
「凄い!こういうの待ってた!」という人もいれば「…正直、こんなもんか」という人もいるでしょう。
正直、キャラクターの一貫性という意味ではちょっと厳しいですね。
でも「感覚的に複数の画像をドラッグ&ドロップするだけでそれぞれの要素を組み合わせた画像ができる」というのは魅力的なのではないでしょうか。
Whiskの基本的な使い方と、こんな感じだよという実例を示したところで。
ここからは応用に入っていきます。
Whiskってどんなもんかだけ知りたいという方はここまで読んでいただければ十分かもしれませんね。
ここから先は「Whiskって結局何をどうやってるの?という解説」と、「Whiskは現状(2025/1/18現在)アメリカ以外では使えないけど、どうにかしてWhiskっぽいことをやってみる解説」です。
要するに種明かしっぽい感じです。特に「Whiskっぽいことをやってみる」は工夫次第で更に面白いことできそうな話です…ぶっちゃけ私はこれ思いついてからはWhiskよりこっちの方法使ってます。
興味のある方はどうぞ!
ここから先は
1月18日 23:30 〜 2月1日 00:00
この記事が参加している募集
もしチップをいただけたら励みになります!(多分AIサブスク費用とさせていただきます)