見出し画像

Whisk実際に使ってみた話と、結局何をどうしているのか?と、疑似Whiskのやり方

セール中

〜2月1日 00:00

Whiskについて気になっている方に。


Whiskとは

2024年12月16日、Googleが実験的かつ革新的なAI画像生成ツール「Whisk」を発表しました。

Whiskのトップ画面

感覚的に複数の画像をドラッグ&ドロップするだけで、それぞれの画像の要素を組み合わせた画像が生成できる!というサービスです。画像生成AIは「こんな画像を作ってみたい」を実現してくれるという少し前からすれば夢のようなサービスですが、プロンプトの書き方がわからないと思うような画像が作れない…という問題もありました。ImageFXやDalle3のようにプロンプト追従性がかなり高いサービスもありますが、頭の中にある「こんな画像を作りたい」をプロンプトに表現するのはなかなか難しかったりもします。「違う!そうじゃなくて…」と身悶えしたことがある方も少なくないのではないでしょうか。

そんな中で、プロンプトが必要ない、元となる画像を用意さえすればできる…というWhiskは「これを待っていた!」という方も多いサービスだと言えるのではないでしょうか。

Whiskを実際に使ってみた

実際に使ってみたらこんな感じ、というのを示してみます。
先ほど載せたトップ画面から、より自由に作りたいので下部の「START FROM SCRATCH」をクリックします。

こんな画面になります

さて、ここから実際に画像を作っていきましょう。
まず、「SUBJECT」の画像をドロップします。これはメインとなる被写体です。
※なお、今回題材として使用している画像は全てImageFXで生成したものです。

SUBJECT画像

女性の画像を上げてみました。
これは私のアイコン画像にしている けうちぇるちゃん(仮) です。
数秒間「analysing image…」と表示され画像がぐるぐると回転し、読み込み完了します。
※この時点で問題がある画像と判断された場合は弾かれます

けうちぇるちゃん(仮)、可愛いですね

けうちぇるちゃん(仮)の画像は、白いワンピースとベージュのスカートを着た可愛らしい女性がグレーっぽい壁の前に立っている、というシンプルなものです。

ではどんどん行きましょう。
続けて「SCENE」の画像をドロップします。これは風景、背景と考えてください。

SCENE画像

海辺の砂浜にしてみました。

誰もいないきれいな砂浜、良いですね

では、最後に「STYLE」の画像をドロップします。これは画像のスタイル、画風と考えてください。

STYLE画像

アニメ風の少女ですね。

ImageFXくんに適当に生成してもらいましたが可愛いですね

これで準備は完了です。
つまり、今回生成したい画像は

・けうちぇるちゃん(仮)のような可愛らしい女性が
・海辺の砂浜にいる
・アニメ風の画像

ということです。
では、実際にその画像を生成してみましょう!
右下の「Genetate your combined images」で示された矢印をクリックしてみましょう。

生成中…

画面中央でうにょうにょと白い図形が形を変えながら動いています。
ドキドキしながら待ちましょう。
待ち時間は多少のブレはありますが、まぁ大体1,2分くらいでしょうか?

そして、画像ができました!

できた画像

実写(風)からアニメ風ということで「わー、けうちぇるちゃん(仮)そのまんまだ!」かというとちょっと難しいところですが、服装とかはかなりそれっぽいですよね。
そして、きれいな海と砂浜はかなり意図した通り。
「けうちぇるちゃん(仮)のような可愛らしい女性が」「海辺の砂浜にいる」「アニメ風の画像」ができた、と言えるのではないでしょうか?
※ちなみに、この生成時点で問題がある画像ができたと判断された場合、画像が1枚しか出なかったり、全く出ない場合もあります…

ちなみに。
最初の画像生成時はあえてスルーしたのですが、画像を生成する矢印の所にはプロンプトを入力する欄があります。

プロンプト入力欄

Whiskはプロンプト不要で画像の提示のみで画像生成できるのが魅力ですが、プロンプトを足すことで補足ができるようなイメージですね。
では、先程の3枚の画像はそのままに、プロンプトを入力して画像生成してみましょう。
「the character is eating an ice cream」とあるので、試しにそれを入力してみましょうか。
ポチッとな。

再び画像生成中…
出ました

「けうちぇるちゃん(仮)のような可愛らしい女性が」「海辺の砂浜にいる」「アイスクリームを食べている(追加)」「アニメ風の画像」になりました!

ちなみに。
SUBJECT・SCENE・STYLEに1枚ずつ指定と決まっているわけではありません。
例えば、SUBJECTにもう1人追加してみましょう。

もう1人追加してみたところ。SUBJECTの所に2人いるのがわかりますね

けうちぇるちゃん(仮)とは違う女性というのがわかりやすくしてみました。
麦わら帽子で茶髪、夏っぽいワンピース。
これで生成してみるとどうなるか?(アイス食べるってプロンプトは消しました)

登場人物が2人に

けうちぇるちゃん(仮)にお友達ができたよ!特徴ちゃんと表現されてますよね。
「けうちぇるちゃん(仮)のような可愛らしい女性と夏っぽい服装の可愛らしい女性(追加)が」「海辺の砂浜にいる」「アニメ風の画像」ができました。

ちなみに(再)。
SUBJECT・SCENE・STYLE全てを指定する必要はありません。
例えば、STYLEを指定しないとどうなるか。
既にアップロードした画像にマウスポインタを持っていくと右下にゴミ箱マークが出るのでクリックすると画像が外れます。

STYLEの画像を外しました

先程の画像からSTYLEを外した状態。
これで生成してみましょう。

アニメじゃない

実写(風)になりました。
つまり「けうちぇるちゃん(仮)のような可愛らしい女性と夏っぽい服装の可愛らしい女性が」「海辺の砂浜にいる」「アニメ風の画像」画像ができたということですね。
STYLEは指定していないのでその部分はお任せとなった結果、SUBJECTに指定した画像2枚とも実写(風)だったのでそうなった、という感じでしょうか。

と、こんなところでWhiskの基本的な使い方はおわかりいただけたのではないでしょうか。
さて、Whisk、どうでしょうか?
「凄い!こういうの待ってた!」という人もいれば「…正直、こんなもんか」という人もいるでしょう。
正直、キャラクターの一貫性という意味ではちょっと厳しいですね。
でも「感覚的に複数の画像をドラッグ&ドロップするだけでそれぞれの要素を組み合わせた画像ができる」というのは魅力的なのではないでしょうか。

Whiskの基本的な使い方と、こんな感じだよという実例を示したところで。
ここからは応用に入っていきます。
Whiskってどんなもんかだけ知りたいという方はここまで読んでいただければ十分かもしれませんね。
ここから先は「Whiskって結局何をどうやってるの?という解説」と、「Whiskは現状(2025/1/18現在)アメリカ以外では使えないけど、どうにかしてWhiskっぽいことをやってみる解説」です。
要するに種明かしっぽい感じです。特に「Whiskっぽいことをやってみる」は工夫次第で更に面白いことできそうな話です…ぶっちゃけ私はこれ思いついてからはWhiskよりこっちの方法使ってます。
興味のある方はどうぞ!

ここから先は

10,360字 / 14画像

セール中
¥500
¥ 300

1月18日 23:30 〜 2月1日 00:00

この記事が参加している募集

もしチップをいただけたら励みになります!(多分AIサブスク費用とさせていただきます)