【AI×AI】カンフー奥義を錬成せよ!【AI画像生成】
はいこんにちは! レプラコーンwakaです。
この記事は、2つ前の記事で書いた「AIで作った妄想カンフー映画」ができるまでの続きです。2回目は「カンフー映画のビジュアル」を作るお話ですよ。
画像生成での大きな発見は、AIを使うことで想定していたイメージから内容がどんどん変わっていったことでした。
どんなことが起きたのかは、続きをどうぞ!
AI画像生成は「Midjourney(ミッドジャーニー)」で始めたよ
「AIを使った妄想カンフー映画を作ってみよう」と、ChatGPTでストーリーを作り、いよいよ映画のキービジュアルを作る段になりました。
…が、そこで問題にぶち当たります。
AI画像生成サービスって、けっこう種類があるんです。しかもそれぞれコツをつかむまでに、それなりの労力が要る。
例えば無料で使える「StableDiffusion(ステーブルディフュージョン)」というソフト。完全無料でいくらでも画像が作れます。しかし、無料ゆえにちょっとファニーな感じの絵もできちゃう始末!
きれいな絵を出すためにはパラーメータや命令を調節する必要があって、…こんな感じになります。
でも放っておくとドンドン時空がゆがんできます。
…とまあ、何が出てくるかわからないワクワク感があるけども、狙ったものを出すための道のりが長そうだったんです。
(いま改めてこの絵を見たら、意外と楽しいんだけどねw。)
※有料サービスに移行すると、ちゃんとした絵が簡単に生成できますし、環境を整えるともっとすごいものも作れます。ただただ、レプラコーンwakaの功夫が足りなかったと思ってください。いやホント。
他にも3~4つの画像生成AIを試したのですが、その感想は別の記事にするとして…
今回は「MidJourney(ミッドジャーニー)」という画像生成サービスを、有料プランで契約しました。
その理由は4つ
Midjourneyは、他ユーザーの画像生成プロンプト(命令)を見て参考にできる。しかも、日本語での情報も多め。
人体の描写に強く、人の形が崩れにくそう。
フォトリアリスティック以外の画像(アニメ調とか)の生成も得意で、表現の幅を広げやすそう。
有料にすることで画像生成時間を短くしたい(テスト回数を増やしたい)
と、こんな理由。
特に、パパパッと本題(絵を作ること)に入りたかったのが本音です。
そんなこんなで、いよいよカンフー画像の生成に入りますよ!
(前振り長いよ!)
いきなり挫折!「龍の爪」が作れない。
さて、前回の記事でストーリー概要をまとめた『龍爪の逆襲』。
物語のキモである「龍の爪」は魔法の力を使う武器という設定だ。
「カンフー」で「爪」とくれば……カンフー映画の至宝『燃えよドラゴン』のラスボス・ハンがつけたような「鉄の爪」ですよね!
てわけで、ポスターにはこの爪を持った男を入れたいと思います。
カッコいいしね!
ではさっそくAIに命令。
するとこんな感じに。
おまえ………爪をどこに忘れてきた……!?(いや、カッコいいけどさ)。
「あちゃー、鉄の爪が英語で「iron craw」だから、プロレスの技と間違えているかも? 出てきた絵が全部、指先を強調してるしな。」
……なんて思って「metal craw」など言葉を変えてみますが、ぜんぜん反応しやがりません。
どうやら「英語でよく知られているもの」でないと生成の認識が甘くなるようです。
ことごとく「鉄の爪」を無視されるおれ………。
背景に描かれる「中国風の魔法陣」はかなり良いのだけどもね。主役がね…。
で…私はよーく考えました。
思い描くような「爪をつけた男」のイメージがあって、アメリカで誰もが知ってるもので指示すればいいのだと…それは…
ピーン!!! そうだ!!!!
「ウルヴァリン」だ!!!!
出でよ! 「クンフーマスター・ウルヴァリン」!!!!
浮かれていると気付かないこと
「出た! 爪が出たぞ!」
鉄の爪の生成に成功し、喜びに舞い上がる俺。
さすが、ウルヴァリンの認知度の高さよ! あとは背景にライバルや魔法陣を入れて、キービジュアルは完成だな。
…と、やってみたものの、カンフー成分を増していくと、途端に鉄の爪が消えます。なぜ…?
カンフーとウルヴァリンは相性悪いのか?
こうなったら、背景とウルビーを合成してポスターにするかな、とか思い始めたころ、重要な部分に気づき始めます。
「まてよ……おれは今、カンフー映画じゃなくって、
ウルヴァリンの映画ポスターを作ってないか!?」と。
いかんいかん、鉄のかぎ爪にとらわれ過ぎて、本質を見失っていました。
「忍者ウルヴァリン」とか、そっちの路線に足を踏み入れるところでした。(とか書いていたら、既にあるのね。さすがアメコミ。懐が深い。)
ここで、改めて「龍の爪」とは何かを考えます。
「龍の爪」…爪という言葉にこだわらずに、刃物っぽい表現にしたらどうだろう? つまりは腕から刃物が伸びていればいいのだ。
……そして、たどり着いた言葉が「iron blade」でした。
と、単語を減らして入れたところ…
ええ~!? 刃が飛んでる! 手から伸びてないぞ!
……けど!
…………けど!
なんだかカッコいい! この方向で決定だ!
というわけで、キービジュアルは「飛ぶ刃」で決定。
候補をいくつか作り、その中で一番「眼力が強いヤツ」をキービジュアルに採用しました。
この絵を、フォトショップやMedibang paintを使って加工して完成です。
どやあ~~~。
あとは、あらすじに沿って場面を作れば作成だね!
画像生成でも「倫理の壁」が!?
前回ChatGTPが生成した「あらすじ」を読みやすく整えながら、先ほど作った「飛ぶ刃」の要素を加味してまとめていきます。
例えば、あらすじでは「主人公が武器の材料取りに行く」となっていたので、「この村は鉱山資源が豊富で、それで生計を立てている村ということにしようか…」という具合です。
で、村が襲われるのですが、再び「飛ぶ刃」を生成するのにちょっと苦労します。ギリギリ、村を襲うシーンでは鳥ではなく武器に見える感じが出せました。
鉱山で出会う謎の老人はあっという間にできたんだけどね!w
んで、最も苦労したのが、最後の戦いの部分。
「相手に大量の刃を投げつける」ような表現が上手くいかず、どうしても普通に達人同士が戦っている絵になってしまいます。
というか、
「人に向かって刃を飛ばすなんて危ないでしょ」
「これは倫理的にNGです」
などと叱られてしまい、画像を生成してくれません。(いや、そうだけども)
ここでまた、倫理に阻まれるAI技術……!!!
単語を変えて頑張って描いてもらいますが…
むむむ!
まあ、これもかっこいいんだけどさ。
とうとうゲーム画面になってしまった… って、おい!
……で、考えたのが
「お互いが龍の爪の達人で、刃を飛ばしあっているのだから、
2人の周囲を刃が囲んでいるようにすればいいんじゃないか?」と。
おおおお!?
なんだかいい感じです。
あとは今回の単語をもとに、実写観を加え、「夕日の入るライティング」などの指示をして、映画の一場面のような画面を作っていきます。
完成!
AI×カンフーは描くのも戦いだった
ストーリーで描く内容をだいたい決めていたとしても、AIに描かせるにはそれなりのコツや経験が必要になった。そんなことが今回の制作で分かりました。
そして、AIを使ったからこそ生まれる絵が想像を超え、絵に引っ張られて内容もどんどん変わっていく面白さもありました。
いやー、刃が飛んだときは「来たな!」って思いましたもん。
そして、カンフーという題材を選んだからこその宿命か、バイオレンスな描写にはけっこう規制が入ることもわかりました。
最後のカンフーマスタが相手の死を悼むポーズなんて、何度やり直したかわかりません。「人が死んでいる」はNGで全然出ないけど「人が倒れている」はOKなんですよ。ふーーーん…。
本当は大量の鉄の刃を射ち込まれた悪人が倒れているようにしたかったんですよね。でもNGになって無理でした。
苦肉の策で「ハリネズミのように鉄の刃が刺さった黒い物体が落ちている」「その前で立ちすくむカンフーマスター」を頑張って描いてもらったのですが………。
当然のごとくボツ!!!
以上、「AIカンフーができるまで」第1回レポートでした!
最後に、今回作ったMidJourneyのプロンプト(命令文)を張っておきます。AIのバージョンが5になり、自然言語で入力した方が言うことを聞くといううわさもあったので、その辺りは感覚で作っています。
①There is a kung fu master with a lot of iron blades stretched out from both hands. He is in the center of the screen. 1970s: Pictures like movie posters.
②A full-body shot of two kung fu masters are engaging in a battle. The masters are surrounded by numerous flying knives filling the screen. on the Chinese street in the 1900s. The scene is lit with cinematic lighting
③Full-body shot of a villainous man screaming in despair, with a Chinese magic circle glowing beneath his feet. he is wearing a traditional Chinese kung fu uniform. The scene takes place on a street in 1900s China and is rendered in a 1970s kung fu movie style.
④Create an image of a 300-year-old Chinese immortal with a face resembling that of a monkey and a long, flowing beard. The scene takes place in a Chinese mine during the evening, with a low angle shot. The style of the image should resemble a scene from a 1970s kung fu movie. --c 80