AI系ツールでイラスト制作の過程を効率化する【ポン出し？舐めてると潰すぞ】

kokuren

2023年12月1日 11:52

※注：生成AIに関する内容が多分に含まれるため苦手な人やアンチAI過激派の方々はブラウザバックをお願いします。
内容を要約すると「人間とAIのいいとこどりをしてもっといいものを作ろうぜ！」というお話です。

内容を分かりやすくするため、この記事では生成AIの倫理的な議論については極力取り扱わず、あくまでも作品作りにおけるクオリティアップや効率化の追求方法についてのみ論じます。
（もしかしたらそのうちそういった議論についても書くかも）

はじめに

こんにちは。
最近音遊びにハマってボカロ曲作りを始めた（正確にはUTAUというオーパーツ）のですが、いざ曲をYouTubeやニコニコ動画にアップロードするとなると1つ課題が生じます。

そう、ビジュアルです。
いくら曲の投稿とはいえ、動画投稿プラットフォームを使う以上、なんらかの視覚的な要素が必要になります。

曲のみを投稿するサイトもあるのかもしれませんが、素人の僕がパッと思いつかない時点でそもそも流行っていないのかと思います。

そのため、色んな人のボカロ曲を回っていると、概要欄の注釈に誰がイラストを描いたのかが記載されていることがあります。
結構絵師さんに依頼している人が多いみたいです。

僕は絵師の友人などいませんし、幸いちょっとなら絵を描けるので、自分で描くことになります。というか、その方が作品の世界観の整合性がとりやすいのではないかと思っています。

絵師さんに依頼をしている人もいれば、最近はAIイラストを利用している人もかなり見受けられます。

ところが、おそらくそのほとんどがプロンプトを組んでAIに生成させただけの生の状態、いわゆる「ポン出し」の絵です。（見れば分かります。）

ポン出しはまだ未完成品

うまく言語化するのは難しいのですが、AIポン出しのイラストは本当に見たら分かります。一見して破綻が無くても情報量の足し引きやディテールの追求がうまくできていなかったり、なんか人が描いた感じがしなかったりします。

ちょうど初心者dtmerが作った曲の打ち込み感がすごいのに似ていると思います。（特大ブーメラン）
あとは単純にみんな同じモデルを使うから絵柄が似たり寄ったりになりやすいというのもあるでしょう。

確かにイラストAI自体は強力なツールなのですが、ポン出しそのままではクオリティに欠け、せいぜい50～70点程度である感じがします。

メッセージ性、表現性というのも重要な要素です。
情報量の足し引きやディテールや質感の操作、完璧な構図の制御ができていないためか、ポン出しイラストは見せかけの技術を詰め込んだだけで結局何を表現したかったのかがわかりにくくなりやすい印象です。

ポン出しイラストに魅力を感じにくいのは決してそこに「人のあたたかみ」がないからなのではなく、単純にイラストを要素に分解したときにレベルが低い部分があったり、レベルが高いところと低いところでちぐはぐ感が生じているためだと考えられます。

とは言っても、やはりあのスピード感は作業効率化の上では非常に魅力的ですし、なんとかして実用レベルに持っていきたいところです。

こういった課題に対し、術師たちはControlNetやLora、物量作戦のような方法を用いてクオリティアップを図ろうとしていました。（生成AI界隈を覗いていたのがせいぜい数ヶ月前までなので今は異なる可能性があります。）

※術師：手描きの絵師に対して主にAIツールを用いてイラスト制作を行う人のことをこう呼ぶ傾向にある。

個人創作は時間との闘い（ここまで前置き）

ところが、コントロールネットの設定を弄ったり、プロンプトを変えて何度も生成を繰り返したりといったことをしていると、結局かなり時間がかかります。

結構クオリティの高い術師のTwitterなんかを見ると、1枚の絵のために数千枚出力するとか割とザラにあります。しかも、それだけやってもおそらく本当にイメージ通りの完成品が出てくるわけではないでしょうし、選別作業もしんどいです。

AIだけではポン出しだと魅力や表現力に欠け、人手だけでは死ぬほど根気や忍耐力、鍛錬が要ります。

絵を描いたことのある人にしかわからない時間感覚ではあるのですが、皆さんが普段パッと見かけるバズってるイラストなんかは、絵柄にもよりますが最低でも1枚あたり10時間前後はかかっている、ものによっては数十時間レベルでかかっていると想定すべきです。

しかもその技術を得るまでにその作業を何百回と繰り返すわけです。漫画なんかは簡単なエロ同人誌一冊作るのに100時間単位ぐらいはかかると考えられます。正直常人にできることではありません。

冒頭でボカロpは絵も描いた方がいいんじゃないの？みたいなことを書きましたが、そもそも曲作りだって作詞、作曲だけではなく、編曲、ミックス、マスタリングという作業があります。（正直作曲の後の方が時間がかかると思う）

全体を合わせればかなり早くても数日、かかれば1ヶ月程度は音源制作自体に時間がかかるのが普通でしょう。それもやって絵も描いてしかも動画にしてなんて一人でやるのは結構しんどいかもしれません。

（あれ、俺ってもしかしてすごい？（syamu並感））

こんなに創作のノウハウに溢れていて、発表できるプラットフォームも多い時代なのに、作りたいものは沢山あっても、技術も時間も足りないというのは悲しいことです。

そんなこんなで、前置きが長くなりましたが、AIツールを用いつつ、手描きもしつつのイラスト制作の効率的なワークフローの一例をお見せします。

※クリスタやPhotoshopなどのペイントツールの使い方がある程度わかる人、イラストを描いたことのある人向けになります

img2imgを用いたイメージのブラッシュアップ

イラストを作る以上、なんとなく描きたいものの構図やらポーズやらの想像はついていると思います。

今回は切なめな自作曲のサムネを作りたかったので、使用しているUTAU音源の重音テトちゃんが天使のように空から手を組んで見守っているような絵を描こうと思いました。（このnoteのサムネが完成品です）

そこでまずは、カラーラフのカラーラフを手描きで作成しました。
背景はフリー素材を持ってきて五分で描きました。

5分で描いたカラーラフのカラーラフ
上手いもクソもないがなんとなくやりたいことはわかるぐらいの絵

これを例のNovel AIにimg2imgの参考画像としてぶち込みます。

※Novel AIの是非は一旦置いておきます、完成のイメージ（カラーラフ）を作るのが目的なので別にどのモデルやサービスでも構いませんが、たまたま昔買ったNovel AIのトークンが余っていたので使いました。

img2imgなのでプロンプトは入れても入れなくてもあんま変わらないと思います。テキトーにsacred（神聖な）とかdark atmosphere（暗い雰囲気）とか入れてました。

また、だいたいのモデルで既存のキャラの絵が食われているので二次創作については名前を入れればだいたい再現してくれると思います。そしてオリジナルキャラもLoraを作れば……。（これも是非について語ると超長くなるので省略します。）

先ほど述べたように何度もポン出しを繰り返しても本末転倒なので、今回は10枚ぐらい出して気に入ったのを二枚選びました。

服のデザインが気に入った＋ポーズも合ってるけどなんか変なの飛びまくってる＋明るすぎる？

この2枚が好きだなと思ったので、テキトーにコラージュ（切り貼り）をしてなんとなくのカラーラフを作っていきます。

しかしここで問題が生じます。
生成された画像のアスペクト比が一般的な動画用（16：9）に合いません。

画像生成のクオリティはモデルの学習元画像のアスペクト比やサイズなんかに影響されることがありますし、せっかく気に入った雰囲気のイメージができたのでこれをブラッシュアップしていく形で作りたいところです。

Photoshop生成拡張によるイメージのサイズ調整

ここで、たまたま大学のライセンスでadobe creative cloudを契約していたので、Photoshopによる生成拡張、いわゆるジェネレーティブ塗りつぶしを行ってイメージのサイズを無理やり引き伸ばします。

これが引き伸ばし前

16：9で生成拡張をどん！（プロンプト：angel wing）

これを基にコラージュの要領でカラーラフイメージを作成します。

好きなところ繋げただけ。

後は頑張って線画描きます。

色塗っていきます。
地味に色も参考にできるのが便利。

ここまでなんとか爆速で来ました。（全部合わせて2時間ちょっと）

さて陰影を塗っていくわけですが……。

影どこにつけたらいいか、わかんねーー。（おえかきあるある）

クリスタver2.0から自動陰影が追加されたようですが、残念ながら僕は買い切り版の時のソフトしか持っていないので、頑張って影をつけるしかありません。

（線画渡したら陰影の場所教えてくれるAIとかねーかな……。）

ありました。

ShadeSketchに陰影の場所を教えてもらう

以下のリポジトリを参照。

Live demoがあるのでそれをお借りしました。

線画を渡して光源の場所を指定する。

光源は前方上からにしてみました。

これを参考に陰影をつけていきます。

ついでにハイライトもつけちゃおう。

後はちょちょいと加工をして完成！

まだ描きこめるところもあるとは思うのですがゆるして。
ここまでで3時間半ぐらいでした。はやい。
ポン出しのものよりも神聖な感じが表現できてる気がする。

そしてあんまりAIっぽさがないと思います。
だって人の手で再構成してるんだもん。

おわりに

できた曲。（曲のクオリティはゆるして）

やっぱ使えるものは何でも使わんとね。

おしまい。（つかれた）