見出し画像

非エンジニアが、ノーコードで使えるAIを駆使してバーチャルインフルエンサーのマンガを作る話

2023年12月1日〜10日、株式会社DiFun様が主催するVirtual influencer Hackathon @DiFun_vol.1にエントリーし、優秀賞をいただきました。
お誘いくださったDiFun代表のカイルンさん、ハッカソン参加者、審査員の皆様、運営の皆様、楽しい機会をありがとうございました。

この記事では、ハッカソンのプレゼンテーションをベースに、行った学習や実験の内容と成果物について記します。


# 開催概要

ハッカソンを主催する株式会社DiFunは、Skyland Venturesのインキュベーションプログラム「荒波」参加をきっかけとして、シリーズPre-seedにて資金調達を行ったスタートアップで、「テクノロジーの顔をジャックする」というビジョンを掲げ、主な事業としてAIインフルエンサーの運用・プロデュースを展開し、日本から全世界に向けてバーチャルインフルエンサーの展開と地位の確立を目指しています。

今回のハッカソンは、DiFunがプロデュースするバーチャルインフルエンサーLeiの技術的拡張とクリエイティブの拡張を目指すチャレンジングな内容でした。


# ハッカソン参加にあたって設定した目標

ハッカソン参加にあたって、下記の目標を設定しました。

- バーチャルインフルエンサーにまつわるクリエイティブに挑戦

今回のハッカソンは、バーチャルインフルエンサーLeiの実在に至るステップの第1歩で、2枚のキービジュアルと大まかなコンセプトから技術的な挑戦とクリエイティブに挑む必要がありました。

多様なメンバーがハッカソンに参加しており、参加者の分Leiのコンテクストが拡張されると考えると、自分の持っているコンテクストをしっかり絡めて挑戦した方がよかろうと考えました。

また、今後ハッカソンを繰り返しながら付加価値の先鋭化を目指していくとすると、初回ではできるだけ幅広い技術的な挑戦やクリエイティブが成果として現れて、裾野を広げるのがよかろうと考えました。


- バーチャルインフルエンサーLeiを知ってもらう

また、せっかく参加するなら、少なくとも自分をSNSでフォローしてくれている人には、バーチャルインフルエンサーLeiの強い印象を残すような成果物を作りたいと考えました。

単に技術的なチャレンジだけでなく、ビジュアルとエピソードの両方で見る人の感情に届くようなクリエイティブも同時に実現しようとしました。


- AIに関する新しいチャレンジ

もちろんハッカソンなので、参加を通じて新しい技術の習得や、既知の技術の洗練を行うことも目指しました。

以上の理由から、バーチャルインフルエンサーLeiの文脈と、自分の持っているマンガ x AIの文脈を繋げたようなチャレンジを行おうと決めました、


# 今回やったこと

今回行ったのは、下記の内容です。

  • Leiのプロンプト再現 → 画像生成

  • Leiをアバターに音声生成とリップシンク動画作成

  • 公式ドキュメントからLeiにまつわるコンテキストを拡張

  • 拡張したコンテクストからシナリオ生成

  • マンガ制作

順に記していきます。


# プロンプトの再現

ハッカソン参加時点で、Leiのキービジュアルは、バストアップと全身像の2枚の画像のみです。
Leiが将来、人々の生活の中に実存する存在となるために、Leiの持っているコンテクストを損なわないまま、拡張する必要があります。

生成AIでLeiのビジュアルを拡張していくためには、Leiのビジュアルを再現性のあるプロンプトに変換(あるいは圧縮)する必要があります。

最近の生成AIは大変優秀なので、画像をテキストベースのプロンプトに圧縮することができたら、プロンプト x 適切なスタイル(生成AIモデルや手法)の組み合わせで、かなり近似できるだろうという仮説を立てました。


画像をテキストプロンプトに変換するには、画像を観察して人間の頭で抽象化してプロンプト化する方法がありますが、2023年11月に参加した「 #GPT4新機能ハッカソン24耐 」でGPT-4-Vision APIを触っていたので、GPT-4-Visionのimage to text性能がかなり高いことを承知していました。

そこで、GPT-4-Vision APIを気軽に使えるChatGPT(有料版)にLeiのキービジュアルをアップロードして、英語のプロンプトに変換するよう指示しました。


# 画像の生成

LeiのキービジュアルはMidjourneyで作ったと伺っていたので、上記のプロンプトをMidjourneyに入力したところ、かなりいい線を行くことができました。

Leiの特徴を大部分捉えていて、テキストベースのプロンプトで画像の文脈はかなり再現できると考えられました。


同じプロンプトをniji-journeyに入力すると、ビジュアルの文脈は保ったままアニメ・マンガ調のイラストが生成できました。


同じプロンプトと、PixAIに自分で描いた絵を学習させて作った自分絵LoRAを用いて、PixAIで画像を生成すると、キービジュアルの文脈 x 生成AIのスタイル x 私の絵柄が融合したビジュアルが生成できました。


通常、バーチャルインフルエンサーに限らず何らかのビジュアルを伴ったクリエイティブを行う場合は、リファレンスとなるキービジュアルを複数用意すると思いますが、この実験から、たった1枚の画像からでもキービジュアルを拡張していける可能性を見出すことができました。

また、Leiについてはバーチャルインフルエンサーですので、元になるキービジュアルの再現性を突き詰めるだけでなく、Leiが「今日はリアルワールドにいます」「今日はアニメの世界にいます」「今日はマンガの世界にいます」と、現実世界と仮想世界を自由に行き来するような文脈を与えることもできます。

これはIPビジネスにおいて大きな可能性ではないでしょうか。
1点のキービジュアルから、さまざまなプラットフォームで展開するためのビジュアルリファレンスのバリエーションを、キービジュアルの文脈を崩さずに短時間で生成することができそうです。


# リップシンク動画の生成

個人的なタスクとして、プレゼンテーションや研修の動画を人間が喋るのではなく、画像+リップシンク動画生成で作り、生産性をあげることにチャレンジする、というタスクがあったので、生成したLeiのビジュアルを用いてこれに挑戦することにしました。

結論から言うと、1枚の画像と台本さえあれば、D-DIで簡単にリップシンク動画を作ることができ、Viewで字幕生成も簡単にできました。
スマホだけで完結することができました。

どちらかと言うと、しゃべらせる台本作りの方が大変そうです。


# コンテクストの拡張

今回のハッカソンは、かなり自由な雰囲気で行われたとはいえ、Leiの生みの親であるカイルンさんが考えているLeiのコンテクストからあまりにも乖離したものは好ましくなかろうと考え、利用できるコンテクストを活用しようと考えました。

しかし、この時点で利用できるコンテクストはさほど多くなく、ハッカソンのステートメント、DiFunのプレスリリース、カイルンさんのnoteの記事ぐらいでした。


そこで、利用可能なコンテクストを全てNotionのデータベースにノート化し、データベース上でNotion AIを回してコンテクストの拡張を試みました。

Notionデータベースは、データベースの要素にノートを含めることができ、カラムにNotionAIのプロンプトを仕込むことで、ノートの内容からテキストを生成することができます。

それぞれの利用できるコンテクストから、NotionAIを使って、論点、作者の人物像、Leiの人物像を生成し、それらを含んだデータベースをcsvでエクスポートしました。

エクスポートしたcsvを、GPTs、Poeにアップロードして、さらに論点や作者の人物像、Leiの人物像を質問していきました。

また、NotionAI Q&Aにも同様の質問をしていきました。


GPTs、Poe、NotionAI Q&A、それぞれとLeiについて会話した内容を、先ほどのNotionデータベースにノートとして追加して、NotionAIで論点、作者の人物像、Leiの人物像を生成して抽象化しました。

csvを再度エクスポートして、さらに拡張したコンテクストデータを手に入れます。


# プロットの生成

拡張したコンテクストから、マンガのプロットを作っていきます。
ここでは、私がもともと備えているコンテクストである、マンガのシナリオ全体を8幕に分割したプロットのテンプレートを活用します。

  • 情報とアイコン性

  • これどうなっちゃうの?

  • 主人公のしたいこと

  • 相手のしたいこと

  • 葛藤・対立

  • キャラクターの深堀

  • クライマックス

  • 余韻


Notionデータベースから出力したcsvを、GPTs、GPT-4-116-preview、GPT-4-32k、Cloude2-100k、Llama2など、さまざまなAIにコンテクスト情報として与えます。

前述の8幕のプロットのテンプレートに従って、1幕ずつLLMに質問していきます。

それぞれのLLMは異なった性質を持っているため、同じ質問をしてもコンテクストの水平的な広がりを確保できます。

この過程で得た拡張されたコンテクストを使って、新たなNotion AIデータベースを作ります。


8幕ごとにノートを作り、それぞれのLLMが出力したテキストを貼り付けていきます。
Notion AIに、各幕で何が起きるのかを抽出してテキスト情報として生成してもらいます。

  • できごと

  • 主人公の受動的な感情

  • 主人公の能動的な意思

  • 次のシーンへの期待

NotionAIで、各幕の上記項目を生成したら、データベースをcsvでエクスポートします。


# シナリオの生成

エクスポートしたcsvを読み込んだ、シナリオ生成用のGPTsを作り、各幕のシナリオを生成します。

リップシンク動画の台本は、ここまでの工程で生成できそうです。
マンガのシナリオとして使用するには、もう少し手直しが必要そうだったので、次の工程に移ります。


# ネームの制作

GPTsで生成した各幕のプロットから、人間の手でマンガ用の文字ネームを生成します。
この工程が人力になっている理由は、この後の工程のネーム(コマ割り)をAIが考えるのが現時点では難しく、ネーム(コマ割り)を人力で作ること前提なら、この工程から人力で作っておいた方がスピードが速いためです。

AIを使ってスピードが落ちては本末転倒なので、人力の方が速い場合は人力で処理してしまいます。


前述の文字ネームから、絵のネームを描いてコマ割りをします。

AIでマンガを描くチャレンジは、さまざまな人がさまざまな手法で試みていますが、個人的にはネーム(コマ割り)制作がボトルネックになっていると感じています。

マンガの見開きページの中には

  • コマごとに3次元空間

  • 絵、枠線、吹き出しという空間

  • 視線移動の考慮(時間軸)

  • ツカミ(最初に目が止まる目立つイメージ)

  • ヒキ(次をめくりたくなる仕掛け)

などの重要な要素があり、高次元空間を2次元に圧縮しています。
圧縮された結果である見開きページから、上記の要素を考慮した文脈を解析するのは、現在の汎用的なLLMではかなり難しい足すだろうと考えます。

なので、今のところ、この工程も私自身がやった方が速いため、人力でやりました。


# キャラクターのデザイン

キャラクターのデザインは、冒頭に画像生成AIで出力した画像を参考に作りました。


# マンガの作画

作画については、生成AIで作ることもできますが、今回は時間が限られていたので、私の手で作りました。

当初の目標である、多くの人にバーチャルインフルエンサーLeiを知ってもらう、ということを考えると、私のSNSのフォロワーには、私の絵で作画した方が親しみが持ちやすいだろうという考えもありました。


# 完成したマンガ

バーチャルインフルエンサーLeiをストーリーの重要な役割をして登場させつつ、生みの親であるカイルンさんが考えるLeiのコンテクストと大きく乖離しないように、「バーチャルインフルエンサーLeiが映画に出演した」というていにしました。


# ふりかえり

- リップシンク動画自体はアプリで簡単に作ることができる

当初、もう少しチャレンジングなテーマになると考えていたリップシンク動画ですが、スマホのアプリで簡単にできてしまいました。
今回作ったものは人間とみまごうほどの高クオリティのものではないですが、元の画像がイラストであったり、ナレーション程度の内容であることから、私の想定している用途では十分機能しそうです。

むしろ、しゃべらせる内容を考える方に苦労しそうだと考えて、限られたコンテクストを元に、コンテクストの拡張・抽象化を繰り返してプロットやシナリオを作る手法の確立に多くの時間を使いました。
手応えはあったので、次はこれをできるだけ自動化できるようなチャレンジをしてみたいです。

- マンガのネームを描けるAIは作れるのか?

マンガのネームをAIが生成する、というのは現実的にはまだ難しいように思います。
そもそも、AIが「ネーム」や「コマ割り」の概念を理解していません。
それらを言語化orデータ化してコンテクストとして与えることができれば、一定実現可能だろうと考えています。

こちらも次のチャレンジのテーマとして持ち越したいと思います。

これが実現できれば、バーチャルインフルエンサー x PRマンガというコンテンツが低コストで作れるようになり、バーチャルインフルエンサー市場の拡大に一役買えるのではないかと思います。


ハッカソンは、限られた時間・条件の中で、課題を見つけ出し、仮説を立て、技術を選択し、学習と実験を繰り返して成果物を一気に掴みにいく、たいへんチャレンジングで楽しい機会です。

他の方が取り組んだ内容もとても刺激的で勉強になるものばかりでした。
参加できて本当に楽しかったです。
お声がけくださったカイルンさん、ありがとうございました!


# LeiのAIファンアート

今回のハッカソンでは、クリエイター向けの二次創作コンテストも同時開催されました。
私も、冒頭で生成したプロンプトを活用して、AIファンアートを制作して発表したので、ここでその画像を共有します。

# リップシンク動画のサンプル

D-IDとViewを使って生成したリップシンク動画のサンプルです。
YouTubeにリンクしています。


# 関連情報

Virtual influencer Hackathon @DiFun_vol.1

カイルンさんのnote

株式会社DiFunのプレスリリース


- 関連記事

ハッカソンやLT会のお誘い、いつでもお待ちしています!

自力でコード書けない非エンジニアがGPT4新機能ハッカソン24耐で優勝する話

非エンジニアが、AIツールを自作して自分のためのAIアシスタントを手に入れちゃう話

アンドロイドは好きな人の夢を見るか-完結編

2023年12月16日 公開

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?