AIを使って表情豊かなアニメキャラと会う方法を考えてみた | Magic Animate、Animated Drawings
2023/12/11更新(追記あり)
画像1枚から動画を作れる、Animated DrawingsとMagic Animate
2023年末、ここにきて突如急成長を見せていると個人的に思っているのが、画像・映像系(アニメーション)のAI。画像生成AI技術が流行ってから恐れられていた、超精密なディープフェイク、それもさらっと見るくらいだったら絶対気付けないレベルのものが簡単に作れてしまう時代が訪れています。
そんな中で最近アツかったツールは、イラストや写真1枚から動画を作れる「Animated Drawings」と「Magic Animate」です。
これらのAIツールは、人間やキャラクターの全身または半身が写っている画像が1枚あれば、それを走らせたり、踊らせたりできるというもの。今は無料で試せる上に、複雑な設定も一切いらないので、専門知識が全くないわたくしでも簡単に使えました。
⚠️当ブログはただの文系AIオタクが自分用の記録として、素人目線で超個人的見解を展開しています。知らないことの方が多いので、もしこの記事に辿り着いてくれた方は広い心でもって読んでみてください。❤︎
Animated DrawingsとMagic Animateを試した感想
Animated Drawingsは、子どもが描いた絵や、ゆるいキャラクターを動かすのに適しています。操作が簡単で、イラスト1枚アップロードしてから、手足の位置を指定して完了。この処理が終わると、キャラクターの動きをレパートリーの中から選べます。
動きのパターンがかなり多いし、手足ぐにゃぐにゃぬるぬる動く感じが結構シュールなので、子どもにも大人にもウケが良さそう。
もう一つのMagic Animateはこれと比べると少し複雑。Xの投稿を参考にMac bookで試しました。
ただこちらはやはりまだ使いこなすのが難しくて、いくつか難点があります。
一つは、アップした画像とは似ても似つかない人の映像が出来上がってしまうというもの。
例えば、かわいい女の子のアニメイラストをアップしたのに、完成した映像では見覚えのないすごくリアルな外国人女性が踊っている、みたいなことが起こります。
他にも課題なのは、人間の顔をキープできないこと。正面を向いた人の写真を使っても、出力された映像では瞬間的に顔が歪んだり、全く別人に見えたり、横顔が崩れてしまったりします。
ただ、これはディープフェイクのツールを使うとすごく綺麗に補正できるようです。組み合わせ次第でどうとでもなりそうですね。
とはいえ映像系のAIはまだ出てきたての技術なので、近いうちにまた精度がどんどん上がっていくだろうなと思っています。
Magic Animateの詳細はこちら。(英語の記事です)
Animated DrawingsとMagic Animateを試してみて気づいたこと
Animated DrawingsとMagic Animateを試してみた時に、これがあれば好きなアニメキャラに好きな動きさせられるじゃん!!!!!!と思いました。嬉しい半分、権利とか倫理とかなんか大丈夫……?みたいな気持ち半分。
超個人的な話、最近サブスクでハンターハンターのアニメにハマり、個性豊かなキャラクターたちのことが大好きになってしまって、目の前にいてくれたらな〜と考えていたんです。これ今の技術があれば確実にできる。
今までを振り返っても、Vtuberが使っているような3DCGとか、VOCALOIDを踊らせることができるMMDといった技術は昔からありました。
しかしVtuberのモデルを作る、MMDを作る、なんてことは技術的に難しそうすぎて手が出ません。パソコンで細かいことしなきゃいけないんだろうなあくらいしか知らないですが、手間も、金銭的コストもきっとものすごくかかるのでしょう……。
それと、これらはアニメや実際に人間が動いているのとは完全に別物のコンテンツとして楽しんでいる感じがします。 Vtuberはあのちょっと不自由な感じがかわいいし、MMDはMMDという文化だと思っています。(MMD久しぶりに見たらめちゃくちゃ進化しててすごい)
その点、今回のAnimated DrawingsとMagic AnimateのようなAIによるアニメーションは、複雑が設定が一切要らず、映像はリアル、表情豊かな上、無料で試せるくらいだから断然お得な気がします。適当に言ってます。
AI×VR/ARで好きなキャラに会いたい!
AIとVR/ARがあれば、アニメキャラに会ってお話できるはずなんです。どんな制約があるのかとかは置いといて、夢は大きく持ちたいと思います。
私がアニメキャラに会うために、以下の2つに分けて考えていきます。
キャラと会話する(AI)
私の前にキャラが現れる(VR/AR)
さっそくキャラと会話していこう❣️
キャラと会話するためのAI
ここからは、アニメキャラと会話するために必要な要素とAIを1つずつ確かめていきます。
まず、「話し声」に関しては、おそらく既存のアニメから、声優さんの声を学習させて音声AIが作れます。この間アンミカさんも、「AIアンミカ」に仕事を奪われると言って驚かれていました。
次は「性格」です。これは生成AIの性格付与(ロールプレイ)を転用すれば今まで通りできそうです。AIに性格を与えて会話を楽しむというやり方は、ChatGPTが出始めた頃から度々話題になっていました。
簡単に言えば、AIに『あなたは猫ちゃんです。語尾に「にゃー」ってつけて話してね』とか言ってあげると、AIはその設定を守って会話してくれます。この指示というか命令というか、設定を詰めていくと、キャラクターが強固になって、ブレが少なくクオリティの高いボットが作り出せます。
ちなみに、AIは声を認識して処理でき、回答を音声で答えることもできます。最近だとChatGPTのモバイルアプリを使って英会話の勉強ができちゃったりします。
つまりAIと音声同士で(必ずしもテキストを打ち込んでチャットをしなくても)会話はできるということです。
最後に「見た目・動き」、ここでアニメーションAIの技術が必要になります。
まずはキャラが話している時に、口を動かさなければなりません。
これは、顔写真の口を、テキストの読み上げに合わせて動かせる「AIアバター」なるツールが既にあるので、可能なはず。
次に、Animated DrawingsとMagic Animateのような高度なAIが必要になります。キャラに、口以外もぬるぬる動かして欲しいからです。
さて、声と性格、動きが出揃いました。今のところ、私の妄想の中では、キャラクターAIは以下のように機能します。(チャットAIにキャラの人格を付与していることを前提とします。)
人間がキャラに話しかける
キャラの中のチャットAI(キャラの人格付与済み)が、人間の音声を認識して内容を理解する
チャットAIが自動で回答を作り出す(回答はテキスト形式)
作り出した回答のテキストを音声AI(合成音声)が読み上げる
同時に、読み上げられる音声とその内容に合わせて、アニメーションAIがキャラの口や体を動かす
会話成立❣️
頭が整理されました。実現できるでしょこれ〜〜〜〜!
気になることが一つありますがとりあえず飛ばして、次はキャラに現れてもらいます。
私の前にキャラが現れるためのVR/AR
こっちは簡単です。VRならバーチャルリアリティの世界に私が行き、ARなら映像のキャラを現実に呼び出せばいいのです。どちらにしろ、合成された映像のキャラが目の前に現れます。
従来のVR/ARで目の前に現れるキャラは、あらかじめ設定された会話を行うか、中の人が操作するものでした。(たぶん)
ここに先ほどのAIをつなげることで、バーチャルに目の前に立っているキャラが自律的に喋ったり動いたりしながら、存在してくれるのではないかと、私は期待しているのです。わかんないけど一部では実現してると思う。なんか見たことある気がしてきた。でも一旦置いときます。
AIは感情表現ができるか?
先ほど言った気になることというのがこれです。仮に以上のことが実現したとして、これではまだ、キャラに感情がありません。
なぜならAIには感情がないからです。AIには、悲しいとか嬉しいとかがわかりません。「悲しいです」と言うことはできるけど、感情そのものを理解しているわけではなく、学習データから悲しみパターンを抽出しているだけです。
だから、その感情に付随する表情や、声色などを直接的には表現できません。(逆に、人間の悲しそうな顔を、AIが認識することは精度高くできると思います)
AIの感情表現には『感情AI(仮)』が必要
キャラAIの例で簡単に考えてみます。例えば、キャラが人間から掛けられた言葉に、「悲しいです」と返事をしたとします。この時、キャラAIは悲しそうに振る舞うことができません。キャラが「悲しい顔」+「悲しそうな声」を表現するには、それぞれアニメーションAIと音声AIに、感情の表し方(表情・声色)を教えなければならず、先ほど示した1〜6のプロセスにこれは含まれていません。
そのため、AIの表情・声色を実現するには、以下のような項目を追加する必要があると考えました。
チャットAIが生成した回答の内容(テキスト)から、AIが感情を判断する(仮に『感情AI』とする)
感情AIが、読み取った感情を「表情」に変換し、アニメーションAIに「表情」の指示を出す
感情AIが、読み取った感情を「声色」に変換し、音声AIに「声色」の指示を出す
音声AIが、感情AIから指定された声色で回答を読み上げる
同時に、アニメーションAIが、指定された表情をする+読み上げられる音声に合わせて口を動かす
今度は具体例で考えます。
人間が何か言って、キャラAIを悲しませたとします。
人間の発話を受けて、チャットAIが回答を生成する
【チャットAIの回答】:「悲しいです」感情AIが[感情→表情]に変換:「悲しい」
→悲しそうな表情
=「眉毛が下がって俯きがち、口角が下がっている」感情AIがアニメーションAIに指示:
「悲しそうな表情をせよ」感情AIが[感情→声色]に変換:「悲しい」
→悲しそうな声色
= 「ボリュームが小さく震えている声」感情AIが音声AIに指示:
「悲しい声色で話せ」アニメーションAIが悲しそうな顔をする+読み上げられる音声(【チャットAIの回答】)に合わせて口を動かす
音声AIが悲しそうな声色で、【チャットAIの回答】を読み上げる
繰り返しますが私はずっと思いついたことをそのまま適当に書いているので、これ実現可能なのか、もしくはもう存在しているのかわかりません。(^_-)
話を戻して、ここで問題となるのは、テキストから感情を読み取って、変換して、音声AIとアニメーションAIそれぞれに伝える、「感情AI」なんてものは存在しないということです。AIはテキストの内容から、それが一般的にどんな感情であるかという判断はできますが、それを直接表現することはできません。
言い換えると、チャットAIが生成した回答から、感情を読み取れたとして、それを「声のトーン」や「表情」に変換できるツールが果たしてあるのか?という話です。今回の例で言うとこのツールは「感情AI」にあたり、私が知る限りでは存在していません。
AIの表情のなさを思い出す
AIの表情の無さは、「人工知能」という言葉が流行った時くらいに出た、「アンドロイドAI」とか「AIロボ」のそれからあまり進歩していない気がします。
AppleのSiriとかもそうだけど、AIの笑い声って「あはは あはは」みたいな棒読みのイメージありますよね。
先ほど示した「AIアバター」(顔写真が口を動かしながらテキストを読み上げる技術)は、瞬きくらいは出来ても、表情らしい表情はないといえます。
(書いてて思ったけど、AIって笑い声の生成も苦手そう、こればっかりは録音しかない……?今度調べます)
それで、もしAIアバターを自律的に笑わせようとしたら、「笑うという表情の動き」を学習させなきゃいけないのか?そんなこと可能?と考えていました。よくわからないけどこれもあとで調べてみることにします、AIの表情管理。
つまり、顔と声(と体)を持つ自律的なキャラAIと会話するためには、「感情AI」のような新たなツールが必要だということがわかりました(私の中で)。
書いててAIメンタルヘルスアプリ「SELF(セルフ)」を思い出しました。これ、AIのキャラ(ロボットや人間など色々)が相談を聞いてくれる癒しアプリなのですが、キャラがみんな表情豊かで可愛いです。
ただし、生成AIツールのようなチャット形式ではなく、何個かの選択肢からセリフを選んで会話する、ゲームでよくある仕様です。「この選択肢ならこれを話す」とあらかじめ設定されているだけなので、キャラが自律的に喋ってくれるわけではありません。
可愛い表情も数パターンしかありませんし、おそらく「感情AI」のような働き(感情→表情)が人の手によって地道に細かく行われ、動作しているものだと考えられます。
さいごに:全体を通して考えたこと
さて、アニメーションAIをいじって時にモヤモヤしていたことが、全部整理できてすっきりしました🎶
色々考えたけど、こんなアニメーションAIがあったら、アニメ制作はそれ自体自動化できるかもしれないですね。私が今回考えたみたいに、性格付与や、合成音声も完全に組み合わせたら、既存のキャラAIたちに指示を出して動いてもらうだけで、アニメが作れるようになるかもしれない。
となると、人間は脚本も書かなくていいし、絵も描かなくていいし、声優の仕事がAIに音声を学習させるだけになってもおかしくないし、なんだったら合成音声で色んな声を作り出せちゃうな、みたいなことも考えました。全部適当です。
そういえば、AIっておそらく演技はできないですよね。それっぽくはできるだろうけど、意味ありげな細かい視線の動きとか、言葉がつっかえるような話し方とか。そういうのはまだできない気がする。
最近も、何もできなくてかわいい『弱いロボット』が話題になりました。こういう弱々しい演技や振る舞い、みたいなのもAIの課題だったりするか?
もちろん、テキスト上のやりとりであれば、AIにそう指示をすればいくらでもできますが、顔や声、体の動きを伴う映像となるとまた話は別なのか、気になります。
おまけ:AIにアニメーションAIが発展した先どうなるか聞いてみた
Gemini Proが搭載されて性能が上がったらしいBardに、アニメーションAIが発展した未来のことを聞いてみると、以下のように答えてくれました。(飛ばしてOK)
上から下まで「確かに〜!」と思いました。特に以下の部分はワクワクしますね(太字)。
リアルタイム翻訳は、字幕とか音声では余裕で可能なんですが、翻訳語の言語に口の動きを合わせるとか、音声からの音声へのリアルタイム通訳(英語音声を自動翻訳→リアルタイムで日本語読み上げ)とかはまだ聞いたことないです(※)。
あとAI×ゲームなんて絶対楽しい!最高!!!!
※2023/12/11追記: 音声翻訳AI
音声の翻訳+音声化(元々の声を再現)が同時にできるツールがありました。リアルタイムの翻訳ではない(録画)ですが、何が凄いって感情表現ができる!!!!!!!!ヤバすぎ!!!!!どうやってんの!?!?!?
リアルタイムで、完全にAIが同時通訳できるようになるのも時間の問題ですね。
おわり