AIを使って表情豊かなアニメキャラと会う方法を考えてみた | Magic Animate、Animated Drawings

2023年12月8日 09:22

2023/12/11更新（追記あり）

＊adobe #画像生成 AI チャレンジ　でサムネイル画像を作成しました。プロンプトは「メタバース、仮想現実、3D、VR、AR」。今回考えた「AI×VR/AR」にマッチする画像を目指して試行錯誤しました。今後、画像生成AIについての記事も書く予定なので、ぜひまた読みにきてください❤︎

画像1枚から動画を作れる、Animated DrawingsとMagic Animate

2023年末、ここにきて突如急成長を見せていると個人的に思っているのが、画像・映像系（アニメーション）のAI。画像生成AI技術が流行ってから恐れられていた、超精密なディープフェイク、それもさらっと見るくらいだったら絶対気付けないレベルのものが簡単に作れてしまう時代が訪れています。

そんな中で最近アツかったツールは、イラストや写真1枚から動画を作れる「Animated Drawings」と「Magic Animate」です。
これらのAIツールは、人間やキャラクターの全身または半身が写っている画像が1枚あれば、それを走らせたり、踊らせたりできるというもの。今は無料で試せる上に、複雑な設定も一切いらないので、専門知識が全くないわたくしでも簡単に使えました。

⚠️当ブログはただの文系AIオタクが自分用の記録として、素人目線で超個人的見解を展開しています。知らないことの方が多いので、もしこの記事に辿り着いてくれた方は広い心でもって読んでみてください。❤︎

Animated DrawingsとMagic Animateを試した感想

Animated Drawingsは、子どもが描いた絵や、ゆるいキャラクターを動かすのに適しています。操作が簡単で、イラスト1枚アップロードしてから、手足の位置を指定して完了。この処理が終わると、キャラクターの動きをレパートリーの中から選べます。

Los dibujos de nuestros pequeños makers cobran vida gracias a la Inteligencia Artificial. Esta semana trabajamos con #AnimatedDrawings de META https://t.co/Sms4RTE2l8 🧠🤖#STEAM #InteligenciaArtificial #TICs #educación #extraescolares #IngeniaKids #Cáceres pic.twitter.com/BgiOlRzSWN
— IngeniaKids (@IngeniaKids) January 10, 2023

動きのパターンがかなり多いし、手足ぐにゃぐにゃぬるぬる動く感じが結構シュールなので、子どもにも大人にもウケが良さそう。

もう一つのMagic Animateはこれと比べると少し複雑。Xの投稿を参考にMac bookで試しました。

【Magic Animateの試し方】

画像１枚からAI動画を生成できる「Magic Animate」は、Googleアカウントさえあれば試すことができます！

たった４ステップで完了🔽

１：まず、Google Colabのリンクにアクセスhttps://t.co/mv6dqqSDlO

２：GPUを設定し、再生ボタンを押す… pic.twitter.com/60apJ4fWGq
— ひろちゅ～｜AI副業 (@hirochuu8) December 5, 2023

ただこちらはやはりまだ使いこなすのが難しくて、いくつか難点があります。

一つは、アップした画像とは似ても似つかない人の映像が出来上がってしまうというもの。
例えば、かわいい女の子のアニメイラストをアップしたのに、完成した映像では見覚えのないすごくリアルな外国人女性が踊っている、みたいなことが起こります。

他にも課題なのは、人間の顔をキープできないこと。正面を向いた人の写真を使っても、出力された映像では瞬間的に顔が歪んだり、全く別人に見えたり、横顔が崩れてしまったりします。
ただ、これはディープフェイクのツールを使うとすごく綺麗に補正できるようです。組み合わせ次第でどうとでもなりそうですね。

とはいえ映像系のAIはまだ出てきたての技術なので、近いうちにまた精度がどんどん上がっていくだろうなと思っています。

Magic Animateの詳細はこちら。（英語の記事です）

Animated DrawingsとMagic Animateを試してみて気づいたこと

Animated DrawingsとMagic Animateを試してみた時に、これがあれば好きなアニメキャラに好きな動きさせられるじゃん！！！！！！と思いました。嬉しい半分、権利とか倫理とかなんか大丈夫……？みたいな気持ち半分。

超個人的な話、最近サブスクでハンターハンターのアニメにハマり、個性豊かなキャラクターたちのことが大好きになってしまって、目の前にいてくれたらな〜と考えていたんです。これ今の技術があれば確実にできる。

今までを振り返っても、Vtuberが使っているような3DCGとか、VOCALOIDを踊らせることができるMMDといった技術は昔からありました。

しかしVtuberのモデルを作る、MMDを作る、なんてことは技術的に難しそうすぎて手が出ません。パソコンで細かいことしなきゃいけないんだろうなあくらいしか知らないですが、手間も、金銭的コストもきっとものすごくかかるのでしょう……。

それと、これらはアニメや実際に人間が動いているのとは完全に別物のコンテンツとして楽しんでいる感じがします。 Vtuberはあのちょっと不自由な感じがかわいいし、MMDはMMDという文化だと思っています。（MMD久しぶりに見たらめちゃくちゃ進化しててすごい）

その点、今回のAnimated DrawingsとMagic AnimateのようなAIによるアニメーションは、複雑が設定が一切要らず、映像はリアル、表情豊かな上、無料で試せるくらいだから断然お得な気がします。適当に言ってます。

AI×VR/ARで好きなキャラに会いたい！

AIとVR/ARがあれば、アニメキャラに会ってお話できるはずなんです。どんな制約があるのかとかは置いといて、夢は大きく持ちたいと思います。
私がアニメキャラに会うために、以下の2つに分けて考えていきます。

キャラと会話する（AI）
私の前にキャラが現れる（VR/AR）

さっそくキャラと会話していこう❣️

キャラと会話するためのAI

ここからは、アニメキャラと会話するために必要な要素とAIを1つずつ確かめていきます。
まず、「話し声」に関しては、おそらく既存のアニメから、声優さんの声を学習させて音声AIが作れます。この間アンミカさんも、「AIアンミカ」に仕事を奪われると言って驚かれていました。

次は「性格」です。これは生成AIの性格付与（ロールプレイ）を転用すれば今まで通りできそうです。AIに性格を与えて会話を楽しむというやり方は、ChatGPTが出始めた頃から度々話題になっていました。
簡単に言えば、AIに『あなたは猫ちゃんです。語尾に「にゃー」ってつけて話してね』とか言ってあげると、AIはその設定を守って会話してくれます。この指示というか命令というか、設定を詰めていくと、キャラクターが強固になって、ブレが少なくクオリティの高いボットが作り出せます。

ちなみに、AIは声を認識して処理でき、回答を音声で答えることもできます。最近だとChatGPTのモバイルアプリを使って英会話の勉強ができちゃったりします。

Chat GPTの音声機能での英会話練習、めちゃくちゃいい。相手人間じゃないからなんでも話せるし、予約も必要ないから在宅勤務中の息抜きに5分くらい喋って「じゃ仕事に戻るわ〜」みたいなこともできる。 https://t.co/skcdII1vv9
— pinacolada (@pinacolada410) November 29, 2023

つまりAIと音声同士で（必ずしもテキストを打ち込んでチャットをしなくても）会話はできるということです。

最後に「見た目・動き」、ここでアニメーションAIの技術が必要になります。
まずはキャラが話している時に、口を動かさなければなりません。
これは、顔写真の口を、テキストの読み上げに合わせて動かせる「AIアバター」なるツールが既にあるので、可能なはず。

次に、Animated DrawingsとMagic Animateのような高度なAIが必要になります。キャラに、口以外もぬるぬる動かして欲しいからです。

さて、声と性格、動きが出揃いました。今のところ、私の妄想の中では、キャラクターAIは以下のように機能します。（チャットAIにキャラの人格を付与していることを前提とします。）

人間がキャラに話しかける
キャラの中のチャットAI（キャラの人格付与済み）が、人間の音声を認識して内容を理解する
チャットAIが自動で回答を作り出す（回答はテキスト形式）
作り出した回答のテキストを音声AI（合成音声）が読み上げる
同時に、読み上げられる音声とその内容に合わせて、アニメーションAIがキャラの口や体を動かす
会話成立❣️

頭が整理されました。実現できるでしょこれ〜〜〜〜！
気になることが一つありますがとりあえず飛ばして、次はキャラに現れてもらいます。

私の前にキャラが現れるためのVR/AR

こっちは簡単です。VRならバーチャルリアリティの世界に私が行き、ARなら映像のキャラを現実に呼び出せばいいのです。どちらにしろ、合成された映像のキャラが目の前に現れます。

従来のVR/ARで目の前に現れるキャラは、あらかじめ設定された会話を行うか、中の人が操作するものでした。（たぶん）

ここに先ほどのAIをつなげることで、バーチャルに目の前に立っているキャラが自律的に喋ったり動いたりしながら、存在してくれるのではないかと、私は期待しているのです。わかんないけど一部では実現してると思う。なんか見たことある気がしてきた。でも一旦置いときます。

AIは感情表現ができるか？

先ほど言った気になることというのがこれです。仮に以上のことが実現したとして、これではまだ、キャラに感情がありません。
なぜならAIには感情がないからです。AIには、悲しいとか嬉しいとかがわかりません。「悲しいです」と言うことはできるけど、感情そのものを理解しているわけではなく、学習データから悲しみパターンを抽出しているだけです。
だから、その感情に付随する表情や、声色などを直接的には表現できません。（逆に、人間の悲しそうな顔を、AIが認識することは精度高くできると思います）

AIの感情表現には『感情AI（仮）』が必要

キャラAIの例で簡単に考えてみます。例えば、キャラが人間から掛けられた言葉に、「悲しいです」と返事をしたとします。この時、キャラAIは悲しそうに振る舞うことができません。キャラが「悲しい顔」+「悲しそうな声」を表現するには、それぞれアニメーションAIと音声AIに、感情の表し方（表情・声色）を教えなければならず、先ほど示した1〜6のプロセスにこれは含まれていません。

そのため、AIの表情・声色を実現するには、以下のような項目を追加する必要があると考えました。

チャットAIが生成した回答の内容（テキスト）から、AIが感情を判断する（仮に『感情AI』とする）
感情AIが、読み取った感情を「表情」に変換し、アニメーションAIに「表情」の指示を出す
感情AIが、読み取った感情を「声色」に変換し、音声AIに「声色」の指示を出す
音声AIが、感情AIから指定された声色で回答を読み上げる
同時に、アニメーションAIが、指定された表情をする+読み上げられる音声に合わせて口を動かす

今度は具体例で考えます。

人間が何か言って、キャラAIを悲しませたとします。

人間の発話を受けて、チャットAIが回答を生成する
【チャットAIの回答】:「悲しいです」
感情AIが［感情→表情］に変換:「悲しい」
→悲しそうな表情
=「眉毛が下がって俯きがち、口角が下がっている」
感情AIがアニメーションAIに指示:
「悲しそうな表情をせよ」
感情AIが［感情→声色］に変換:「悲しい」
→悲しそうな声色
= 「ボリュームが小さく震えている声」
感情AIが音声AIに指示:
「悲しい声色で話せ」
アニメーションAIが悲しそうな顔をする+読み上げられる音声（【チャットAIの回答】）に合わせて口を動かす
音声AIが悲しそうな声色で、【チャットAIの回答】を読み上げる

繰り返しますが私はずっと思いついたことをそのまま適当に書いているので、これ実現可能なのか、もしくはもう存在しているのかわかりません。(^_-)

話を戻して、ここで問題となるのは、テキストから感情を読み取って、変換して、音声AIとアニメーションAIそれぞれに伝える、「感情AI」なんてものは存在しないということです。AIはテキストの内容から、それが一般的にどんな感情であるかという判断はできますが、それを直接表現することはできません。

言い換えると、チャットAIが生成した回答から、感情を読み取れたとして、それを「声のトーン」や「表情」に変換できるツールが果たしてあるのか？という話です。今回の例で言うとこのツールは「感情AI」にあたり、私が知る限りでは存在していません。

AIの表情のなさを思い出す

AIの表情の無さは、「人工知能」という言葉が流行った時くらいに出た、「アンドロイドAI」とか「AIロボ」のそれからあまり進歩していない気がします。
AppleのSiriとかもそうだけど、AIの笑い声って「あはは　あはは」みたいな棒読みのイメージありますよね。

先ほど示した「AIアバター」（顔写真が口を動かしながらテキストを読み上げる技術）は、瞬きくらいは出来ても、表情らしい表情はないといえます。
（書いてて思ったけど、AIって笑い声の生成も苦手そう、こればっかりは録音しかない……？今度調べます）

それで、もしAIアバターを自律的に笑わせようとしたら、「笑うという表情の動き」を学習させなきゃいけないのか？そんなこと可能？と考えていました。よくわからないけどこれもあとで調べてみることにします、AIの表情管理。

つまり、顔と声（と体）を持つ自律的なキャラAIと会話するためには、「感情AI」のような新たなツールが必要だということがわかりました（私の中で）。

書いててAIメンタルヘルスアプリ「SELF（セルフ）」を思い出しました。これ、AIのキャラ（ロボットや人間など色々）が相談を聞いてくれる癒しアプリなのですが、キャラがみんな表情豊かで可愛いです。

ただし、生成AIツールのようなチャット形式ではなく、何個かの選択肢からセリフを選んで会話する、ゲームでよくある仕様です。「この選択肢ならこれを話す」とあらかじめ設定されているだけなので、キャラが自律的に喋ってくれるわけではありません。
可愛い表情も数パターンしかありませんし、おそらく「感情AI」のような働き（感情→表情）が人の手によって地道に細かく行われ、動作しているものだと考えられます。

さいごに:全体を通して考えたこと

さて、アニメーションAIをいじって時にモヤモヤしていたことが、全部整理できてすっきりしました🎶

色々考えたけど、こんなアニメーションAIがあったら、アニメ制作はそれ自体自動化できるかもしれないですね。私が今回考えたみたいに、性格付与や、合成音声も完全に組み合わせたら、既存のキャラAIたちに指示を出して動いてもらうだけで、アニメが作れるようになるかもしれない。
となると、人間は脚本も書かなくていいし、絵も描かなくていいし、声優の仕事がAIに音声を学習させるだけになってもおかしくないし、なんだったら合成音声で色んな声を作り出せちゃうな、みたいなことも考えました。全部適当です。

そういえば、AIっておそらく演技はできないですよね。それっぽくはできるだろうけど、意味ありげな細かい視線の動きとか、言葉がつっかえるような話し方とか。そういうのはまだできない気がする。

最近も、何もできなくてかわいい『弱いロボット』が話題になりました。こういう弱々しい演技や振る舞い、みたいなのもAIの課題だったりするか？
もちろん、テキスト上のやりとりであれば、AIにそう指示をすればいくらでもできますが、顔や声、体の動きを伴う映像となるとまた話は別なのか、気になります。

おまけ:AIにアニメーションAIが発展した先どうなるか聞いてみた

Gemini Proが搭載されて性能が上がったらしいBardに、アニメーションAIが発展した未来のことを聞いてみると、以下のように答えてくれました。（飛ばしてOK）

高度なビデオ生成 AI による生活と仕事の潜在的な変化:

プラスの影響:コンテンツの作成とアクセシビリティ:
強化されたコンテンツ: AI が背景、キャラクター、エフェクトを含むリアルなビデオを自動的に生成できるため、コンテンツ作成がよりアクセスしやすく効率的になります。これにより、教育、エンターテイメント、マーケティングなどの分野にわたって、より多様で創造的なコンテンツが生まれる可能性があります。
制作コストの削減: AI は、反復的なタスクを自動化し、高価な機器やセットの必要性を排除することで、ビデオ制作コストを大幅に削減できます。これにより、コンテンツ作成が民主化され、より多くの声が届くようになる可能性があります。
障害のある人のためのアクセシビリティ: AI はビデオコンテンツのキャプション、字幕、音声説明を生成し、障害のある人にとってアクセシビリティが向上します。
パーソナライゼーションとカスタマイズ:
カスタマイズされた学習体験: 教育ビデオは、各生徒の個別の学習スタイルとペースに合わせてカスタマイズできます。
ターゲットを絞ったマーケティング: AI は、特定の視聴者の共感を呼びやすいパーソナライズされた動画広告を生成できます。
カスタマーサービスの強化: パーソナライズされたビデオチュートリアルと FAQ により、カスタマーサービスエクスペリエンスが向上します。
コミュニケーションとコラボレーションの向上:
リアルタイムの翻訳と通訳: AI はビデオをリアルタイムで翻訳し、言語の壁を越えたコミュニケーションとコラボレーションを促進します。
自動化されたビデオ編集と要約: AI は、長いビデオからより短く、より焦点を絞った要約を生成し、情報の吸収を向上させ、時間を節約できます。
エンターテイメントとゲーム:
より没入型でインタラクティブなエクスペリエンス: AI は、現実的で応答性の高い仮想キャラクターと環境を作成し、より没入型で魅力的なエンターテイメントやゲーム体験を実現します。
パーソナライズされたストーリーとコンテンツ: AI は、プレーヤーの個人的な好みやプレイスタイルに適応するビデオゲームを生成できます。

潜在的な課題:雇用の置き換え: 現在人間が行っているタスクが AI によって自動化されると、ビデオ制作業界の一部の雇用が失われる可能性があります。
倫理的懸念: AI によって生成されたビデオコンテンツは、ディープフェイクの作成や誤った情報の拡散に使用される可能性があります。このテクノロジーの責任ある使用を保証するための安全策を開発することが重要です。
バイアスと差別: AI アルゴリズムにはバイアスがかかり、ビデオ生成において差別的な結果につながる可能性があります。これらのアルゴリズムが多様で公平であることを保証する必要があります。
テクノロジーへの過度の依存: コンテンツ作成を AI に依存すると、創造性や批判的思考が抑制される可能性があります。人間と機械の創造性のバランスを維持することが重要です。

全体として、高度なビデオ生成 AI は私たちの生活と仕事を大きく変える可能性を秘めており、コンテンツ作成、コミュニケーション、エンターテイメント、教育などの分野でさまざまなメリットをもたらします。ただし、潜在的な課題を認識し、このテクノロジーの使用に関する倫理的で責任あるガイドラインの開発に取り組むことが重要です。

Bardとの会話のパブリックリンク

上から下まで「確かに〜！」と思いました。特に以下の部分はワクワクしますね（太字）。

コミュニケーションとコラボレーションの向上:
リアルタイムの翻訳と通訳: AI はビデオをリアルタイムで翻訳し、言語の壁を越えたコミュニケーションとコラボレーションを促進します。
自動化されたビデオ編集と要約: AI は、長いビデオからより短く、より焦点を絞った要約を生成し、情報の吸収を向上させ、時間を節約できます。
エンターテイメントとゲーム:
より没入型でインタラクティブなエクスペリエンス: AI は、現実的で応答性の高い仮想キャラクターと環境を作成し、より没入型で魅力的なエンターテイメントやゲーム体験を実現します。
パーソナライズされたストーリーとコンテンツ: AI は、プレーヤーの個人的な好みやプレイスタイルに適応するビデオゲームを生成できます。

リアルタイム翻訳は、字幕とか音声では余裕で可能なんですが、翻訳語の言語に口の動きを合わせるとか、音声からの音声へのリアルタイム通訳（英語音声を自動翻訳→リアルタイムで日本語読み上げ）とかはまだ聞いたことないです（※）。
あとAI×ゲームなんて絶対楽しい！最高！！！！

※2023/12/11追記: 音声翻訳AI

音声の翻訳+音声化（元々の声を再現）が同時にできるツールがありました。リアルタイムの翻訳ではない（録画）ですが、何が凄いって感情表現ができる！！！！！！！！ヤバすぎ！！！！！どうやってんの！？！？！？
リアルタイムで、完全にAIが同時通訳できるようになるのも時間の問題ですね。

Metaが新しく発表した音声翻訳AI、ささやきや悲しみなどの声色や感情も再現した上で別の言語で自分が話しているような音声を生成してくれる！

実際自分も試してみたけど、かなりの精度で声色が反映されて自分の声で別言語が返ってくるので面白い。

日に日に翻訳こんにゃく実現に近づいてる笑 pic.twitter.com/2eLngP7YvK
— KAJI | 梶谷健人 (@kajikent) December 6, 2023

おわり

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

45,721件