AU三太郎はどうやってMVを生成しているのか?エンジニアが仕組みを徹底考察
みなさん、「au三太郎」10周年を記念した「さぁ、何やる?メーカー」はご存知ですか?
こちらはなんと、ユーザーの入力内容からオリジナルのMVを作ってくれるサービス。生成AIの力で、歌詞・歌声・挿入画像を用意してくれるんです!
当記事では、そんな「さぁ、何やる?メーカー」を徹底解剖。その仕組みについて、弊社エンジニアによる予想を紹介していきます。
完読いただくと、生成AIを使った企画のヒントが得られるかも……
ぜひ最後までお読みください!
「さぁ、何やる?メーカー」は2024年2月29日にサービスを終了しています。
生成AIで作られたau三太郎とは
KDDI株式会社が送る「au三太郎」のCMは、2024年で10周年。その節目を記念した下記コンテンツが、2024年元日にリリースされました。
● さぁ、何やる?メーカー:生成AIでMVが作れるサービス
● 年始限定CM:過去のCMを生成AIでアニメ風にリメイクしたもの
そう、「au三太郎」シリーズの新たな門出は生成AIなんです!
なかでも「さぁ、何やる?メーカー」は要注目。ユーザーが入力した今年の抱負をもとに、下記の生成AIがオリジナルのMVを合作してくれるそうなんです。
VoiSona
Stable Diffusion
ただ、その仕組みについては、KDDIからの発表がありません。※1
そこで当記事では、気になる中身について弊社専属LLMエンジニアの予想をお届けします。
なお、国内企業における生成AI活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIを社内導入する方法とは?事例やメリット、注意点も解説
「au三太郎」に使われたツールの考察・予想
弊社エンジニアによると、「さぁ、何やる?メーカー」に使われているAIツールは以下の4種類であるとのことです。
Stable Diffusion(公表済み)
VoiSona(公表済み)
TextAlive
ここからは各AIツールの特徴や「さぁ、何やる?メーカー」内での役割について、詳しくみていきましょう!
ChatGPT API
「ChatGPT API / OpenAI API」は、ChatGPTのサービス外でOpenAIの生成AI(GPT-3.5 / GPT-4V / DALL-E 3…etc.)が使えるAPIです。「さぁ、何やる?メーカー」においては、歌詞の生成を担っていると考えられます。
もっと詳しく、モデルや処理についても考えてみます。おそらくは一般ユーザー向けに広く公開するという目的から、生成時の料金が最も安いGPT-3.5 Turboが用いられているはずです。
またChatGPT APIの機能「役割の指定」を活かして、歌詞だけを生成するセッティングがなされていそうです。
公式サイト:Product
Stable Diffusion
「さぁ、何やる?メーカー」のMVでは、歌詞の内容に即した画像が一部挿入されています。その挿入画像を歌詞から生成しているのが、画像生成AI「Stable Diffusion」です。
このStable Diffusionのすごいところは、テキストから全く新しい画像が生成できる「Text-to-Imageモデル」である点です。仕組みとしては……
学習時:画像をノイズに変換し、その工程を学習する
画像生成時:学習した工程と逆の処理で描画する
というふうに、なっています。
公式サイト:画像生成AI Stable Diffusion — Stability AI Japan
VoiSona
音声創作ソフトウェア「VoiSona」は、「さぁ、何やる?メーカー」の声帯にあたるAIツール。歌詞と楽譜をもとに、自然な歌声を生成します。
そんなVoiSonaの特徴は、機種(アーティスト)ごとに声質や得意分野が分かれている点にあります。「さぁ、何やる?メーカー」に採用されているものだと……
知声(Chis-A):中性的な声質で、ポップス / ジャズ / バラードが得意
機流音:「鬼龍院翔」氏の歌声を学習、高音域が得意
AiSuu:「すぅ」氏の歌声を学習、キュートな声質
MYK-IV:「マイキ」氏の歌声を学習、高音域が得意
と、4人のアーティストから好きな声が選べちゃうんです。
公式サイト:VoiSona
TextAlive
「さぁ、何やる?メーカー」ではおそらく、「TextAlive」がMVへの歌詞の挿入を担っているはずです。
「TextAlive」は、産業技術総合研究所の歌詞アニメーション制作支援サービス。入力した楽曲から、歌詞のアニメーション演出を自動生成してくれます。
公式サイト:TextAlive
「au三太郎」の仕組みを予想してみた
「さぁ、何やる?メーカー」は以下の流れで、MVを制作していると考えられます。
ユーザーによる、KW・ニックネーム・歌声の指定
ChatGPTによる歌詞の生成
Voisonaによる歌声の生成
Stable Diffusionによる挿入画像の生成
TextAliveによる歌詞アニメーション生成
歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合
「さぁ、何やる?メーカー」ではChatGPTが生成した歌詞をもとに、VoiSona / Stable Diffusion / TextAliveがそれぞれ生成を行っているはずです。その中でも、
ユーザー側の指定内容
ChatGPTの歌詞生成用プロンプト
についてはある程度仕組みが予想できましたので、以下にて解説します。
ユーザー側の指定内容
「さぁ、何やる?メーカー」でユーザーが入力する内容は、下記の3点です。
やりたいこと(KW)
ニックネーム
VoiSonaの機種
そのうちKWは歌詞・挿入画像に、ニックネームは歌詞のクレジットにそれぞれ影響します。試しに、下記を「さぁ、何やる?メーカー」に入力してみると……
#KW
懸垂10回達成する
#ユーザー名
2sc
このような形式で、歌詞が生成・表示されるんです。ちなみにMVのほうは、生成に1日程度かかります。
ChatGPTの歌詞生成用プロンプト
「さぁ、何やる?メーカー」ではまず、ChatGPT(ChatGPT API)を介して歌詞が生成されます。その歌詞の特徴としては……
前半・中間の各3フレーズがオリジナルの内容
後半はテンプレートで固定
→今何がやりたいの、今何になりたいの、予定通りに行かなくたって、確かに前には進んでいる
となっています。この仕様を再現したものが、下記のプロンプトです。
#命令
以下の{条件}に合う歌詞を出力してください。
# 条件
- 歌詞は{前半の歌詞}と{中間の歌詞}と{後半の歌詞}の3段構成
- {前半の歌詞}は{KW}を元に作成する
- {中間の歌詞}は{KW}を元に作成する
- {後半の歌詞}をサビとする
# 前半の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする
# 中間の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする
# 後半の歌詞
今何がやりたいの
今何になりたいの
予定通りに行かなくたって
確かに前には進んでいる
# KW
懸垂10回達成する
# 出力
新しく出力する{前半の歌詞}の後に新しく出力する{中間の歌詞}、さらにその後に{後半の歌詞}を出力してください。前半・中間・後半の歌詞本体以外を記入した場合は罰を与えます。
こちらのプロンプトをChatGPTに入力してみると……
以上のとおり、「さぁ、何やる?メーカー」の仕様で歌詞が生成されます。
なお、ChatGPTのプロンプトテクニックについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→プロンプトエンジニアリングマスターWiki!ChatGPTの必須テクニック16選
「au三太郎」に関連するAIツール3選
「さぁ、何やる?メーカー」には使われていないものの、同じようなことができるAIツールも存在します。当記事ではその中でも、
Suno AI
SOUNDRAW
Style-Bert-VITS2 JP-Extra
について紹介します。まずはSNSで流行したSuno AIから、詳しくみていきましょう!
Suno AI
「Suno AI」は作詞・作曲・レコーディングを自動で行う楽曲生成AIです。その使い方は簡単で、テキストを入力するだけ。あとはSuno AIが、
歌詞
楽譜
歌声
伴奏
を数分で生成してくれます。
さらにSuno AIが生成した楽曲については、カスタマイズも可能。音楽の知識がなくても、自分だけの楽曲が作れるんです。
公式サイト:Suno AI
SOUNDRAW
SOUNDRAW株式会社の「SOUNDRAW」は、日本発の楽曲生成AIです。ユーザーが指定したジャンル・ムード・テンポをもとに、たったの数秒で楽曲を生成してくれます。
そんなSOUNDRAWが生成する楽曲はなんと、著作権フリー。SpotifyやAppleMusicでの配信&収益化が可能です。SOUNDRAWの学習にあたっては、社内製の音源が用いられているそうなんです。
公式サイト:AI Music Generator – SOUNDRAW
Style-Bert-VITS2 JP-Extra
無料で商用利用までできる音声合成(Text-to-speech / TTS)モデルが存在します。そのTTSモデルとは、「Style-Bert-VITS2 JP-Extra」です。
こちらは英語・中国語・日本語に対応したBert-VITS2がベースとなっており、
アクセント・発音のバグ修正
日本語データでの再学習
英語・中国語要素の削除
といった調整が実施済み。そのため従来のTTSモデルと比べて、日本語の発音が流暢です。すでにマージモデルも流通している注目株です!
公式サイト:GitHub – litagin02/Style-Bert-VITS2
なお、Style-Bert-VITS2 JP-Extraについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Style-Bert-VITS2 JP-Extra】日本語の発音・イントネーションが完璧な次世代AIを使ってみた
「au三太郎」は生成AI時代に適応
当記事では「au三太郎」の10周年を記念したコンテンツ、「さぁ、何やる?メーカー」について解説していきました。以下にてもう一度、「さぁ、何やる?メーカー」の仕組みについて振り返っていきましょう!
「さぁ、何やる?メーカー」の処理フロー
ユーザーによる、KW・ニックネーム・歌声の指定
ChatGPTによる歌詞の生成
Voisonaによる歌声の生成
Stable Diffusionによる挿入画像の生成
TextAliveによる歌詞アニメーション生成
歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合
今回紹介したKDDIの他にも、コカ・コーラや伊藤園などなど、生成AIを広報に活用している企業が現れています。これからの生成AI時代では、今まで以上に企業の独創性が試されそうですね。
参考記事
※1:生成AIでリメイクしたお正月CMを放映、自分だけの三太郎MVを創れる特設サイトも公開 | エンタメ・コンテンツ | au