AU三太郎はどうやってMVを生成しているのか？エンジニアが仕組みを徹底考察

AIを使う全ての人へ｜WEEL

2024年4月26日 23:01

みなさん、「au三太郎」10周年を記念した「さぁ、何やる？メーカー」はご存知ですか？

こちらはなんと、ユーザーの入力内容からオリジナルのMVを作ってくれるサービス。生成AIの力で、歌詞・歌声・挿入画像を用意してくれるんです！

当記事では、そんな「さぁ、何やる？メーカー」を徹底解剖。その仕組みについて、弊社エンジニアによる予想を紹介していきます。

完読いただくと、生成AIを使った企画のヒントが得られるかも……

ぜひ最後までお読みください！

「さぁ、何やる？メーカー」は2024年2月29日にサービスを終了しています。

生成AIで作られたau三太郎とは

KDDI株式会社が送る「au三太郎」のCMは、2024年で10周年。その節目を記念した下記コンテンツが、2024年元日にリリースされました。

● さぁ、何やる？メーカー：生成AIでMVが作れるサービス
● 年始限定CM：過去のCMを生成AIでアニメ風にリメイクしたもの

そう、「au三太郎」シリーズの新たな門出は生成AIなんです！

なかでも「さぁ、何やる？メーカー」は要注目。ユーザーが入力した今年の抱負をもとに、下記の生成AIがオリジナルのMVを合作してくれるそうなんです。

ChatGPT
VoiSona
Stable Diffusion

ただ、その仕組みについては、KDDIからの発表がありません。※1

そこで当記事では、気になる中身について弊社専属LLMエンジニアの予想をお届けします。

なお、国内企業における生成AI活用事例について詳しく知りたい方は、下記の記事を合わせてご確認ください。
→生成AIを社内導入する方法とは？事例やメリット、注意点も解説

「au三太郎」に使われたツールの考察・予想

弊社エンジニアによると、「さぁ、何やる？メーカー」に使われているAIツールは以下の4種類であるとのことです。

ChatGPT API
Stable Diffusion（公表済み）
VoiSona（公表済み）
TextAlive

ここからは各AIツールの特徴や「さぁ、何やる？メーカー」内での役割について、詳しくみていきましょう！

ChatGPT API

「ChatGPT API / OpenAI API」は、ChatGPTのサービス外でOpenAIの生成AI（GPT-3.5 / GPT-4V / DALL-E 3…etc.）が使えるAPIです。「さぁ、何やる？メーカー」においては、歌詞の生成を担っていると考えられます。

もっと詳しく、モデルや処理についても考えてみます。おそらくは一般ユーザー向けに広く公開するという目的から、生成時の料金が最も安いGPT-3.5 Turboが用いられているはずです。

またChatGPT APIの機能「役割の指定」を活かして、歌詞だけを生成するセッティングがなされていそうです。

公式サイト：Product

Stable Diffusion

「さぁ、何やる？メーカー」のMVでは、歌詞の内容に即した画像が一部挿入されています。その挿入画像を歌詞から生成しているのが、画像生成AI「Stable Diffusion」です。

このStable Diffusionのすごいところは、テキストから全く新しい画像が生成できる「Text-to-Imageモデル」である点です。仕組みとしては……

学習時：画像をノイズに変換し、その工程を学習する
画像生成時：学習した工程と逆の処理で描画する

というふうに、なっています。

公式サイト：画像生成AI Stable Diffusion — Stability AI Japan

VoiSona

音声創作ソフトウェア「VoiSona」は、「さぁ、何やる？メーカー」の声帯にあたるAIツール。歌詞と楽譜をもとに、自然な歌声を生成します。

そんなVoiSonaの特徴は、機種（アーティスト）ごとに声質や得意分野が分かれている点にあります。「さぁ、何やる？メーカー」に採用されているものだと……

知声（Chis-A）：中性的な声質で、ポップス / ジャズ / バラードが得意
機流音：「鬼龍院翔」氏の歌声を学習、高音域が得意
AiSuu：「すぅ」氏の歌声を学習、キュートな声質
MYK-IV：「マイキ」氏の歌声を学習、高音域が得意

と、4人のアーティストから好きな声が選べちゃうんです。

公式サイト：VoiSona

TextAlive

「さぁ、何やる？メーカー」ではおそらく、「TextAlive」がMVへの歌詞の挿入を担っているはずです。

「TextAlive」は、産業技術総合研究所の歌詞アニメーション制作支援サービス。入力した楽曲から、歌詞のアニメーション演出を自動生成してくれます。
公式サイト：TextAlive

「au三太郎」の仕組みを予想してみた

「さぁ、何やる？メーカー」は以下の流れで、MVを制作していると考えられます。

ユーザーによる、KW・ニックネーム・歌声の指定
ChatGPTによる歌詞の生成
Voisonaによる歌声の生成
Stable Diffusionによる挿入画像の生成
TextAliveによる歌詞アニメーション生成
歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合

「さぁ、何やる？メーカー」ではChatGPTが生成した歌詞をもとに、VoiSona / Stable Diffusion / TextAliveがそれぞれ生成を行っているはずです。その中でも、

ユーザー側の指定内容
ChatGPTの歌詞生成用プロンプト

についてはある程度仕組みが予想できましたので、以下にて解説します。

ユーザー側の指定内容

「さぁ、何やる？メーカー」でユーザーが入力する内容は、下記の3点です。

やりたいこと（KW）
ニックネーム
VoiSonaの機種

そのうちKWは歌詞・挿入画像に、ニックネームは歌詞のクレジットにそれぞれ影響します。試しに、下記を「さぁ、何やる？メーカー」に入力してみると……

#KW
懸垂10回達成する

#ユーザー名
2sc

このような形式で、歌詞が生成・表示されるんです。ちなみにMVのほうは、生成に1日程度かかります。

ChatGPTの歌詞生成用プロンプト

「さぁ、何やる？メーカー」ではまず、ChatGPT（ChatGPT API）を介して歌詞が生成されます。その歌詞の特徴としては……

前半・中間の各3フレーズがオリジナルの内容
後半はテンプレートで固定
→今何がやりたいの、今何になりたいの、予定通りに行かなくたって、確かに前には進んでいる

となっています。この仕様を再現したものが、下記のプロンプトです。

#命令
以下の{条件}に合う歌詞を出力してください。

# 条件
- 歌詞は{前半の歌詞}と{中間の歌詞}と{後半の歌詞}の3段構成
- {前半の歌詞}は{KW}を元に作成する
- {中間の歌詞}は{KW}を元に作成する
- {後半の歌詞}をサビとする

# 前半の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする

# 中間の歌詞
- 3フレーズ
- 7文字、7文字、12文字を1回
- 文字数はひらがな文字でカウントする
    
# 後半の歌詞
今何がやりたいの
今何になりたいの
予定通りに行かなくたって
確かに前には進んでいる
    
# KW
懸垂10回達成する
    
# 出力
新しく出力する{前半の歌詞}の後に新しく出力する{中間の歌詞}、さらにその後に{後半の歌詞}を出力してください。前半・中間・後半の歌詞本体以外を記入した場合は罰を与えます。

こちらのプロンプトをChatGPTに入力してみると……

以上のとおり、「さぁ、何やる？メーカー」の仕様で歌詞が生成されます。

なお、ChatGPTのプロンプトテクニックについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→プロンプトエンジニアリングマスターWiki！ChatGPTの必須テクニック16選

「au三太郎」に関連するAIツール3選

「さぁ、何やる？メーカー」には使われていないものの、同じようなことができるAIツールも存在します。当記事ではその中でも、

Suno AI
SOUNDRAW
Style-Bert-VITS2 JP-Extra

について紹介します。まずはSNSで流行したSuno AIから、詳しくみていきましょう！

Suno AI

「Suno AI」は作詞・作曲・レコーディングを自動で行う楽曲生成AIです。その使い方は簡単で、テキストを入力するだけ。あとはSuno AIが、

歌詞
楽譜
歌声
伴奏

を数分で生成してくれます。

さらにSuno AIが生成した楽曲については、カスタマイズも可能。音楽の知識がなくても、自分だけの楽曲が作れるんです。

公式サイト：Suno AI

SOUNDRAW

SOUNDRAW株式会社の「SOUNDRAW」は、日本発の楽曲生成AIです。ユーザーが指定したジャンル・ムード・テンポをもとに、たったの数秒で楽曲を生成してくれます。

そんなSOUNDRAWが生成する楽曲はなんと、著作権フリー。SpotifyやAppleMusicでの配信&収益化が可能です。SOUNDRAWの学習にあたっては、社内製の音源が用いられているそうなんです。

公式サイト：AI Music Generator – SOUNDRAW

Style-Bert-VITS2 JP-Extra

無料で商用利用までできる音声合成（Text-to-speech / TTS）モデルが存在します。そのTTSモデルとは、「Style-Bert-VITS2 JP-Extra」です。

こちらは英語・中国語・日本語に対応したBert-VITS2がベースとなっており、

アクセント・発音のバグ修正
日本語データでの再学習
英語・中国語要素の削除

といった調整が実施済み。そのため従来のTTSモデルと比べて、日本語の発音が流暢です。すでにマージモデルも流通している注目株です！

公式サイト：GitHub – litagin02/Style-Bert-VITS2

なお、Style-Bert-VITS2 JP-Extraについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Style-Bert-VITS2 JP-Extra】日本語の発音・イントネーションが完璧な次世代AIを使ってみた

「au三太郎」は生成AI時代に適応

当記事では「au三太郎」の10周年を記念したコンテンツ、「さぁ、何やる？メーカー」について解説していきました。以下にてもう一度、「さぁ、何やる？メーカー」の仕組みについて振り返っていきましょう！

「さぁ、何やる？メーカー」の処理フロー

ユーザーによる、KW・ニックネーム・歌声の指定
ChatGPTによる歌詞の生成
Voisonaによる歌声の生成
Stable Diffusionによる挿入画像の生成
TextAliveによる歌詞アニメーション生成
歌詞アニメーション・挿入画像・過去のCM・歌声をMVに統合

今回紹介したKDDIの他にも、コカ・コーラや伊藤園などなど、生成AIを広報に活用している企業が現れています。これからの生成AI時代では、今まで以上に企業の独創性が試されそうですね。

参考記事

※1：生成AIでリメイクしたお正月CMを放映、自分だけの三太郎MVを創れる特設サイトも公開 | エンタメ・コンテンツ | au