【映像革命すぎる:解説】chatGPTに方言を学習させて、AIで生成した地方アナウンサーに地方統一選を報道してもらった結果。
どうも瀬戸内サニー株式会社の社長でYouTuberの瀬戸内サニーです。起業家として、クリエータとして、最前線に立ってこのAI時代を迎えられていることに毎日感動しまくっています。
ちなみに、3週間前の地方統一選の前半戦では、chatGPTにギャル語を学習してもらって地方統一選について書いてもらう記事を公開しました。その際に学んだことは、ファクト(一次情報)さえあれば、情報を伝えたい相手に合わせて円滑にコミュニケーションを最適化することができるという仮説的な学びでした。特に自治体などの行政コミュニケーションに役立つと感じています。
では、今週4月23日(日)の地方統一選後半戦に向けて、「chatGPTに方言を学習させて、AIで生成した地方アナウンサーとして地方統一選を報道してもらった結果」という試みをしました。地域は香川県。ステップは以下3つで考えました。それぞれのステップでの試行錯誤したことを書いていきます。
ステップ1:chatGPTに方言を学習してもらう
①現状のchatGPTの方言レベルを知る
まず、現状chatGPTの方言レベルを知るために投げかけましたが、普通の標準語で返ってきてしまいました。地方の情報はネット上に少ないので予期していましたが、先が思いやられる、、、笑
次に讃岐弁に関する記事(2021年以前のchatGPTが読み込めるであろうWeb記事)をもとに讃岐弁で書いてもらいました。しかし、大阪弁と京都弁が混じってよくわからない感じになりました(笑)「〜どすな」とか「おおきに!」は香川県民は使わんどw w w
基本的にインターネット上にある讃岐弁コンテンツは単語の解説(例:腹起きた→お腹いっぱい)なので、話し言葉でのコンテンツはほとんどない、そのことがうまく学習してくれない要因かと思いました。
あと大阪弁と京都弁はある程度認識できているということは、都市規模的に1000万弱程度の人口がいてインターネット上で使われてる方言でないと厳しいのかもです。
そのあと試しに「〜やけん」や「けん」の方言を使って香川県を説明してくださいと質問してみても、「〜が多いやけん(正解は『多いけん』)」「望ましいやけん(正解は『望ましいけん』)」と間違った讃岐弁が返ってきてしまいました。
話し言葉から学習してもらうことに💡
そこで改めて方言の構成要素に目を向けたときに、方言を構成する要素は「書き言葉」よりも「話し言葉(アクセントなど)」の方が比重としては大きいのではないかと考え始めました。
人間は基本的に「音(話し言葉)」でそれがどこの方言か、讃岐弁かどうかを認識しているので、語尾をテキストからのアプローチで学習させることが非常に難しい。特に「〜やけん」「けん」など、「〜けん」も2パターン使い方があって、しかもそれに対して規則性があるかどうか分からなかったので。(もしかしたらあるのかもですが)
そこで、まずはchatGPTを提供しているOpenAIがリリースした書き起こしAIツール「Whisper」を使って、方言に関するYouTube動画を2つほど文字起こしして、そちらをもとに方言を学習してもらうことにしました。
ちなみにさらに細かいことを言うと、香川県は西讃、中讃、東讃と分かれていて、中讃と東讃は「〜けん」を使い、西讃は「〜きん」を使います。ただマジョリティーとしては「〜けん」なので、「けん」の語尾を学習してもらうことにしました。
まず、ソースはワイのYouTubeチャンネルの動画含め以下3つです👇(みなさん動画活用させていただきありがとうございます!)
ソース①:讃岐弁でアフレコしたら想像以上に酷かったww
ソース②クセが「がいな」さぬき弁(5分)マイクロシネマコンテスト 佳作!
ソース③【祝成人!】香川県の成人式で突撃インタビューして武勇伝とか聞いた結果www
こちらのYouTube動画の音声を「Whisper」にアップロードして、語尾に関する讃岐弁を抽出しました。精度的には95%以上かと。(Whisperの使い方はAI VTuberのにゃんたさんの解説動画が参考になりすぎます。ソースコードも感謝しかないです、、、。以下が動画中の会話を抽出してくれたデータです👇
やっと準備が整ったので、それぞれ書き出した会話内容から讃岐弁を抽出し学習してもらうことにしました。特に讃岐弁の方言は「語尾(〜やけん)」が重要なので、語尾に絞って学習をしてもらいました。
「〜けん」の前の文章を文脈と関係ないため、無視するようにというルールを加えて返答をしてもらった結果が以下👇 まあまあ成功したかなあと、ここまでが長かった、、、🎉🎉🎉 本当はローカル線のことでんとかでボイスレコーダーで録音したらもっと精度は上がると思うので今後やっていきます。マジでネット上に話し言葉の讃岐弁少なすぎ、、、。
ステップ2:midjourneyで地方アナウンサーを画像生成する
本当は、chatGPTに讃岐弁で地方統一選を語ってもらうだけの記事にしようかと思っていたのですが、もし地方アナウンサーが方言で地方統一選を語ったらどういう感じになるのか実験してみたくて、画像生成AIの「MidJourney」でお次は画像生成をしてくことに。
Discordで画像生成ができるのですが、いろんな人たちが使っているので使い方の勉強にもなります。以下スクショ👇
最初は「an japanese adult weman reporting news as an news caster with smile in tv show」くらいの情報で入れるとこんな感じものものしか出てこかったのですが。
入れる情報の解像度を上げるとこうなりました👇
さて、では最後に動画生成AIを使う前に、学んだ讃岐弁をもとに、高松市の地方統一戦について語ってもらいました。
なお、chatGPTは過去のやり取りを忘れていくし、時々フェイクも入ってたりするので指示が長くなってしまいましたが、追加で単語としての讃岐弁(うまげ、しゃんしゃんなど)も取り入れるように情報を追加してみました。
出てきたアウトプットがこちら👇 結構精度が高くなった気がします。あと「しゃんしゃんアピールしとるけん」とかめっちゃいい(笑)
ステップ3:D-IDで動画生成をしてもらう
いよいよ、ラストです。動画生成D-IDに先ほど「Midjourney」で生成した画像をもとにアナウンサーが上の情報をリポートしてくれるように設定します。
D-IDのすごいのは画像と原稿を入れれば、それで喋ってくれるようになること。加えて、声の種類も選べれますし、例えば自分の声を入れたいときはボイスレコーダーで録音してD-IDに突っ込めばその音声に合わせて画像が喋ってくれるようになります。
あと日本語バージョンだと少ないのですが、英語とかだと「cheerful(元気な感じ)」とか「custer serive(接客的な)」「sad(悲しい感じ)」と設定を選べることもできます。ここから精度がもっと上がっていくと思います。
それとお次に、Canvaの画像生成機能を使って、動画中のインサートを作成しました。また、Adobe Premiereの自動書き起こし機能を使って動画を最後にブラッシュアップ。
完成した動画がこちらです👇🎉
方言をちょっと効率良く学習してもらう方法があればと思いつつ、まあ初手としては良い感じになったんじゃないかなあと。アクセントには課題があるのですが、そのあたりは今後音声系AIと映像系AIがうまくかみ合わさって、ちゃんと一次情報をまとめられれば改善はされそう。
【まとめ】人間というインターフェイスは薄れるかもしれないが、地方において一次情報の価値が確実に上がる。
今回やっていく中で感じたのが、一次情報の価値が上がるということ。例えば、今回も方言のデータを街中で取った方が絶対に精度が高くなるので、足で稼いでいた新聞記者や番組ディレクター、研究者などの価値が上がる。地域で誰も評価しなかったけど、川や森林などの自然環境で生物や地域文化の研究をしていた人たちの情報価値も上がります。ネットに上がってないので。
あと、正直今の段階でここまで「AIアナウンサー」が機能するとは思っていなかったので、AIのコミュニケーションやリアリティが改善されると人間というインターフェイスの意味が少しずつ薄れていくかもしれないと思いました。(のび太くんがジャイアンやしずかちゃんとコミュケーションしようが、ドラえもんとコミュニケーションしようが変わらなくなる的な)
そうなると、コミュニケーションの部分はAIに仕事を奪われないと思っているかもしれないけど、心象に残らないアナウンサーや誰にでもできるフィジカルが必要ない仕事をやっている人の仕事は無くなる。ブランド人にならないとキツい。自戒も込めて。
ここからは地方の視点なんですが、chatGPTというインターネットの世界を自由自在に泳げる技マシーンを僕たちは手に入れました。ただ、今回愕然としたことが、地方の情報の少なさでした。chatGPTに質問を投げかけても、精度の高い情報が上がってこない。方言なんて尚更。関東弁か関西弁の違いしか分かっていないし、なんなら「方言」という概念自体を理解できているか怪しい。
画像にすると上の感じ。東京の情報は大体ネットで探せばあるのでchatGPTが判断できる領域。だけど地方の情報は圧倒的に少ない。じゃあ頑張ってchatGPTが学習できるようにする必要がある、もしくはその逆の思考も然り。
あと、今回面白かったのが海外のAIを使うと海外から見た日本顔見えるということ。例えば今回画像生成AIの「midjourny」を使ったんですが、最初かなりアニメ系が生成されたこと、また左上なんて「他国のアジアの言語」で生成されてしまっていること。海外から見たら日本人と韓国とか他アジアは一緒みたいな思考がAIから見えてきたのは面白いなあと。
あとどう頑張っても今回のAIアナウンサーが日本人的アナウンサーな画像が生成されませんでした。なぜなら日本人アナウンサーやアイドル自体がドメスティックコンテンツすぎて、おそらくグローバルなAIが見つけられないこと、また韓国人風の顔にどうしても近付いてしまうのが、おそらくK-POPアイドルはグローバルコンテンツなのでAIが検索ができてその影響を受けてることが要因じゃないかなあと感じています。
他にも今回で学んだことが死ぬほどありすぎたんですが、多く人に選挙に興味を持ってもらえればと思って取り組んだ企画なのでこの辺で!
瀬戸内サニー株式会社では、教育機関へのchatGPTを活用したデジタルリテラシー教育を提供しています。また現在資金調達の上、積極的に人材採用を行っておりますので、AI×地方×教育や、メディア&マーケ情報発信の領域に興味がある方、ぜひお待ちしております。
この記事が気に入ったらサポートをしてみませんか?