NVIDIAの最新合成音声技術に、音から風景を再現するAI――「音とAI」の最新研究紹介
2025.1/10 TBSラジオ『Session』OA
Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的とています。今回は、最新の音研究をふたつ紹介したいと思います。
◾NVIDIAが発表した最新AI音声合成技術
2025年も、音声業界の技術発展が期待されています。まず、2024年には企業価値が一時的に世界一になって注目された、半導体の「エヌビディア」が、興味深い技術を発表しています。
2024年11月、NVIDIAは次世代のAI音声合成技術である「Fugatto」(Foundational Generative Audio Transformer Opus 1) を発表しました。このFugattoはテキストや音声を基に、様々な音楽や人の声を生成することができるものです。もちろん、同様の技術はこれまでにも数多く登場していますが、Fugattoの特徴は、これまでに存在していない、まったく新しい音を創造することを可能にしている点にあります。
様々な技術を用いて、例えば「犬のように吠えるトランペット」や、「金属的な苦悶の叫びを上げる工場機械」といった、存在しない音を生成することが可能です。さらに、特定のパートの楽器の音を抜いたり、指示を入力すればするほど、多くの音の生成が可能です。この技術を用いれば、効果音や背景音声など、ゲームやドラマにも利用可能な音を生成できるでしょう。
現段階では、一般公開や商業リリースは未定ですが、ChatGPTが登場して世界中のユーザーが様々な試みをしたように、音の領域でも、新しい音がこの世界に誕生することでしょう。
◾️音から風景を再現するAI
次は、音から実際の風景を再現するという研究です。
ちなみに以前、人の声からその人物の顔を予想して作成するMITの研究を紹介しました。
声からだけでも、その人の骨格や言語にアクセント、トーンやスピードから、国や地域、文化などが分析可能ということでした。
今回は中国の武漢大学を中心に、米サウスカロライナ大学やテキサス大学オースティン校の研究者も参加した研究チームが2024年6月、論文を発表しています。研究は、アジアやヨーロッパの都市の動画から、10秒の音声と静止画の組み合わせを作成し、AIに訓練させました。
https://www.sciencedirect.com/science/article/pii/S0198971524000516#s0050
そして、100種類の音声からそれぞれAIが都市の風景画像を生成させ、実際のものと生成されたものをコンピュータと人間に、それぞれ評価させました。コンピュータは主に建物と空、植物に着目して分析させたところ、生成された画像と実際の画像の間には、空や植物については強い相関がみられる一方、建物についてはやや相関が弱い、つまりあまり似ていないことがわかりました。
一方、人間には、生成した3つの画像から、音声サンプルに近いものを1つ選んでもらいました。その結果、平均80%の確率で、実際の風景に近い画像を人間は選択したということです。研究者は、音から風景・情景を思い浮かべるのは人間に特有の能力ですが、AIでも人間の主観的な体験を理解する可能性を示唆しています。
つまりこの研究からは、音から人間が何を想像しているのかを、AIも理解する可能性を指摘しているのです。
実際、生成された画像は、晴天なのか曇りなのか、または夜であるかといった「照明条件」をかなり正確に再現できたといいます。もしかしたら、人間が交通音が多い/少ないや、昆虫の音で、昼か夜かを理解するように、AIも同種の試みをしているのかもしれません。もっといえば、私たちが音から何を想像するのか。その原理を、逆説的にAIが発見することになるかもしれません。
音研究はこのように、日進月歩で発展しているのです。