（12）情報リテラシー論レポート〜ラジオと音声技術の未来性〜

2024年12月16日 13:22

お障りないでしょうか。

第12回情報リテラシー論レポートのお時間です。

北国のあちこちで初雪が観測されつつある最近は、ますます布団から出られなくなり自分が人間でなくなっていくのをひしひしと実感しております。

唐突ですが、個人的な昔からのマイブームはラジオ鑑賞です。

思えば実家にはほぼラジオが流れているのが常で、物心ついた時からラジオは最も身近にあるメディアの一つでした。
数年前からはPodcastで好きな芸人さんのラジオを聴くようになり、登下校時や作業時のBGMにはもちろん、時々寝る前の睡眠導入剤にも使用するほどに重宝させていただいております。

今とこれからの「声」の発展はどのようになっていくのでしょうか。

多くの人が調べものをするときにパソコンやスマホを利用しますが、近年では「声」を使って質問する人も増えています。「明日の天気は？」「50ドルは何円？」などと尋ねると、音声で答えるだけでなく、気遣いや雑談のような応答も可能になりました。このような「声」の部分を支える技術が音声合成です。

音声合成は、コンピュータで人間の声を模倣し、テキストを音声に変換する技術です。
公共放送やカーナビで長年使用されてきましたが、近年ではスマホやスマートスピーカーの音声アシスタント、動画のナレーションなど、日常のさまざまな場面に活用範囲が広がっています。
さらにAI技術の発展により、かつての単調な機械音から脱却し、人間らしい自然な発話が可能となり、音声合成は進化を続けています。

音声合成技術の歴史は非常に古く、1700年代に母音や子音を発する機械が作られたことに始まります。その後、1940年代のコンピュータ誕生により、1950年代には初の音声合成器が開発されました。

主な進化の流れ

1960年代: 「ベル研究所」でIBM 704が「デイジー・ベル」を歌唱。また、日本で初の英語テキスト音声合成システムが開発されました。
1980年代: 初代MacなどのOSに音声合成エンジンが搭載され、テレビゲームや広告にも活用されるように。
1990年代後半: カーナビの音声案内で一般認知が拡大。
2000年代: 初音ミクに代表される歌声音声合成技術が話題となり、音声合成がエンタメ分野でも広く活用。
2020年代: 特定の声を学習して再現する技術が進化し、「コエステーション」など個人向けのサービスが普及。

AI音声合成ソフトは、入力したテキストを人工音声で読み上げる技術を用いたソフトウェアで、近年では人間に近い自然な音声を生成できるよう進化しています。

カーナビ、電話応答システム、多言語対応など幅広い用途に活用され、今後も重要な役割を果たすことが期待されています。

音声合成使用可能なツールも、一般の人でも使える身近なものへとなってきています。しかしそこには良い面だけでなく悪い面ももちろん存在するものです。。。

メリット

コスト・時間の削減: ナレーターの手配や収録の必要がなく、テキスト入力だけで瞬時に音声生成が可能。
柔軟性: テキスト編集のみで内容変更に対応可能。
高品質音声: 最近の技術進化により、人間らしい自然な音声を生成できるソフトが増加。

デメリット

感情表現の難しさ: 感情を込めた表現では不自然さが出ることも。
品質依存: 低品質のソフトでは発音やイントネーションに違和感を感じる場合あり。
初期コストと習熟: 高性能ソフトは高価で、操作に慣れるまで時間がかかる。

これらの特性を理解し、用途に応じた最適なソフト選びが重要です。

さて、近年台頭したAI技術により、音声技術は個人に限らず故人の声さえも模倣できるほどのレベルへと進歩しています。

しかしAI学習の促進は、更に権利問題を加速させる事態へと発展しています。

生成AIを使った声優の声の無断利用が問題化する中、声優や関連団体がAI利用に関するルール整備を訴えています。

声優業界団体の声明

日本俳優連合、日本芸能マネージメント事業者協会、日本声優事業社協議会の3団体は以下を求める声明を発表しました。

声優の声をAIで利用する際は本人の許諾を得ること
AI生成音声であることを明記すること
アニメや映画の吹き替えなど、演技領域での生成AI音声の使用を禁止すること

背景

生成AIによる「AIカバー」動画など、声優の声が無断利用されるケースが急増。調査では267人以上の声優の声が無断利用されていました。これを受け、有志の声優たちは「NOMORE無断生成AI」キャンペーンを開始。啓発動画の公開やSNSでの呼びかけを行っています。

問題の法的課題

専門家によると、声そのものは著作物とみなされず、現行法では保護が難しい状況。AI音声の利用に関する契約やデータベース構築など、法的・技術的な取り組みが必要とされています。

正規のAI音声サービスの動き

一方で、声優と協力した公式AI音声サービスの開発も進行中。
声優の声を多言語変換するサービスが開始され、使用目的を限定（音声アシスタント、館内放送など）し、対価を声優に支払う仕組みを採用しています。

このような取り組みを通じて、AI音声技術の正しい活用と声優の権利保護を目指す議論が進められています。

技術の進化に伴うリスクを理解し、適切に活用するためにも、私たちは多角的なリテラシー力を持ってこの技術に望まなければいけません。

リスク回避における対策には様々な方法があります。

1. 著作権・プライバシー意識の向上

無断使用のリスクを理解する
他人の声や音声データを無断でAI学習に利用すると、著作権侵害やプライバシー権の侵害に該当する可能性があることを周知する。
権利者の許諾を得るルールを守る
声優や歌手の音声をAIで再現する際は、事前に許可を得る。

2. 生成音声の識別力を高める

生成物の明示
AI音声で生成されたコンテンツには「AIによる生成音声」であることを明記するルールを強化する。
生成音声の判別技術の導入
ディープフェイク対策と同様に、AI音声の識別技術を活用し、生成物と実録音声を区別する仕組みを普及させる。

3. 倫理的な利用指針の教育

教育カリキュラムにAI倫理を組み込む
学校教育や研修で、AI音声技術の利点とリスク、倫理的課題について学ぶ機会を設ける。
ガイドラインの作成
企業や団体がAI音声利用に関するガイドラインを策定し、従業員や関係者に共有する。

4. 誤用・悪用防止策の実施

アクセス制限の設定
AI音声生成ツールやデータベースに認証システムを導入し、不正利用を防止する。
悪用時の罰則強化
無断利用や違法な生成音声の拡散に対する法律を整備し、適切な罰則を設定する。

AI音声技術の利用には利便性だけでなく、リスクや社会的影響を理解することが不可欠です。
教育、技術、法律の3つの側面から対策を講じ、健全で倫理的なAI音声利用環境を整える必要があります。

参考記事
↓