ChatGPTとの音声会話で、人間がAIに愛着を持つ?――「AI音声」の可能性と課題を考える

2024.9/27 TBSラジオ『荻上チキ・Session』OA

Screenless Media Lab.は、音声をコミュニケーションメディアとして捉え直すことを目的としています。今回は、ChatGPTの新機能から、AIとの音声会話の可能性と課題を考えたいと思います。

◾ChatGPT「高度なボイスモード」

ChatGPTの運営元であるOpenAIは2024年7月から、一部のユーザーを対象に「高度なボイスモード」の提供を開始。9月24日には、有料ユーザー限定ではありますが、この制限を解除しました。50の言語に対応しており、日本語ももちろんカバーしています(ただし、EUやイギリス等ではまだ利用が可能ではありません)。

https://help.openai.com/en/articles/8400625-voice-mode-faq

これまでもボイスモードは存在していましたが、スマホアプリでは会話を中断するのに画面のタップが必要だったり、会話への返答にも3~5秒かかるなど、お世辞にも使いやすいとは言い難いものでした。

今回のボイスモードは、返答にかかる時間が人間とほぼ同じ0.3秒となっており、AIとの自然な会話が可能となります。特に、こちらの感情を読み取って、アクセントやトーン、内容の調節が可能になります。ただし、アクセントの改善も行われましたが、日本語話者にはまだ完全とは言い難いです。

他にも、日本語で自分が話したことを英語で返してもらうといった細かな設定や、英語教師になってもらうことも可能です。すでに様々なユーザーが様々な機能を試しており、例えばポッドキャスト番組を会話しながら作成するユーザーもいます。競合生成AIの台頭によってChatGPTの魅力が相対的に減少する中、今回の機能は注目に値するものでしょう。

◾️高度なボイスモードへの懸念

一方、ChatGPTの音声モードにはこれまで、様々な批判がありました。例えば、以前からChatGPTには男性や女性の声で話す音声モードが用意されていますが、2024年5月にOpenAIは、その中のひとつである「sky」を削除すると発表しました。その背景には、米俳優のスカーレット・ヨハンソンからの削除要請がありました。

実は2023年の時点で、OpenAIはヨハンソンの声を起用したいとオファーしましたが、彼女は断っています。ですが、skyがヨハンソンの声に非常に似ていることからショックを受けた彼女は、skyの削除を要請しました。ご存知の方も多いと思いますが、AIアシスタントの恋が描かれた映画『her/世界でひとつの彼女』(2013年)の中で、AIアシスタントの声をヨハンソンが担当していました。

もうひとつの懸念は、高度な音声によるフェイクなどの危険性です(どんなにフェイクを防ごうとしても、システムをハッキングして悪さをさせようとするユーザーは現れるでしょう)。また意図的な嘘ではなくとも、誤った知識が会話の中に含まれていた場合、文章よりもユーザーが信じてしまうリスク等が考えられます。

一方、OpenAIも感情豊かに会話可能な音声モードの危険性を理解しています。OpenAIは2024年8月8日にGPT4-0の安全性に関する調査報告を発表しています。フェイク情報の拡散や、生物兵器の開発に寄与する可能性などと、多岐にわたる調査が行われていますが、注目は、ユーザーの一部が感情豊かなチャットボットに愛着を持つという点についてです。(以下の点は、wiredの記事で詳しく書かれています)

https://openai.com/index/gpt-4o-system-card/

例えば、会話によってはなれなれしい話し方だったり、感情や声色によって、人間の側が感情的になりやすくなります(「今日はあなたといられる最後の日です」と、感情を込めてAIが話す)。その結果、人間がAIへの愛着、あるいは過剰に依存してしまう危険性を、OpenAIは認めています。

OpenAIやChatGPTには他にも様々な批判はありますが、音声分野に限って言えば、OpenAIだけでなく、今後はますます人間とAIの感情を介した会話が可能になるでしょう。その時、私たちはどのような感情を刺激されるのか。その可能性と課題について、すでに議論ははじまっているのです。

この記事が気に入ったらサポートをしてみませんか?