見出し画像

20240928_ChatGPT-4oの新ボイスモードがやっと来た!使用感など(ChatGPT部, 大城)

こんにちは、ChatGPT部、部長の大城です。久々の投稿です。

もう4ヶ月前くらいでしょうか、5月にOpenAI社の発表であったこちらの新ボイスモードがChatGPT Plusのユーザーに開放されました・・!

ということで、実験の内容も含めていくつかデモ動画などを集めた対と思います。

ChatGPT-4oの新ボイスモードに関するデモ

新旧のChatGPT-4o ボイスモード比較(大城)(3分45秒)

やはり、圧倒的にレスポンス性能が改善してます。新は待ち時間1秒程度、旧の方は5秒くらい待って回答。


新モードでできることや出来ないことをあれこれ質問(大城)(6分31秒)

こちらも実験してみました。耳コピなどは出来ない、と言ってますが、個人的には本当か・・?と疑ってます(笑)
( SE音も出来ない、といいつつ別の例で出来てたりするので、ChatGPTの回答はハルシネーションが起きている可能性、または本人が自己認識していない可能性もあるので、話半分くらいで聞くのが良いと思います )



桃太郎の朗読をスポーツ実況風に (効果音もついてるぞ・・) (47秒)

こちら、個人的には一番おもしろいなと思ったデモです。動画を参考に手元でも試してみましたが、女性の音声よりは男性の方がよいですね。

なお、一つ前の動画で「SE音(効果音)は付与できない」とChatGPT-4o自身は回答していたのですが、こちらでは最後の方に効果音もついてました。


半分眉ツバですが、ギターのチューニングのデモ (2分25秒)

これも本当か?という感じなのとリプライ欄でハルシネーションでは?というツッコミが入っていたのですが、もし実現していたら結構便利だなと思いました。
( 音の高さは認識できない、と前の質問動画では答えていたのですが、個人的には相手の感情を把握するのには音程の高低情報も使えるのでは?と思っているので、何かしらの形で学習されている可能性もあるのかな、と思ってます )

地面師風の怒りの感情表現(22秒)

映画?ネトフリ?の地面師たち、まだちゃんと見てないのですがちょっとした指示(プロンプト)でここまで感情を込めた表現が可能です。
(若干、エセ関西弁風にも聞こえますが勢いはある)


ドジっ子メイド風 (56秒) & 妹風 (32秒、23秒)

実験しようという想像力がまずすごい。そして、既にある程度形になっているのもすごい。

これにたとえば将来、声優さんが自分の声データをAIにライセンスして、再現できるようにしたらゲームのキャラクター音声とかはかなり代替できるのではないでしょうか。

英会話のデモ。RとLの発音、とか (2分18秒)

これも、発音認識してるのか、ハルシネーションなのかは分からないのですがそれっぽく聞こえるんですよね。前述の音程以外にも、「音」や「波形」としてある程度理解している可能性もあるのかな、と思っているのですが実装は依然謎です。( でも、体験としてはより人に近づいていることは間違いない印象を受けました )



個人的な所感

以下、先日兄弟コミュニティの「AIオモシロごった煮勉強会」でLTしたスライドからですが、想定していた内容もあればまだこれから発展の余地もあるな、という部分です。

ユーザー体験としては非常に向上してます。あと、この時はSE音(効果音)はつけられない、とChatGPT-4oは言ってましたが、他の人のデモを見ると効果音ついていたりするので(桃太郎の朗読の例など)、もしかしたらChatGPT-4o自身は効果音を付与している感覚はなく「普通に音声(波形)の一種として理解」している可能性もあるかも?とも個人的には思っています。
( いずれにせよ内部実装は謎なので、観察しての可能性の一つ、ではありますが。 )

またおそらく近いうちにOpenAIやAzureでのAPIなども出るのではないか、と思っておりますので、それが実現すれば色々なサービスへの組み込み・応用も捗るのでは、と思っています。
( APIで実装する場合、ストリーミングでずっとデータを流し続ける仕掛けは必要になるかもしれませんが。 )

例えばこちらの「AI売り子」のようなサービスも、さらに性能がUPできるのでは、と思ってます。

あと個人的には「耳コピ」ができるようになれば、例えば音楽を聴く->楽譜に起こす->自分の得意な楽器にアレンジ、とかできて元吹奏楽部の私としては嬉しいなぁと思ってます。アンサンブルの楽譜とか、ある程度技量が求められるものも、「自分の技術」に合わせて調整してくれる世界は個人的にはユートピアだなぁと思ってます。
(現状のLLMでも会話自体は「小学校4年生にわかるように」のような形で難易度のカスタムはできてはいるので、それの楽譜版ですね)

ということで、今日はChatGPT-4oの新ボイスモードについてでした。

ちなみに余談ですが、年内はあと3回DevDayがあり、一番近い日程は2024/10/1のようです。そこでも何か新しい発表がないか、期待ですね。


それでは皆さんもどうぞ良いChatGPTライフを・・!(大城)

この記事が気に入ったらサポートをしてみませんか?