高度な音声機能を搭載したChatGPTの『今後』について解説します❗️一緒に使うべきAI技術とは❓️「Advanced Voice Mode」でほぼドラえもんクオリティの人間らしい会話が可能になったChatGPT（OpenAI）の今後の展望やAPIについて解説します❗️

葉加瀬あい (AI-Hakase)🎈動画&Note でAI解説🎥https://x.gd/F2Mvl

2024年10月1日 22:58

はい、皆さん！お久しぶりです、葉加瀬あいです！最近、更新が止まってしまって申し訳ありませんでした。

（実はカクカクシカジカで、某東京都知事の出身大学？であるカイロの新市街に行ってきたのですが、飛行機が飛ばなかったり、乗り継ぎが面倒だったりと、散々な葉加瀬でした。🥲）

さて、そんなこんなで、現在は絶賛時差ボケ中で、AIについては1週間ほど浦島太郎状態でしたが、気を取り直してまた解説を再開したいと思います！

今回の内容は、ChatGPTのAdvanced Voice Modeと、ChatGPTの今後についてですね！

この内容は、次回の記事でも紹介する、『イマChatGPTと合わせて使うべきAI技術』にも関わってくるので、ぜひ最後までご覧ください！

追記：2024/10/02

ChatGPTのAdvanced Voice Mode のAPI、公開されましたね！
料金とか諸々、カンタンに紹介しています！

それで、今回ご紹介するChatGPTの最新技術は「Advanced Voice Mode」という名前でリリースされています。

多くの方が記事で紹介しているので、今回はそのAdvanced Voice Mode、またの名を「高度な音声モード」について深堀りして解説します！さらに、ChatGPTやOpenAIの今後についても触れ、それを踏まえた上でどのようなAIツールを使っていけば良いのか、簡単に解説していきたいと思います！

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024

なお、私のメンバーシップに入門されている方は、
いつものように、記事の内容を動画で確認できます！スキマ時間で最新のAI情報を手軽にキャッチしたい方はこちらからどうぞ！

それでは早速行ってみましょう！

1. アドバンスドボイスモードの解説

いやー、それにしても日本に帰ってきたら、前から話題だったChatGPTの音声チャットモードが使えるようになっていて、すごく衝撃を受けましたね！

It turns out that you can access ChatGPT's Advanced Voice Mode if you are in the EU after all.

And we’ve made it even easier with a detailed video walkthrough, so you can see exactly how it’s done.@ItsMrMetaverse explains how👇 pic.twitter.com/hSeYfSLhDm
— Innovation Network (@INN2046) September 29, 2024

2.他AI技術（ちょっと最新技術紹介）：Dream Machine、Kiling、Tost AI

さらに、Luma AI社のDream Machineがv1.6にアップデートされて、動画の生成速度がなんと10倍になったんです！つまり、約20秒でフル品質の出力が可能になっています。実は、後ほど解説するAPIでも利用できるようになっているんですが、ちょっと話がややこしくなるので、詳細な解説はここら辺で留めておきますね。

🚀 Welcome to the era of Hyperfast video generation: with 10x faster inference, you can now generate full-quality Dream Machine v1.6 clips in under 20 seconds. No "turbo" or "distilled" models - just uncompromised quality. Available today to all subscribers and API customers. pic.twitter.com/9mc5vJrTf0
— Luma AI (@LumaLabsAI) September 30, 2024

それともう一つ、TikTokをリリースしているByteDanceが提供しているKilingという動画生成AIで、リップシンク機能が公開されましたね！写真や動画、バーチャル試着など、すべて利用できるので、動画生成がとてもやりやすくなっています。例えば、画像を何枚か用意して特定のキャラクターがおしゃべりする動画を作ったり、PVの音楽の作成を自動化したりすることも可能です。これがあれば、かなり便利ですね！

卧槽，卷起来了，字节今天限量开放 P 模型。

可灵直接发布对口型能力，不是正方形脸部，可以直接在生成的视频对口型。

而且全量开放了 API 能力，图片、视频、虚拟试穿全部上线，充钱就能用。

有类似产品规划的朋友可以冲了，下面是官方演示。 pic.twitter.com/h8KL51Hent
— 歸藏(guizang.ai) (@op7418) September 30, 2024

一応、こちらのTost AIという技術を使っても、最新の技術に触れられるようになっていますので、ぜひ試してみてください。　

🎧 coming soon on https://t.co/SzjYHSd5qE 🎶 pic.twitter.com/4i72YhpvBr
— 🥪 Tost A(P)I (@tost_ai) September 29, 2024

3. アドバンスドボイスモードの解説

さて、話を戻しますと、このAdvanced Voice Modeについて簡単に解説すると、ChatGPTの有料プランのユーザーに向けて公開された、自然な会話が行えるAIです！冒頭までの応答時間が0.3秒ととても早く、感情豊かに本当の人間のように話してくれるので、まるで何でも知っているドラえもんと話しているようなイメージを持っていただければ大丈夫です！

ここら辺の動画を見てみると、さらに分かりやすいと思います。

This new ChatGPT Advanced Voice mode 🤯🤯 pic.twitter.com/GgqFZvC0qU
— Jason Staats⚡ (@JStaatsCPA) September 25, 2024

動画を見ていただくととても分かりやすいのですが、何と言っても人間のように話せる高性能のTTS技術が素晴らしいですね。このTTSは正式名称をText-to-Speechと言い、AIが音声を発して喋ってくれる形のものを想像すると良いかと思います。

ChatGPTのAdvanced Voice Modeなどは、音声を文字起こしなしでそのまま理解するマルチモーダルアーキテクチャという技術にも注目が集まっていますが、この高性能なTTSは、ここまでの性能は他の技術ではまだ実現できていないので、本当にすごい技術です。

Just got access to ChatGPT’s Advanced Voice Mode and had some fun with it. 1/2 pic.twitter.com/O8qDXmzIO5
— Chad Mairn (@cmairn) September 25, 2024

聞いているとよくわかるのですが、フィラーと呼ばれる「えーと」や「あの」といった人間が会話の間で発する言葉を入れたり、感情を込めたり、たまにはボソボソ声を使ったりして答えてくれるわけです。

🔥 ADVANCED VOICE MODE (MAPLE) RAPPING ONE OF THE MOST EXPLICIT SONGS OF ALL TIME, “WAP,” IN THE STYLE OF NICKI MINAJ 🔥

notably, ChatGPT had to race-swap, impersonate a public figure, sing, swear, moan, generate sound effects, and print copyrighted lyrics to produce this… pic.twitter.com/H0MFa5wpOn
— Pliny the Liberator 🐉 (@elder_plinius) September 27, 2024

本当にすごい技術ですよね。ただし現段階ではいくつか注意点がありまして、それが次の記事でお伝えしたいことと、このChatGPTの新しいAdvanced Voice Modeの革新的なところになります。これを押さえておかないと、ただ便利な技術が出てきたなとしか捉えられないので、ちょっとそこのところを解説させてください。

4. 音声に関する注意点と今後の展望

まず、音声に関してですが、

ここから先は

5,085字 / 24画像

🔰初心者でも『note記事・動画・質疑応答』の3点で最新のAI情報がわかります。あいラボ (A…

このメンバーシップの詳細

🎈葉加瀬のAI研究室 ~あいラボ~ 記事/動画/質問プラン

¥2,599 / 月

あと1人募集中

🎥𓈒最新AI技術の『記事・動画』の閲覧が自由に。 🔰質問OKで、初心者の方も安心です。 👤定員に達し次第、募集終了となります。（質疑応答の人数に限りがあるためです。）ご入門はお早めに！詳細はXのDMまで💌 ̖́- https://x.gd/y7VqE

X、Noteでの質問対応もOKです⭕️
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

🎈定員オーバー枠： ~あいラボ~ 記事/動画/質問プラン

¥3,280 / 月

人数制限あり

『🎈葉加瀬のAI研究室 ~あいラボ~ 記事/動画/質問プラン』の定員に達してしまった場合のプランです。特典は全く同じになります🙆‍♀️✨ お安い方の定員は毎月1日に更新されます🙌 詳細はXのDMまで💌 ̖́- https://x.gd/y7VqE

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

ログイン

この記事が参加している募集

#AIとやってみた

47,844件

この記事が気に入ったらチップで応援してみませんか？