見出し画像

AIボイス×ChatGPT❓️驚愕のAI音声変換技術!「Applio」で実現する夢のボイスチェンジ:インストールから高品質な音声生成まで徹底解説❗️初心者でも簡単にPodcast作成❗️【無料で始められる】

どうも皆さん!最近魚肉ソーセージを食べると、猫が寄ってきてくれるということに気づいてお肉ソーセージにはまっている葉加瀬あいです!今回はですね、最新のAIボイスチェンジャーアプリということで、Applioについて解説をしていきたいと思います!

ApplioはRVCというボイスチェンジャーAIの一種になるんですけども、その中でもより最新版でとても使いやすいものになっているんです。「わぁ、すごく便利そう!」って感じですよね。

今回は、このApplioのインストール方法音声合成モデルのダウンロード方法、さらには推論のやり方などを、皆さんにご紹介したいと思います!

それと、以前はこちらの記事で、ChatGPTのアドバンスドボイスモードについて解説したんですけども…。結構そこらへんのPodcastを作る技術とかと組み合わせると、皆さんの好きな音声で高性能なAI読み上げを使いながら動画とかが作れるんじゃないかと思っています!

「えっ、そんなことができるの!?」って驚いちゃいますよね。この記事と合わせて読むと、かなりAIを使って面白いことができるんじゃないかなと思います!

なお、私のメンバーシップに入門されている方は、
いつものように、記事の内容を動画で確認できます!スキマ時間で最新のAI情報を手軽にキャッチしたい方はこちらからどうぞ!

(CommingSoon)

それではさっそく行ってみましょう!


AIボイスチェンジャーアプリ「Applio」紹介の背景

皆さん、最近のAI技術の進歩って本当にすごいですよね!特に音声関連の技術が急速に発展していて、私もワクワクが止まりません!

そんな中で、今回Applioというボイスチェンジャーアプリをご紹介しようと思ったのには、ちょっとした理由があるんです。

実は、OpenAIが提供しているChatGPTアドバンスドボイスモードがリリースされたことがきっかけなんですよ!「えっ、そんな機能があったの?」って思った方もいるかもしれませんね。

以前の記事でも少しご紹介したんですけど、このアドバンスドボイスモードは結構高性能なTTS(Text-to-Speech)が実装されているんです。でも…ちょっと難しい問題もあるんですよ。

OpenAIの公式発表によると、音声のトレーニングが厳しいんだそうです。つまり、著作権やコンプライアンスの観点から、いろんな人の声をトレーニングさせて、その声でAIとおしゃべりする音声を作るのが難しいみたい。「あれ?じゃあどうすればいいの?」って思いますよね。

ここらへんの詳細については、こちらの記事で解説しているので、よかったら見てみてください!



Applioの魅力

そこで登場するのが、今回ご紹介するApplioなんです!このアプリ、本当にすごく使いやすいんですよ。

Applioは、シンプルさ品質パフォーマンスに重点を置いたVITSベースの音声変換ツールなんです。ちょっと難しい言葉が出てきちゃいましたね。簡単に言うと、高品質な音声変換ができるってことです!

ボイスチェンジのスピードも早いので、例えばChatGPTで作成したPodcastの台本を、Applioでボイスチェンジするといったことが簡単にできちゃうんです!ここらへん、すごく相乗効果がありそうですよね。

ちなみに、詳しい人向けに説明すると、内部的な処理はRVC(Retrieval-based Voice Conversion)での音声変換になります。RVCについてはv3がリリースされるという噂があったんですけど、まだ実現していない状況なんです。

なので、高性能なボイスチェンジを行いたいのであれば、今回紹介するApplioがおすすめですよ!

最新の音声認識AI「Whisper Large V3 Turbo」

ここからは少し話がそれちゃうんですけど、音声関連の最新情報をもう一つ!

実はOpenAI、音声からテキストへの変換(音声認識)のAIも公開しているんです。その名も「Whisper AI」。最近、その最新モデル「Whisper Large V3 Turbo」が発表されたんですよ!

このモデル、すごく高性能な文字起こしができるんです。しかも、音声をそのまま理解して文字起こしするマルチモーダルアーキテクチャーみたいな感じですね!(正確に言うと別の技術なんですけど。)「えっ、そんなすごいの?」って感じですよね。

詳細はこちらのデモで確認できます。使ってみたい方は、ぜひチェックしてみてくださいね!

Whisper Large V3 Turboのモデルについては、こちらのソースで詳しく説明されています。興味のある方はぜひ見てみてください!

面白いことに、今回ご紹介するPinokioにも「Whisper Web UI」というものがあるんです。これを使うと、このWhisper Large V3 Turboモデルが使える可能性もあるんですよ。まだ確認はしていないんですけど、おそらくすぐに使えるようになるんじゃないかなと思っています!

このWhisper Large V3 Turbo、文字起こしの実行速度が今までよりも40%ぐらい向上したみたいなんです。精度はわずかに低下しているとのことですが、個人的にはそんなに違いは分からないかな…って感じです。

この情報のソースはこちらになります。

ここらへんの文字起こし技術は本当に面白いですし、実用的にも使えるのでとても嬉しいですよね!「AI技術って、どんどん便利になっていくんだなぁ」って感じます。

最新のAI技術:Copilot VoiceとPika

さて、ここからはさらに最新のAI技術についてお話ししていきますね!

マイクロソフトのCopilot

最近、マイクロソフトCopilot+ で Copilot Voiceという新しいAIアシスタントが登場したんです。これがすごいんですよ!つまり、自然な会話ができるモードとして、CopilotボイスWebブラウジング機能が搭載されているんです。

「えっ、それってChatGPTのアドバンスドボイスモードみたいなものなの?」って思われるかもしれませんね。実は、かなり似ている機能なんです!

もしCopilotプラスに有料課金している方がいらっしゃったら、ぜひ使ってみてください。きっと面白い体験ができると思いますよ!ただし、注意点が一つ。マイクロソフトのCopilotは英語でのチャットのみ対応しているという噂もあるんです。「本当かな?」って思いますよね。実際に使ってみないとわからない部分もありそうです。

詳しい情報はこちらのツイートで確認できますよ!

ちなみに、Copilotにはビジュアルアシスタントという機能も搭載されているんです。これがまたすごいんですよ!テキストや画像、表示されているWebページを理解して、それに対する質問に答えてくれるんです。「未来のAIってこんな感じなのかな?」って思っちゃいますよね。

詳しい情報はマイクロソフトの公式ブログに載っているので、興味のある方はぜひチェックしてみてくださいね!


動画生成AI「Pika」の最新モデル

そして、もう一つ注目の技術があるんです。それが動画生成AI「Pika」の最新モデル1.5なんです!

このPikaがすごいのは、RunwayKilingといった他の動画生成AIのトップソフトよりも高品質だという声があることなんです。「えっ、そんなにすごいの?」って思いますよね。

特に注目なのが「Pikaffect」というモーションライブラリーです。これを使うと、特定のキャラクターがドロドロに溶けたり、爆発したりといったモーションを手軽に動画に実装できるんです。「まるでプロの映像作家みたいな動画が作れちゃうんだ!」って感動しちゃいますよね。

詳しい情報はこちらのツイートで確認できますよ!

さて、ここまで最新のAI技術についてお話ししてきましたが、いかがでしたか?「AI技術って、本当にどんどん進化しているんだなぁ」って感じますよね。

Applioの使い方

はい、ということで細かい話はここまでにして、ここからは実際にApplioを使っていく方法について詳しく解説していきますね!まずはPinokioコンピューターを開いてください!

Pinokioコンピューターのインストールがまだの方は、こちらの記事で詳しく導入方法や、どういったものなのかを解説しているので、よかったら見てみてください。ちなみに、私のメンバーシップにご入門されている方は、別途、記事の内容を動画でも確認できますよ!

それでは、実際にPinokioコンピューターを使っていきましょう!まず、Applioをダウンロードする方法をお伝えしますね。

Pinokioコンピューターを開いたら、

ここから先は

5,415字 / 29画像 / 2ファイル

🔰初心者でも『note記事・動画・質疑応答』の3点で最新のAI情報がわかります。 あいラボ (A…

🎈葉加瀬のAI研究室 ~あいラボ~ 記事/動画/質問プラン

¥2,599 / 月
募集終了

🎈定員オーバー枠: ~あいラボ~ 記事/動画/質問プラン

¥3,280 / 月
人数制限あり

この記事が参加している募集

この記事が気に入ったらチップで応援してみませんか?