![見出し画像](https://assets.st-note.com/production/uploads/images/156588134/rectangle_large_type_2_d28c7b522fbfae505950458e27ab9455.png?width=1200)
AIボイス×ChatGPT❓️驚愕のAI音声変換技術!「Applio」で実現する夢のボイスチェンジ:インストールから高品質な音声生成まで徹底解説❗️初心者でも簡単にPodcast作成❗️【無料で始められる】
どうも皆さん!最近魚肉ソーセージを食べると、猫が寄ってきてくれるということに気づいてお肉ソーセージにはまっている葉加瀬あいです!今回はですね、最新のAIボイスチェンジャーアプリということで、Applioについて解説をしていきたいと思います!
ApplioはRVCというボイスチェンジャーAIの一種になるんですけども、その中でもより最新版でとても使いやすいものになっているんです。「わぁ、すごく便利そう!」って感じですよね。
今回は、このApplioのインストール方法や音声合成モデルのダウンロード方法、さらには推論のやり方などを、皆さんにご紹介したいと思います!
![](https://assets.st-note.com/img/1727936070-zDls59MXqFBu0SWkrOCVngEY.png?width=1200)
それと、以前はこちらの記事で、ChatGPTのアドバンスドボイスモードについて解説したんですけども…。結構そこらへんのPodcastを作る技術とかと組み合わせると、皆さんの好きな音声で高性能なAI読み上げを使いながら動画とかが作れるんじゃないかと思っています!
「えっ、そんなことができるの!?」って驚いちゃいますよね。この記事と合わせて読むと、かなりAIを使って面白いことができるんじゃないかなと思います!
なお、私のメンバーシップに入門されている方は、
いつものように、記事の内容を動画で確認できます!スキマ時間で最新のAI情報を手軽にキャッチしたい方はこちらからどうぞ!
(CommingSoon)
それではさっそく行ってみましょう!
AIボイスチェンジャーアプリ「Applio」紹介の背景
皆さん、最近のAI技術の進歩って本当にすごいですよね!特に音声関連の技術が急速に発展していて、私もワクワクが止まりません!
そんな中で、今回Applioというボイスチェンジャーアプリをご紹介しようと思ったのには、ちょっとした理由があるんです。
実は、OpenAIが提供しているChatGPTのアドバンスドボイスモードがリリースされたことがきっかけなんですよ!「えっ、そんな機能があったの?」って思った方もいるかもしれませんね。
以前の記事でも少しご紹介したんですけど、このアドバンスドボイスモードは結構高性能なTTS(Text-to-Speech)が実装されているんです。でも…ちょっと難しい問題もあるんですよ。
OpenAIの公式発表によると、音声のトレーニングが厳しいんだそうです。つまり、著作権やコンプライアンスの観点から、いろんな人の声をトレーニングさせて、その声でAIとおしゃべりする音声を作るのが難しいみたい。「あれ?じゃあどうすればいいの?」って思いますよね。
![](https://assets.st-note.com/img/1728004547-jryYSfW8Te43gdJLIDsRa6NO.png?width=1200)
ここらへんの詳細については、こちらの記事で解説しているので、よかったら見てみてください!
Applioの魅力
そこで登場するのが、今回ご紹介するApplioなんです!このアプリ、本当にすごく使いやすいんですよ。
Applioは、シンプルさ、品質、パフォーマンスに重点を置いたVITSベースの音声変換ツールなんです。ちょっと難しい言葉が出てきちゃいましたね。簡単に言うと、高品質な音声変換ができるってことです!
ボイスチェンジのスピードも早いので、例えばChatGPTで作成したPodcastの台本を、Applioでボイスチェンジするといったことが簡単にできちゃうんです!ここらへん、すごく相乗効果がありそうですよね。
ちなみに、詳しい人向けに説明すると、内部的な処理はRVC(Retrieval-based Voice Conversion)での音声変換になります。RVCについてはv3がリリースされるという噂があったんですけど、まだ実現していない状況なんです。
なので、高性能なボイスチェンジを行いたいのであれば、今回紹介するApplioがおすすめですよ!
![](https://assets.st-note.com/img/1728004566-P0evBDIgTtQ82kGidYLas7oJ.png?width=1200)
最新の音声認識AI「Whisper Large V3 Turbo」
ここからは少し話がそれちゃうんですけど、音声関連の最新情報をもう一つ!
実はOpenAI、音声からテキストへの変換(音声認識)のAIも公開しているんです。その名も「Whisper AI」。最近、その最新モデル「Whisper Large V3 Turbo」が発表されたんですよ!
このモデル、すごく高性能な文字起こしができるんです。しかも、音声をそのまま理解して文字起こしするマルチモーダルアーキテクチャーみたいな感じですね!(正確に言うと別の技術なんですけど。)「えっ、そんなすごいの?」って感じですよね。
![](https://assets.st-note.com/img/1728004579-4jsfvxeZGNtIkl0ogaVXwW81.png?width=1200)
詳細はこちらのデモで確認できます。使ってみたい方は、ぜひチェックしてみてくださいね!
Whisper Large V3 Turboのモデルについては、こちらのソースで詳しく説明されています。興味のある方はぜひ見てみてください!
面白いことに、今回ご紹介するPinokioにも「Whisper Web UI」というものがあるんです。これを使うと、このWhisper Large V3 Turboモデルが使える可能性もあるんですよ。まだ確認はしていないんですけど、おそらくすぐに使えるようになるんじゃないかなと思っています!
![](https://assets.st-note.com/img/1727935055-qw0EBr4PDxkIUApvgloM629j.png?width=1200)
このWhisper Large V3 Turbo、文字起こしの実行速度が今までよりも40%ぐらい向上したみたいなんです。精度はわずかに低下しているとのことですが、個人的にはそんなに違いは分からないかな…って感じです。
この情報のソースはこちらになります。
We fkn did it! Whisper Large v3 Turbo is in Transformers! 🔥
— Vaibhav (VB) Srivastav (@reach_vb) October 1, 2024
Drop-in replacement to Large-v3 - 809M parameters, 8x faster AND multilingual ⚡
> Uses 4 decoder layers as compared to 32 (large v3)
> Supports both Timestamps (both Word and Chunk)
> Compatible with Flash Attention 2… pic.twitter.com/gC7v25R2XN
ここらへんの文字起こし技術は本当に面白いですし、実用的にも使えるのでとても嬉しいですよね!「AI技術って、どんどん便利になっていくんだなぁ」って感じます。
最新のAI技術:Copilot VoiceとPika
さて、ここからはさらに最新のAI技術についてお話ししていきますね!
マイクロソフトのCopilot
最近、マイクロソフトのCopilot+ で Copilot Voiceという新しいAIアシスタントが登場したんです。これがすごいんですよ!つまり、自然な会話ができるモードとして、CopilotボイスやWebブラウジング機能が搭載されているんです。
「えっ、それってChatGPTのアドバンスドボイスモードみたいなものなの?」って思われるかもしれませんね。実は、かなり似ている機能なんです!
もしCopilotプラスに有料課金している方がいらっしゃったら、ぜひ使ってみてください。きっと面白い体験ができると思いますよ!ただし、注意点が一つ。マイクロソフトのCopilotは英語でのチャットのみ対応しているという噂もあるんです。「本当かな?」って思いますよね。実際に使ってみないとわからない部分もありそうです。
![](https://assets.st-note.com/img/1728004645-ZGYiwRykocaPenAu4K1hW6S9.png?width=1200)
詳しい情報はこちらのツイートで確認できますよ!
Today, we introduced a refreshed personal Copilot, your AI Companion, and significant updates to Copilot+ PCs. With incredible new Voice, Vision, and the ability to Think Deeper, we’re achieving AI experiences that are truly more personal, and trusted 👇 pic.twitter.com/rpQJOl2UsR
— Yusuf Mehdi (@yusuf_i_mehdi) October 1, 2024
ちなみに、Copilotにはビジュアルアシスタントという機能も搭載されているんです。これがまたすごいんですよ!テキストや画像、表示されているWebページを理解して、それに対する質問に答えてくれるんです。「未来のAIってこんな感じなのかな?」って思っちゃいますよね。
詳しい情報はマイクロソフトの公式ブログに載っているので、興味のある方はぜひチェックしてみてくださいね!
動画生成AI「Pika」の最新モデル
そして、もう一つ注目の技術があるんです。それが動画生成AI「Pika」の最新モデル1.5なんです!
このPikaがすごいのは、RunwayやKilingといった他の動画生成AIのトップソフトよりも高品質だという声があることなんです。「えっ、そんなにすごいの?」って思いますよね。
特に注目なのが「Pikaffect」というモーションライブラリーです。これを使うと、特定のキャラクターがドロドロに溶けたり、爆発したりといったモーションを手軽に動画に実装できるんです。「まるでプロの映像作家みたいな動画が作れちゃうんだ!」って感動しちゃいますよね。
詳しい情報はこちらのツイートで確認できますよ!
Sry, we forgot our password.
— Pika (@pika_labs) October 1, 2024
PIKA 1.5 IS HERE.
With more realistic movement, big screen shots, and mind-blowing Pikaffects that break the laws of physics, there’s more to love about Pika than ever before.
Try it. pic.twitter.com/lOEVZIRygx
さて、ここまで最新のAI技術についてお話ししてきましたが、いかがでしたか?「AI技術って、本当にどんどん進化しているんだなぁ」って感じますよね。
Applioの使い方
はい、ということで細かい話はここまでにして、ここからは実際にApplioを使っていく方法について詳しく解説していきますね!まずはPinokioコンピューターを開いてください!
Pinokioコンピューターのインストールがまだの方は、こちらの記事で詳しく導入方法や、どういったものなのかを解説しているので、よかったら見てみてください。ちなみに、私のメンバーシップにご入門されている方は、別途、記事の内容を動画でも確認できますよ!
それでは、実際にPinokioコンピューターを使っていきましょう!まず、Applioをダウンロードする方法をお伝えしますね。
Pinokioコンピューターを開いたら、
ここから先は
この記事が参加している募集
この記事が気に入ったらチップで応援してみませんか?