![見出し画像](https://assets.st-note.com/production/uploads/images/158882015/rectangle_large_type_2_44ede44e07a3efb3b30ac9d1060f8a50.png?width=1200)
【AI音声合成、GPT-SoVITSで英語・中国語もペラペラ!? 🗣️✨ 】たった6秒の自分の声から、声のクローンを作って多言語対応コンテンツを爆速作成! 🚀 初心者でもOK!収益化&海外展開も夢じゃない!? 💰🌏【AIツール/海外で話題/日本語解説】
どうも皆さん!葉加瀬あいです!
皆さんは、AIを使って「あんなこと」や「こんなこと」ができるようになったらいいな…って思ったことはありませんか?
例えば…
外国語をペラペラ話せるようになったら…
自分の声で、色々なキャラクターを演じられたら…
自分の作ったコンテンツを、世界中の人に届けられたら…
…なんて、夢のようなことを考えてしまいますよね?
実は、そんな夢を叶えてくれる、すごい技術があるんです!
今回は、その夢のような技術について解説していきます!
![](https://assets.st-note.com/img/1729556275-YdnNDWuECF9ewa4ASvR72sTX.png?width=1200)
なお、私のメンバーシップに入門されている方は、いつものように、記事の内容を動画で確認できます!
なお、Youtubeでは一部の動画を期間限定配信しているので、よかったらチャンネル登録もおねがいします🙌
それでは、本日もよろしくお願いします!
![](https://assets.st-note.com/img/1729556299-6T2pjJtnb34IOdLcoBKDvwlN.png?width=1200)
はい!それでは改めてこんにちは皆さん!葉加瀬あい、葉加瀬あい(ハカセアイ)です!
今日は朝起きたら、コーヒーを飲もうとしたら、カップの中に自分の反射が見えて「ああ、今日も一日がんばるぞ!」と自分に言い聞かせてました。笑
朝って眠くてぼーっとしがちだから、意外と自分と向き合う時間になることってありますよね。
というわけで、今日も眠気と戦いつつ、GPT-SoVITSについての解説をお届けしていきたいと思います!それでは、さっそく本題に入りましょう!
![](https://assets.st-note.com/img/1729556364-gRvBA4qkfuZLV31o6iEyxQpw.png?width=1200)
GPT-SoVITSってなに…?🤔
GPT-SoVITS…なんだか難しそうな名前ですよね?
簡単に言うと、自分の声で、違う言語を話せるようにする技術なんです!
例えば、日本語で話した内容を、英語や中国語に自動で変換できちゃうんですよ!😲
どんなことができるの?🥺
この技術を使えば…
自分の声のクローンが作れちゃう!
外国語で話せるようになる!
YoutubeやTikTokで、多言語対応のコンテンツが作れちゃう!
…と、可能性は無限大なんです!🤩
![](https://assets.st-note.com/img/1729556376-SQJB7DNOXIlV6mtCi2jUbguA.png?width=1200)
GPT-SoVITSを使ってみよう!
なので今回は、このGPT-SoVITSを、初心者の方でも使えるように、いつものように設定方法から丁寧に解説していきますね!
ぜひ、使えるようになってください!
実際に見てみましょ!👀
![](https://assets.st-note.com/production/uploads/images/158871441/picture_pc_508520e001ecae9e64ab231d5fb3a3cf.gif)
サンプル音声も聞いてみてくださいね!
— ハカセ アイ🎈 “Note + Youtube” で最新AI技術を解説しています・:*:・。 (@ai_hakase_) October 21, 2024
ちょっと待って…その前に!✋
実は、この技術、以前の記事でも少しだけご紹介していたんです!
…覚えてますか?🤔
今回は、その最新版をご紹介しちゃいます!✨
もっと知りたい!って方は…📚
AI音声合成に興味がある方は、ぜひこちらのマガジンも読んでみてくださいね!
AIによるテキスト読み上げ(TTS)
AITuberを使った動画の作り方
声のトレーニング方法
…などなど、役立つ情報が盛りだくさんですよ!😉
GPT-SoVITSってどんな技術なの?🤔
GPT-SoVITSって、
ゼロショットTTS
ファーショットTTS
クロスリンガルサポート
…といったすごい機能があるんです!
ゼロショットTTSって?
なんと、たった5秒の自分の声のサンプルがあれば、すぐにテキストを音声に変換できちゃうんです!😲
![](https://assets.st-note.com/img/1729556486-ZvBkzNWjeAtMVL0cGsURaJ1Q.png?width=1200)
ファーショットTTSって?
1分のトレーニングデータで、さらにリアルな音声を作れちゃう!
![](https://assets.st-note.com/img/1729556515-glhxRr76q4JO5umBL0zpXnA1.png?width=1200)
クロスリンガルサポートって?
違う言語でも音声合成ができちゃう!
例えば、5秒の短い日本語の音声から、1分とか2分くらいの英語や中国語の音声を作れるんです!
![](https://assets.st-note.com/img/1729556527-sxYldSOptqUIWBoDeuE17a2Z.png?width=1200)
どんなことができるの?🥺
多言語対応で、日本語、英語、中国語など、様々な言語で音声合成が可能!
少量のデータで高品質な音声合成を実現!
…と、可能性は無限大なんです!🤩
実際に聞いてみましょ!👂
サンプル音声も聞いてみてくださいね!
— ハカセ アイ🎈 “Note + Youtube” で最新AI技術を解説しています・:*:・。 (@ai_hakase_) October 21, 2024
さらにすごいのが…✨
なんと、GPT-SoVITSはWeb UIで使えるんです!
Web UIツールって?
Web UIツールには、
音声伴奏の分離
トレーニングセットの自動セグメンテーション
中国語ASR(自動音声認識)
テキストラベリング
…といった機能が備わっていて、初心者の方でも簡単にトレーニングデータセットとGPT/SoVITSモデルを作れちゃうんです!
![](https://assets.st-note.com/img/1729556592-PB6lMyiVLWEbT3nKhp4JwtjC.png?width=1200)
設定と実行方法
しかも、Windowsならインストールも実行も簡単!
専門知識がなくても、全然できちゃいます!
Windowsユーザー向けには、統合された圧縮ファイルが用意されているので、ダウンロードして解凍後、「go-webui.bat」をダブルクリックするだけでWeb UIが起動します!
(PythonとPyTorch、CUDAなどの特定の環境が必要です。)
![](https://assets.st-note.com/img/1729556671-ArnU0PiusJGFyge5TcKhMVkW.png?width=1200)
Pythonのインストール方法は、色々なやり方が紹介されているので、そちらを見てみてください!
ChatGPTなどのLLMを使うと、楽にインストールできると思います!
一応、私も最近こちらの記事で、LLMを無料で使う方法について解説しているので、よかったら見てみてください!
PyTorchとCUDAのインストールはこんな感じでできます!
ここから先は
この記事が参加している募集
この記事が気に入ったらチップで応援してみませんか?