よしかい

生成AI関連の技術検証の記事を投稿します。よろしくお願いします。

よしかい

生成AI関連の技術検証の記事を投稿します。よろしくお願いします。

最近の記事

活動記録(2024年3月31日更新)

この記事は自分の活動をまとめたものです。随時更新していきます。 プロダクトAI Radio Maker 最新版のUI Koe Magic AIキャラクター会話アプリ Yorissy (ヨリシー)合成音声最新のOSS(GPT-SoVITS)を使って落合陽一さん声でテキスト音声合成(Text-to-Speech)をやってみました 数分の音声からの学習でもこのぐらいのクオリティになります ご本人に許諾を得ずに実験的にやっているので問題があればすぐに消します その喜びを共

    • GPT-SoVITS ゼロショットで多言語TTS(テキスト合成音声)を試してみる

      GPT-SoVITSというゼロショット TTS(テキスト合成音声)ができるOSSが公開されたので試してみました。 1. GPT-SoVITSGPT-SoVITSには下記の特徴があります。 ゼロショットTTS 5秒間のボーカルサンプルを入力し、即時のテキストから音声への変換 フューショットTTS わずか1分のトレーニングデータでモデルを微調整し、声の類似性とリアリズムを向上 クロスリンガルサポート トレーニングデータセットとは異なる言語での推論をサポートし、現在は

      • Dreamtalk on Google Colabでつくよみちゃんをリップシンク付きで喋らせてみた

        表情豊かに顔画像をリップシンクできるDreamtalkをGoogle Colabで試してみました。今回はつくよみちゃんの音声と画像で試しています。 Exampleを試してみる下記のdremtalk-colabのgithubのリンクからdreamtalk_gradio_colabのOpen  in ColabをクリックしてColabを開きます。 Colabを開いたら早速実行をしてみましょう。しばらくするとgradioのリンクが発行されるのでクリックして開きます。リンクはRu

        • つくよみちゃんコーパスで学習して感情豊かな音声合成[TTS]をしてみる by Style-Bert-VITS2

          Bert-VITS2という技術を使った音声合成ができるソフトウェア(Style-Bert-VITS2)を使って、つくよみちゃんコーパスの音声データを学習させてみました。これにより、感情豊かな音声を合成することができます。これはWebUIをつかって簡単にできます! 検証環境 Windows 10 RTX 3080 手順Style-Bert-VITS2のインストール つくよみちゃんコーパス 音声データのダウンロード Style-Bert-VITS2でデータセットの作成

        活動記録(2024年3月31日更新)

        • GPT-SoVITS ゼロショットで多言語TTS(テキスト合成音声)を試してみる

        • Dreamtalk on Google Colabでつくよみちゃんをリップシンク付きで喋らせてみた

        • つくよみちゃんコーパスで学習して感情豊かな音声合成[TTS]をしてみる by Style-Bert-VITS2

          StreamDiffusionをWindowsで試してみた

          StreamDiffusionが2023年12月21日にリリースされたので試してみました。 検証環境Windows 10 Pro RTX 3080 セットアップGit cloneをします。 git clone https://github.com/cumulo-autumn/StreamDiffusion.gitcd .\StreamDiffusion\ 次に公式の手順に従ってインストールを行います。今回はanacondaを使いました。 https://githu

          StreamDiffusionをWindowsで試してみた