たった3秒の日本語音声から人の声を再現可能なAI音声モデル「VALL-E-X」

2023年9月8日 19:12

たった3秒の日本語音声から人の声を再現可能なAI音声モデル「VALL-E-X」 - つみかさね
https://3yokohama.hatenablog.jp/entry/2023/09/08/190742

音声を失った人が自分の声と似たような音声を復元するには1時間以上の本人の音声データが残っているとかなり正確な音声を復元出来るようなツールも出来ているが、このAI音声モデル「VALL-E-X」はたった3秒の音声データがあれば再現してくれる。
無料でGit(git lfs)からダウンロード出来る。がそれなりの環境を構築しないといけない。またパソコンも高級なマシンが必要です。
VALL-E-Xを動かす（環境構築）
Python（当方3.10.7で動作確認済）
(GPUを使うならCUDA関連）
Git(git lfs)

今回でもサイトを見つけたので試してみました。自分の音声を30秒程度をアップローしたら長すぎるという事で、旨く動作してくれない。そこで注意書きにあった15秒以内に短くしてみた。一応受け付けてくれたが、どうも長い文章は旨くいかない。生成を繰り返すと、旨く似たような音が出るときと出ないときがある。
そこで別の音声データ、音声合成したものを使ってみた。結構旨くいく。どうも音声レベルが低く、見本の発音も良くないのが原因らしい。（自分が悪い？）そこで録音レベルをアップするサイトでMP3の音量を上げてみた（3dB、6dB）。これで大分良くなったが、まだ良いときと悪い時がある。このソフトウェアはマイクロソフトが提供しているので、今後を期待したい。

音声を失った人のようなに使うのはいいけれど、なりすまし等の悪意を持った使い方をするひとも出てくるでしょう。AIが進んでくると偽物、本物の判断が益々難しくなってきます。技術は常に使う人間世界でコントーロールして行かないといけないですね。

革新的！音声モデル「VALL-E-X」WebUIをWindowsで動かす方法解説実演付き | 経済的生活日誌
https://economylife.net/vall-e-x-install-windows/
日本語・英語・中国語でたった3秒の音声から人の声を再現可能なMicrosoftの「VALL-E-X」を独自にトレーニングしたゼロショットモデルが公開中 - GIGAZINE
https://gigazine.net/news/20230828-plachtaa-vall-e-x/
VALL EX - ハグフェイススペース by Plachta
https://huggingface.co/spaces/Plachta/VALL-E-X
MP3音量増加オンライン, オンラインでMP3の音量を上げる, MP3音量増加, MP3 Louder
https://www.mp3louder.com/jp/

3秒の日本語音声から人の声を再現可能なAI/ChatGPTの機能を増強するChrome拡張機能/テキストから一瞬で漫画を作れるAI - YouTube
https://www.youtube.com/watch?v=fQ_wbDb4nDI