
2024年3月最新リアルタイム音声生成AI(AIボイスチェンジャー)の比較記事
要約
2024年3月現在のリアルタイム音声生成AI(AIボイスチェンジャー・AIボイチェン)の各ツールの強みや弱みを紹介比較する記事です。
有料記事ではあまりメジャーでないツールを紹介しつつ、変換後の音声も一部紹介します。
また、あまり他の記事では紹介されていない遅延の低減方法や音が途切れにくくなるコツなどリアルタイムでの変換音声に焦点をあてた記事です。
対象読者は、AIボイスチェンジャー初心者さんや最近のAIボイスチェンジャーのまとまった情報が欲しい方に最適です。
リアルタイム音声生成AIまとめ
筆者の環境
ROG Strix G15 G512LV (G512LV-I7R2060)
CPU : インテル® Core™ i7-10750H
OS : Windows 11 Home
メモリ : 16GB
ストレージ : SSD : 512GB
グラフィックス : NVIDIA® GeForce RTX™ 2060
マイク: SHURE ( シュア ) / WH20XLR ヘッドセットマイク
オーディオI/F: Rubix24
<全体的な注意点>
・権利関係が問題ない音声で学習しましょう。
・機械学習の知識によって完成するモデルの品質が大きく変化します。
<補足>
遅延は筆者環境での参考値としてご参考ください。
例えば音程を検出する仕組みによっても遅延がかわりますし、PC性能がによっても大きく変化します。ピッチを変換するとほんのわずかですが遅延が増加します。
<筆者が試したもの(9種)>
voidol
概要
商用AIボイスチェンジャーで有名なソフト。※有償
voidol(初代)、Voidol Plugin Package(VSTプラグイン版)、voidol2、voidol3がある。
VSTとは(DTMというPC上で音楽制作をするソフトなどで使いやすい形式になっている)でも動作させることができ、DAW(DTMで使うソフトのこと)
強み
遅延は少ない。正確な数値は計測できていないが、約80msほどの体感である。
話す。(v1.5であれば)歌う。ささやく。おおよそボイスチェンジャーとして必要な音声変換が可能である。
学習が必要だが日本語コミュニティーによるサポートが充実している。公式discordサーバーや日本語記事などが充実している。
弱み
変換品質は(他のAIボイスチェンジャーと比較して)あまり高くない。
ノイズに弱いので変換前と変換後にノイズ除去を入れるときれいになるが、それらの処理を入れることで遅延が増えてしまう。
概要
AIボイスチェンジャーは商用でvoidolがあったが、無料で品質が高いAIボイスチェンジャーとして注目されている。
通常手順通りに進めるとv1.3を使うことになるが、早期アクセス版がありv1.5が存在している。
v1.5は歌を歌うことができるが、逆に変換後の話者再現性が低くなっている。
強み
遅延は少ない。正確な数値は計測できていないが、約80msほどの体感である。
話す。(v1.5であれば)歌う。ささやく。おおよそボイスチェンジャーとして必要な音声変換がすべて可能である。
学習が必要だが日本語コミュニティーによるサポートが充実している。公式discordサーバーや日本語記事などが充実している。
弱み
変換品質は(他のAIボイスチェンジャーと比較して)あまり高くない。
ノイズに弱いので変換前と変換後にノイズ除去を入れるときれいになるが、それらの処理を入れることで遅延が増えてしまう。
概要
「so-vits-svc」という歌声を変換する機械学習のツールがあり、その分家のような存在。本家との違いはリアルタイム変換ができることや、モデルの構造が異なっている。
強み
多彩な状況に対応できる変換品質があり、一番変換の質が高い。
話す。歌う。ささやくなどすべての変換が安定している。
ただし学習データによって結果が大きくことなるので、学習する人の力量によって品質の差が大きく出てしまう。
弱み
遅延が大きい。約230msぐらいある。
英語ドキュメントメインなので、日本語話者やプログラムやIT技術に馴染みがないとつらい。
更新が止まっているので大幅なアップデートが望めない。
概要
「Retrieval-based-Voice-Conversion」を略してRVC。「so-vits-svc」から話者ごとの特徴だけを学習することで、学習の効率化を行っている。AIボイスチェンジャーといえばこのRVCが有名である。
強み
有名なので日本語ドキュメントが充実している。
学習が早く、変換品質も「so-vits-svc-fork」に限りなく近い。
知名度のあるツールは技術者による積極的なアップデートがあるため、今後も機能が改善していく可能性が高い。
v1とv2が存在している。
v2の方が品質が良い。
開発が盛んで遅延を少なくしようとしているので将来性があるかもしれない。
これは筆者の個人的感想だが、RVCはとは異なる技術を使った新AIボイスチェンジャーがいずれ出てくると思うので、あくまで短期的な将来性があると思ってます。
弱み
遅延が大きい。約200msぐらい。若干so-vits-svc-forkより早い。
ここから先は
この記事が気に入ったらチップで応援してみませんか?