Text-to-Speechサービスについて試行錯誤した話
Text-to-Speech(TTS)とはつまり、文字から音声に変換することです。
今回は英語の音声を求めてあれこれと調べたので備忘録がてら記録します。
まずなぜ必要だったかというと、英語の勉強のためです。
私のモチベーションは以下の2つです。
・学会発表の原稿を音声化してひたすら聴くことで、原稿なしで臨みたい。
・医療面接のスクリプトを音声化して聴くことで、患者対応の英語が流暢になりたい。
特に前者で15分など話す場合、自分の英語力で臨機応変にスライドの内容を語ることが難しかったため、ひたすら聴きまくることでほぼ暗記の状態に持っていくことで流暢な発表を目指しました。
なお今回の音声化は無料のもの、かつ英語にフォーカスしております。
また私はバックグラウンド再生で音源を聴きながら他の作業もしたかったのでmp3化を目指しました。
重要な因子として「文章の長さ」「無料」「手順のシンプルさ」、次点で「流暢さ」に重点を置きました。
これらは英語のプレゼン準備の際に大変役立つツールです。
ぜひ味方につけて流暢な英語プレゼンを練習しましょう。
Amazon Polly
12ヶ月間無料、月500万文字、AIによる流暢な読み上げ、調整も自由自在。
他のサイトで字数制限と格闘するくらいなら、Pollyに頼りましょう。
ただし音源までたどり着くのが大変、また1年後に課金が始まってしまうので解約など注意が必要なのが難点です。
しかし面倒さを補って余りある成果が得られます。
こちらのnoteを参考にmp3化を行いました。
手順としては以下のリンク参照
・AWSのアカウントを作成
カード情報まで入れる必要があるので、苦手な人は別の方法を。
・AWSの初期設定
最も苦戦するパート。Google Authenticatorのダウンロードや各種設定で少なくとも30分はかかります。
・Amazon S3 バケットの作成
3000文字を超える場合、バケットがないと保存できません。
これでようやく完成。10分ちょっとの音源を入手。長い道のりでした。
サイバーセキュリティ対策と課金対策のメールアラートを忘れないようにしましょう。
NaturalReader + Soundflower
Natural Readerでは20,000文字まで無料です。
Amazon Pollyとの比較はこちら。
web上では読み上げてくれるのですが、mp3のダウンロードには有料会員になる必要があります。
つまり無料でmp3化するには工夫が必要です。
私はMac userなのでSoundflowerが必要でした。
これは要するにPC内で鳴っている音源を録音するソフトウェアです。
録音の仕方はこちら。
ちなみに大学のPCはWindowsだったのでAudacityで無事録音できました。
音読さん
日本製のTTSサービスの中で最も有名と思われます。
登録すれば無料で月5000文字まで音声変換が可能です。
5分の英語プレゼンなら場合により足りるかなと思います。
抑揚やイントネーションの調整の工夫もサイトに記載があります。
間合いや空白の調整も複雑ですができるようです。
他にも色々とサービスがあるのですが、今回の目的に関してはこの3つが主なサービスかなと思いました。
中にはGoogle翻訳の読み上げを録音するなんて方法もありました。
短い文章に関しては様々なサービスがあるので簡単かと思います。
しかし長い文章をmp3化するには上記のような長い道のりがありました。