英語でPodcastを配信してみた(AIに話させる)
日本語で配信しているPodcast番組「日常を旅するラジオ」(にちたび)。日本語で話をしている内容を英訳し、それを動画でアップロードするという作業を行いました。
まずは結果から
YouTube shortsにアップロードしました。時間は1分以内です。
※執筆時点で、テスト的に英語のチャンネルを作っています
この切り抜きの日本語ver.はこちら。
多言語に動画を変換できるサービスをいくつか見て分かったこと
いくつか試してみて最も便利且つUIも魅力的に思ったのは「captions」。ただし課金が必要。
フリーで使えるソフトウェアを使ってみて、同じような仕組みであることがわかりました。字幕を翻訳し、その字幕ファイルをもとにプログラムにインストールされている学習された音声モデルで読み上げをしていました。(音声モデルの種類については、無料のものもあれば有料のものもありました。)
この、字幕を翻訳→その字幕ファイルを読み上げさせる手法ならば、自力でもできるかもしれないと思い立って開発をしました。
用意するもの
Google colab
テキストを音声で読み上げるプログラムを作るために活用。字幕ファイル(srtまたはsbv)
※私は今回sbvファイルを活用。Youtubeにアップロードすると、自動的に字幕ファイルが生成され、そのファイルをダウンロードして使いました。canva
動画を作成するツールとして活用。
Google colabの詳しいコードはニーズがあればnoteで公開しようと思います。
開発してみて分かったこと
「日常を旅するラジオ」は、podcast配信サービス「LISTEN」を利用しています。LISTENにUPする時点で、話者分離させた方が、のちのち楽。(現在、秋さんと私の話者分離を行なっていないので、アップロードする時点で話者分離をさせた方が便利そうです。秋さんの音声の高さはこれ、ひとみの音声の高さはこれ、と後から設定しやすい。)
作ったモデルだと、1種類の女性の声しかできませんでした。違う音声モデルを持ってくるか、audacity(音声の波形編集ソフト)で手動で声の高さを調節するしかない。
先ほどご紹介した、「captions」というサービスは、基本的には私が自力で作っていたものと同じ。ただし読み上げの声のモデルが多様であるのと、英訳のカジュアルさ(ネイティブスピーカーに近い)、操作が簡単であることから、まぁ課金すれば手軽に動画が作れるよねという感じです。