ポッドキャストジェネレーター 【Replit Agent ハッカソン投稿作品】
こんにちは!
この記事では、2024年11月11日~2024年11月30日まで募集されている【Replit Agent ハッカソン】に投稿するポッドキャストジェネレーターを紹介します!
ポッドキャストジェネレーター
今回作成したアプリは、タイトルを入力しただけで、台本と音声が生成され、ポッドキャスト作成を半自動化するアプリ【ポッドキャストジェネレーター】です。このアプリを使用することにより最小限の編集でポッドキャストが出来上がります!
こだわりポイント
直観的なデザイン
入力はタイトルのみ
4000文字以上の文章と音声生成に対応
厳選した音声モデル
台本を編集、音声生成が可能で柔軟的
開発した背景
移動中や、睡眠時などに歴史や時事について解説してくれるポッドキャストが気軽に作れれば良いなと思い開発にいたりました。
使い方
1.タイトルの入力
ここでは、好きなタイトル/トピックを書いてください。
テストでは【地球の誕生について・2024年に就任したトランプ大統領について・織田信長の生涯について】などを試しました!審査でもご自由に生成してみてください。【天気予報】など未来については非対応です。
2.簡単な設定
求める長さと声を選択して台本を生成を押してください。
台本の長さについて、以下の3つを採用
ショート【約900字/音声約3分】
ミディアム【約2000字/音声約6分】
ロング【約4000字/音声約13分】
音声モデルについて、OpenAIのText-To-Speech(TTS)利用しました。
OpenAIのTTSには、6つの音声モデルがあるのですが、最も自然に感じた、【Nova・Shimmer・Onyx】を採用しました!NovaとShimmerは女性らしい声でOnyxは男性らしい声です。
また、音声を同時生成するか選べますが、台本の確認後生成可能です。
3.生成履歴
台本の生成が完了すると生成履歴に反映されます。
生成履歴では、直観的に【編集・コピー・削除・音声の再生や生成】が可能です。
音声モデルを変更したい場合は、希望の音声モデルを選択後、音声を再生成ボタンを押してください。また、台本の編集後は保存ボタンを押してから音声生成ボタンを押してください。
簡単な編集で完成
BGMと最後の挨拶の追加のみでできた作品を紹介します!タイトルは【地球の誕生について】です。設定はミディアム、Shimmerを選択。あとはプラットファームに投稿のみ。
開発してみて
音声モデルについてOpenAIのTTSを選択した理由は、GoogleやAmazonのTTS、VOICEVOXもテストしたのですが、OpenAIが最も自然に感じたからです。(読み間違いについても代表的なTTSで同じように発生しました)
読み間違えを最小限にするために、固有名詞や地名はカタカナ表記にするよう工夫しました。また、一度に長文を生成するのが苦手だった為、台本を複数のチャンクに分け生成してもらい文章量の安定性を確保しました。
追加で音声とBGMの合成自動化を試みましたが、UIが崩れたり、エラーが頻発したため今回は見送りました。また、最初の開発段階では第三者に公開することも考えていたのですが、今は個人利用にとどめ、より機能を拡張出来次第検討することにしました。
私は非エンジニアで、様々なエラーや台本のチャンク管理に苦労しましたが、何とか完成度高く収めることができ、Replit様様です!
改善点
1.音声の自動合成機能と自動投稿機能を実装すれば、完全自動化が可能。
2.始まりと締めの挨拶がさみしい気がするので、テンプレートを導入し改善が可能。
3.読み上げの際、読み間違えや不自然さがたまにあるので、TTSのアップデートを待つ、または国産のTTSサービスを活用し改善が可能。現段階でも英語バージョンを開発すれば高い実用性が期待できる。
おわりに
このアプリで台本音声を自動生成し簡単な編集だけでポッドキャストが出来上がるのでかなりの効率化が可能です。また、収録が一切不要なことでさらなる可能性を追求できたと思っています。
しかし、現段階では完全で聞きやすいポッドキャストではないと思いますので、別の声を学習させたBOTなども使用したりしてみたいですね。
今回開発してみて、改めてReplit Agentに感激しました。そしてこのようなハッカソンという発表する場がありうれしく思います。
お読みいただきありがとうございました。