見出し画像

AIによる文字起こしのコストを30%削減するテクニック

OpenAIのコミュニティに投稿されていた文字起こしについてのアイデアが面
白かった。

"クレイジーなアイデアか、実現可能か:テープ起こしコストを30%削減するテクニック" 

生成AIのポッドキャストを運営していることもあり文字起こしは気になるのでメモ。

音声ファイルを軽くするアプローチ

Whisperで文字起こしをする時、音声ファイルの容量が軽ければいいよね?というアプローチ。

  • 音声の無音部分を削除

  • 音声の再生速度を速める

結果、音声ファイルを軽くできてコストを削減できるという考え。音声の処理はサーバー側で行う。

画像引用

手動でするなら音声編集ツール使ってもよさそう。

Data Analystで音声ファイルを操作する

ちなみにChatGPT(Data Analyst)でも音声ファイルの処理は可能で、シンプルなプロンプトでも無音部分を削除したり再生速度を速めることができる

オーディオファイルに対してpydubとffmpeg を使い無音部分を除去してください
オーディオファイルに対してpydubとffmpeg を使い再生速度をx倍にしてください。

pydubとffmpegはPythonのライブラリで音声ファイルを操作できる。
これで無音部分が除去され再生速度が速くなった音声ファイルをダウンロードできる。

ChatGPT

考慮点

2倍だと聞き取れないので1.2倍くらいが良い塩梅かも。この辺は話者の会話速度にもよるので個別に対応。

あと、他ユーザーが指摘しているようにキャプションを作成する時には考慮する必要がある。元の音声と削減した音声の経過時間に違いが出るため。
シンプルに文字起こししたいケースでは使えそう。

【note読者限定】生成AIのおすすめツールの資料を配布中

  • 生成AIツールは何を使えばいいか分からない

  • もっと業務効率化に貢献するツールを知りたい

  • ChatGPT以外のAIツールを知りたい

こういった声に応えておすすめの生成AIツールを解説する資料を制作しました。もっとAIの情報をキャッチアップしたい人はぜひご覧ください。
👉資料を受け取る

noteでも月に20本ほどAI関連の記事を投稿しています。フォローよろしくお願いします😼

いいなと思ったら応援しよう!