AIによる文字起こしのコストを30%削減するテクニック

2024年4月22日 09:54

OpenAIのコミュニティに投稿されていた文字起こしについてのアイデアが面
白かった。

"クレイジーなアイデアか、実現可能か：テープ起こしコストを30％削減するテクニック"

生成AIのポッドキャストを運営していることもあり文字起こしは気になるのでメモ。

音声ファイルを軽くするアプローチ

Whisperで文字起こしをする時、音声ファイルの容量が軽ければいいよね？というアプローチ。

結果、音声ファイルを軽くできてコストを削減できるという考え。音声の処理はサーバー側で行う。

手動でするなら音声編集ツール使ってもよさそう。

ちなみにChatGPT(Data Analyst)でも音声ファイルの処理は可能で、シンプルなプロンプトでも無音部分を削除したり再生速度を速めることができる

オーディオファイルに対してpydubとffmpeg を使い無音部分を除去してください
オーディオファイルに対してpydubとffmpeg を使い再生速度をx倍にしてください。

pydubとffmpegはPythonのライブラリで音声ファイルを操作できる。
これで無音部分が除去され再生速度が速くなった音声ファイルをダウンロードできる。

2倍だと聞き取れないので1.2倍くらいが良い塩梅かも。この辺は話者の会話速度にもよるので個別に対応。

あと、他ユーザーが指摘しているようにキャプションを作成する時には考慮する必要がある。元の音声と削減した音声の経過時間に違いが出るため。
シンプルに文字起こししたいケースでは使えそう。

こういった声に応えておすすめの生成AIツールを解説する資料を制作しました。もっとAIの情報をキャッチアップしたい人はぜひご覧ください。
👉資料を受け取る

noteでも月に20本ほどAI関連の記事を投稿しています。フォローよろしくお願いします😼