【文系OK】Whisperで文字起こしを自動化しちゃおう!無料で動くGoogleColaboコード公開
今回は、Google Colaboratory(通称Colab)とOpenAIのWhisperを使って、音声ファイルを自動で文字起こしする方法をご紹介します。以前から試していたので、コードがやっと安定して動くものが作れたので、記事として公開したいと思います。whisperは完全無料かつ、精度が高いのがポイントです。ド文系の自分でもできたので、取材記事作成などに役立てていただけたらと思います。
※無料で最後まで読めますが、もしコードを使っていただき、価値があると思っていただいたら、購入ボタンを押していただけると飛んで喜びます。
なぜ無料で使えるの?
このツールが無料で使える理由は主に2つあります:
Google Colaboratoryの無料提供:Googleが機械学習や研究目的で無料で提供しているサービスを利用しています。
Whisperの公開モデル:OpenAIが公開している音声認識モデルを使用しているため、追加のライセンス費用がかかりません。
ただし、大量の処理や長時間の利用には一部制限がありますので、ご注意ください。
準備するもの
Googleアカウント
文字起こしをしたい音声ファイル(MP3、WAV、M4A、OGG形式)
手順
1. Google Colaboratoryを開く
ブラウザでGoogle Colaboratoryにアクセスします。
「新しいノートブック」をクリックして、新しいプロジェクトを作成します。
2. ランタイムタイプを変更する
文字起こしの処理を高速化するために、GPUを使用します。以下の手順でランタイムタイプを変更しましょう。
メニューバーから「ランタイム」→「ランタイムのタイプを変更」を選択します。
「ハードウェアアクセラレータ」のドロップダウンメニューから「T4 GPU」を選択します。
「保存」をクリックします。
なぜGPUが必要なのか: GPUは並列処理に優れており、音声認識のような複雑な計算を高速に行うことができます。CPUだけを使用する場合と比べて、処理時間を大幅に短縮できます。
3. 必要なライブラリをインストール
最初のセルに以下のコードを貼り付け、実行します(セルの左側の再生ボタンをクリックするか、Shift+Enterキーを押します)。
!pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
!pip install --upgrade tqdm tiktoken
4.音源アップフォルダの作成
1.新しいコードセルを作成し(+コードボタンをクリック)、以下のコードを貼り付け、実行します。
import os
from google.colab import files
def create_folders():
"""必要なフォルダを作成する"""
for folder in ["content", "download"]:
if not os.path.exists(folder):
os.mkdir(folder)
print(f"{folder}フォルダを作成しました。")
def upload_files():
"""音声ファイルをアップロードする"""
print("音声ファイルをアップロードしてください。")
uploaded = files.upload()
for filename in uploaded.keys():
os.rename(filename, f"content/{filename}")
print(f"{filename}を contentフォルダに移動しました。")
if __name__ == "__main__":
create_folders()
upload_files()
print("フォルダの作成とファイルのアップロードが完了しました。")
2.このコードを実行すると、contentフォルダとdownloadファルダが作成されます。この段階で音源をcotentフォルダにアップしましょう。downloadフォルダは文字起こしが保存される場所です。
音源のアップロード:
Colabの左側のファイルメニューを開きます。
'content'フォルダをクリックして開きます。
ファイルをドラッグ&ドロップするか、アップロードボタンをクリックして音源ファイルを選択します。
5. メインのコードを入力
新しいコードセルを作成し(+コードボタンをクリック)、以下のコードを貼り付け、実行します。
ここから先は
¥ 500
この記事が気に入ったらチップで応援してみませんか?