見出し画像

【文系OK】Whisperで文字起こしを自動化しちゃおう!無料で動くGoogleColaboコード公開

今回は、Google Colaboratory(通称Colab)とOpenAIのWhisperを使って、音声ファイルを自動で文字起こしする方法をご紹介します。以前から試していたので、コードがやっと安定して動くものが作れたので、記事として公開したいと思います。whisperは完全無料かつ、精度が高いのがポイントです。ド文系の自分でもできたので、取材記事作成などに役立てていただけたらと思います。
※無料で最後まで読めますが、もしコードを使っていただき、価値があると思っていただいたら、購入ボタンを押していただけると飛んで喜びます。

なぜ無料で使えるの?

このツールが無料で使える理由は主に2つあります:

  1. Google Colaboratoryの無料提供:Googleが機械学習や研究目的で無料で提供しているサービスを利用しています。

  2. Whisperの公開モデル:OpenAIが公開している音声認識モデルを使用しているため、追加のライセンス費用がかかりません。

ただし、大量の処理や長時間の利用には一部制限がありますので、ご注意ください。

準備するもの

  1. Googleアカウント

  2. 文字起こしをしたい音声ファイル(MP3、WAV、M4A、OGG形式)

手順

1. Google Colaboratoryを開く

  1. ブラウザでGoogle Colaboratoryにアクセスします。

  2. 「新しいノートブック」をクリックして、新しいプロジェクトを作成します。

2. ランタイムタイプを変更する

文字起こしの処理を高速化するために、GPUを使用します。以下の手順でランタイムタイプを変更しましょう。

  1. メニューバーから「ランタイム」→「ランタイムのタイプを変更」を選択します。

  2. 「ハードウェアアクセラレータ」のドロップダウンメニューから「T4 GPU」を選択します。

  3. 「保存」をクリックします。

なぜGPUが必要なのか: GPUは並列処理に優れており、音声認識のような複雑な計算を高速に行うことができます。CPUだけを使用する場合と比べて、処理時間を大幅に短縮できます。

3. 必要なライブラリをインストール

  1. 最初のセルに以下のコードを貼り付け、実行します(セルの左側の再生ボタンをクリックするか、Shift+Enterキーを押します)。

!pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
!pip install --upgrade tqdm tiktoken
ERRORが出てますが、動作に問題ありません

4.音源アップフォルダの作成

1.新しいコードセルを作成し(+コードボタンをクリック)、以下のコードを貼り付け、実行します。

import os
from google.colab import files

def create_folders():
    """必要なフォルダを作成する"""
    for folder in ["content", "download"]:
        if not os.path.exists(folder):
            os.mkdir(folder)
            print(f"{folder}フォルダを作成しました。")

def upload_files():
    """音声ファイルをアップロードする"""
    print("音声ファイルをアップロードしてください。")
    uploaded = files.upload()
    for filename in uploaded.keys():
        os.rename(filename, f"content/{filename}")
        print(f"{filename}を contentフォルダに移動しました。")

if __name__ == "__main__":
    create_folders()
    upload_files()
    print("フォルダの作成とファイルのアップロードが完了しました。")

2.このコードを実行すると、contentフォルダとdownloadファルダが作成されます。この段階で音源をcotentフォルダにアップしましょう。downloadフォルダは文字起こしが保存される場所です。

音源のアップロード:

  • Colabの左側のファイルメニューを開きます。

  • 'content'フォルダをクリックして開きます。

  • ファイルをドラッグ&ドロップするか、アップロードボタンをクリックして音源ファイルを選択します。

コードの出力にファイルアップボタンを仕込んでます

5. メインのコードを入力

  1. 新しいコードセルを作成し(+コードボタンをクリック)、以下のコードを貼り付け、実行します。

ここから先は

3,074字 / 1画像

¥ 500

この記事が気に入ったらチップで応援してみませんか?