【文系OK】Whisperで文字起こしを自動化しちゃおう！無料で動くGoogleColaboコード公開

2024年7月24日 23:22

今回は、Google Colaboratory（通称Colab）とOpenAIのWhisperを使って、音声ファイルを自動で文字起こしする方法をご紹介します。以前から試していたので、コードがやっと安定して動くものが作れたので、記事として公開したいと思います。whisperは完全無料かつ、精度が高いのがポイントです。ド文系の自分でもできたので、取材記事作成などに役立てていただけたらと思います。
※無料で最後まで読めますが、もしコードを使っていただき、価値があると思っていただいたら、購入ボタンを押していただけると飛んで喜びます。

なぜ無料で使えるの？

このツールが無料で使える理由は主に2つあります：

Google Colaboratoryの無料提供：Googleが機械学習や研究目的で無料で提供しているサービスを利用しています。
Whisperの公開モデル：OpenAIが公開している音声認識モデルを使用しているため、追加のライセンス費用がかかりません。

ただし、大量の処理や長時間の利用には一部制限がありますので、ご注意ください。

準備するもの

Googleアカウント
文字起こしをしたい音声ファイル（MP3、WAV、M4A、OGG形式）

手順

1. Google Colaboratoryを開く

ブラウザでGoogle Colaboratoryにアクセスします。
「新しいノートブック」をクリックして、新しいプロジェクトを作成します。

2. ランタイムタイプを変更する

文字起こしの処理を高速化するために、GPUを使用します。以下の手順でランタイムタイプを変更しましょう。

メニューバーから「ランタイム」→「ランタイムのタイプを変更」を選択します。
「ハードウェアアクセラレータ」のドロップダウンメニューから「T4 GPU」を選択します。
「保存」をクリックします。

なぜGPUが必要なのか： GPUは並列処理に優れており、音声認識のような複雑な計算を高速に行うことができます。CPUだけを使用する場合と比べて、処理時間を大幅に短縮できます。

3. 必要なライブラリをインストール

最初のセルに以下のコードを貼り付け、実行します（セルの左側の再生ボタンをクリックするか、Shift+Enterキーを押します）。

!pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
!pip install --upgrade tqdm tiktoken

4.音源アップフォルダの作成

1.新しいコードセルを作成し（+コードボタンをクリック）、以下のコードを貼り付け、実行します。

import os
from google.colab import files

def create_folders():
    """必要なフォルダを作成する"""
    for folder in ["content", "download"]:
        if not os.path.exists(folder):
            os.mkdir(folder)
            print(f"{folder}フォルダを作成しました。")

def upload_files():
    """音声ファイルをアップロードする"""
    print("音声ファイルをアップロードしてください。")
    uploaded = files.upload()
    for filename in uploaded.keys():
        os.rename(filename, f"content/{filename}")
        print(f"{filename}を contentフォルダに移動しました。")

if __name__ == "__main__":
    create_folders()
    upload_files()
    print("フォルダの作成とファイルのアップロードが完了しました。")

2.このコードを実行すると、contentフォルダとdownloadファルダが作成されます。この段階で音源をcotentフォルダにアップしましょう。downloadフォルダは文字起こしが保存される場所です。

音源のアップロード：

Colabの左側のファイルメニューを開きます。
'content'フォルダをクリックして開きます。
ファイルをドラッグ&ドロップするか、アップロードボタンをクリックして音源ファイルを選択します。

5. メインのコードを入力

新しいコードセルを作成し（+コードボタンをクリック）、以下のコードを貼り付け、実行します。

ここから先は

3,074字 / 1画像

¥ 500

ログイン

この記事が気に入ったらチップで応援してみませんか？