Google Colab で はじめる OpenAI Whisper
「Google Colab」でOpenAIの「Whisper」を試してみました。
1. Whisper
「Whisper」は、OpenAIが開発した、会話音声をテキストに変換するニューラルネットです。英語の音声認識において人レベルに近い堅牢性と精度を持ちます。大規模で多様な教師付きデータセットにより、アクセント、背景雑音、専門用語に対して堅牢性を向上させています。
2. Colabでの実行
Colabでの実行手順は、次のとおりです。
(1) Colabで新規ノートブックを作成。
(2) パッケージのインストール。
# パッケージのインストール
!pip install git+https://github.com/openai/whisper.git
!sudo apt update
!sudo apt install ffmpeg
(3) 日本語の会話音声のwavファイルの準備。
今回は、つくよみちゃんの「VOICEACTRESS100_026.wav」で試しました。
(4) 右端のフォルダアイコンを押し、「..」で1階層上に移動し、contentの「︙」の「アップロード」からwavファイルを選択。
(5) 日本語の会話音声を日本語テキストに変換。
!whisper VOICEACTRESS100_026.wav --language Japanese
[00:00.000 --> 00:03.800] 現在、ニュージャージー州、ムーアズタオンに住んでいる
(6) 日本語の会話音声を英語テキストに変換。
!whisper VOICEACTRESS100_026.wav --language Japanese --task translate
[00:00.000 --> 00:04.060] Currently, New Jersey does habitually live.