英語の自動書き起こし方法とその精度
パソコンで動画ファイルの音声を無料のアプリを使って書き起こして、翻訳アプリによる翻訳までしてみました。
題材はこちら
昨日、ラグビーワールドカップで予選プールBの緒戦、南アフリカ戦を勝利したニュージーランド代表、オールブラックスが観客にお辞儀をしているシーンです。
手順は、
① サウンドの入力設定をステレオミキサーにする
② 音声入力が使えるアプリの音声入力をONにする
③ 動画などを再生する
となります。
サウンドの設定はデフォルトだとマイクになっていると思いますがこれを変更します。なお「ステレオミキサー (OSの種類)」の検索して解説記事がいろいろあると思いますが、それほど古くない機種ではたいていの場合内蔵されていて、デフォルトではデバイスとして表示されないようになっていることが多いようです。
入力をステレオミキサーとすることで、音声入力で認識される音声がパソコンで再生した音声になります。
音声入力が使えるアプリは、ネット記事等をみるとWindowsではグーグルドキュメントが一番いいとされているものが多いですね
今回はグーグルドキュメントとグーグル翻訳を使ってみましたが結果は同じでした。
音声入力による実際の動画の書き起こし結果は以下の通りでした。
Chi-Chi's go through from each pool will be It All Blacks the windows take that out happy South Africa
これを自動翻訳でかけると
Chi-Chiが各プールから通り抜けるのは、窓が幸せな南アフリカを奪うIt All Blacksです。
ライブ中継の背景音が大きめとはいえ精度は低いですね。人間(自分)の耳で何回か聞いて書き起こすと
two teams go through from each pool,this is pool B,the All Blacks the winner take their bow,happy.South Africa,
各プールから2チームが通過します。これはプールBです。勝者のオールブラックスがお辞儀をして、ハッピー。南アフリカ
となりそうです。
ただし精度は低くても、何もないところから聞き取りだけで起こすよりは、部分的にでも文章として上げてくれた方が作業はしやすく、少し効率は高まると感じます。