Premiere Proの文字起こし機能で字幕作業の効率がかなり上がりました

2022年6月29日 16:12

最近投稿した２本の動画ですが、こちらは字幕作成にPremiere Proの「文字起こし」機能を使用しました。「文字起こし」は、音声認識エンジンで話している内容からテキストを生成する機能です。さらにこのテキストデータから字幕レイヤーを生成することができます。

Adobeの公式ドキュメントはこちらです。

https://helpx.adobe.com/jp/premiere-pro/using/speech-to-text.html

実は文字起こし機能のことを少し敬遠していたのですが、実際に使ってみてもっと早く使っておけばよかったと思い直しました。Premiere Proで動画編集されている方は一回使ってみるべきです。（そしてもっといいソフトがあったら教えてください。）

この記事では文字起こし機能のどこがいいのかについて紹介します。

なんでこの機能を敬遠していたか

まずそもそも、動画編集における字幕作成というのは本当に苦痛です。動画の音声を聞いて日本語に起こし、区切る場所を決め、字幕レイヤーを置いて調整し、誤字脱字がないかチェックして完成です。とにかく単純作業やドラッグアンドドロップ操作が多く、精神的にも肉体的にも疲れます。

作業負荷を軽減するために、私が担当している動画制作のフローでは……

台本を作る
撮影時に出演者は台本を読み上げる
編集ソフトでにマージする

という手順を踏んでいます。図で書くとこんな感じです。

台本を形態素解析して整形するスクリプトやAfter Effects スクリプト等を作り、作業工程を圧縮する努力はしているのですが、このフローには大きな弱点があります。それは「台本ファイルが無い状態で撮った動画」を編集するのには使えないということです。そして、今回編集した動画がまさに台本ファイルが無い動画でした。

Premire Proに「文字起こし」機能が登場した頃は、誤認識の修正やら調整やらが面倒くさそう and 今のフローの方が楽そうだったので敬遠していました。ただ、今回の動画で作業フローを変えざるを得なくなり、真面目にPremiere Proの「文字起こし」機能を触った結果考えを改めました。

字幕編集作業がこんなに楽になっているとは正直思いませんでした。

日本語の認識精度はそこそこ良い

Premiere Pro のワークスペースを「キャプションとグラフィック」に切り替えると表示される「テキスト」パネルから文字起こしを開始することができます。

実際文字起こしをやってみるとそこそこ良い精度で変換をしてくれます。はきはきと喋っている音声で、ノイズをしっかり除去すれば体感で７割くらいはちゃんと生成されています。さすがに専門用語は変換されませんでしたが、辞書登録機能もあるようなのでこれを使ってみてもいいかもしれません。

ですので、人間による修正の必要はある程度あるものの、一から人力で文字起こしするよりは圧倒的に楽です。

……が、Premiere Pro の文字起こし機能が本当に素晴らしいのは認識精度ではありません。それが次に紹介する編集機能です。

文字起こし結果の編集機能

ということで本命の編集機能です。文字起こし自体はGoogle音声認識APIなど使えば似たような結果が得られるわけですが、実際にはこのあといくつかの作業を行います。具体的にはこんな感じです。

誤認識の修正
テキストを読みやすいように分割
テキストの表示開始終了タイミング調整
字幕のテキストレイヤーを作成

まず３番目の時間合わせですが、文字起こしをした直後はテキストがある程度の長さで分割されており、そこへ開始時間・終了時間がマッピングされています。

黄文字が開始時間と終了時間

そのため文字起こしの直後はタイミング合わせは既にOKの状態です。
ですがこの後、誤認識の修正やテキストの分割の作業をやり始めてタイミングがずれてしまうと面倒ですよね？
安心してください。この編集機能は誤認識を修正しようが、テキストを分割しようが、タイミングを合わせてくれます。

試しに以下のポイントで分割してみます。

分割するとこうなります。

分割前と後の開始終了時間に注目してください。元々は0→40秒だったのが、分割後は0→26秒、26秒→40秒になっています。Premiere Proの文字起こしの編集機能は文節単位でタイミングを見ていて、分割・結合や、誤字の修正をしたとしても追従して位置合わせを行います。

そのため、時間合わせに意識をあまり割くことなく、誤字修正や分割に集中することができます。

どのぐらい楽か

Premiere Proから離れなくてもいいというのが精神的にすごく楽です。

Premiere Proで完結しているので、例えば文字起こし画面で文節をクリックすると、それに連動して動画の編集位置も移動します。その逆も然りです。

文字起こしが終わった後はキャプションの作成メニューから字幕用のテキストレイヤーを生成してくれます。テキストの分割位置に特にこだわりが無ければこの機能一発でまとめて生成してくれます。

ただ、私はテキストの分割位置にはこだわりたいので、文字起こし機能からCSVに出力し、SRTファイルへ加工し、キャプションの機能で取り込む、というフローをやっていたりします。この作業を一発で行える機能が欲しかったりします。

また、テキストを分割するボタンをショートカットキーに割り当てたいのですが、今のところその機能は無さそうでした。今後編集作業をキーボードで素早く行えるようにしてもらえると嬉しかったりします。

ということで、まだ改善してほしいポイントはある（私が知らないだけかもも……）のですが、実際やってみて作業は結構楽に終わりました。とはいっても単純作業はそれなりにあるので、エナドリでも飲みながら粛々と手を動かしています。

まとめ

ということでPremiere Proの文字起こし機能の紹介でした。Adobe製品のAI系の機能は本当に便利ですね。PhotoShopのニューラルフィルターも本当に感動します。ですので、食わず嫌いはせずどんどん実践投入してみることを肝に銘じたいと思います。