動画から文字起こしするツールを試してみた
はじめに
とある界隈で、YouTube動画による発信がほとんどで文字による発信が少なく、検索も出来ないし長い動画も確認するのが大変という声があり、自分も以前からそう感じていた。
そこでYouTube動画が上がったら、自動でツールで文字起こし、もしくは字幕データをダウンロードして、その結果をブログ等に投稿することは出来そうだなと思った。
TwitterでΔ氏に教えてもらったりしたので、実際に文字起こしツールがどんなもんか試してみることにした。
1. YouTube Data APIのCaptions: downloadを使う方法
YouTube公式のAPIを使って字幕データを取得する方法。少し調べた感じだと自分のアカウントでアップロードした動画からじゃないと取得できなそうなのと、コードを書く必要があって面倒そうなので今回はスルーした。
2. youtube-dlを使う方法
youtube-dlはコマンドラインからYouTubeの動画をダウンロード出来るツールだが、オプションで字幕データも取得できるようだ。
コマンドラインなので自動化するにも都合が良さそう。
macOSだとHomeBrewで簡単にインストールできた。
字幕のオプションについてはΔ氏に教えてもらったものと、こちらの記事が参考になった。
字幕ファイルの種類は全種類試しに出力してみたが、xmlでもあるttml形式が個人的には加工しやすそうだなと感じた。
試しにこちらの1分57秒の動画から字幕を抜き出してみることにした。
取得できた字幕データはこのような感じ。
はいえー和泉市の選挙に勝って nhk をぶっ壊すということで
英霊は2年2020年8月25日17:0007分であります
ちょっとねさっきの動画でツイッターでの冥府ソンっていうのをですね
早速明日もできますこれきました今ツイッターの登記簿がきましたので
でこのようにアメリカ納刀規模な
んですけれども届いておりますでちょっとねと立ち話年っていうはものについては
a その名誉感情みたいなものの侵害なのでまぁそりゃ名誉感情の侵害というのが
ちょい微妙で名誉毀損というのは橘が反射
反射区
勢力の人間だとかですね立場が詐欺をしているとかですね
ちょっとそういうあの具体的な書き込みをですね
見つけたら是非
ご連絡をいただきたいと思いますこれなくというのはツイッターで僕にこういうのは
ありますよというのはちょっと送ってもらうか
まあできたらツイッターで僕のツイッターなくてもらってありがたいですね
twitter 上の書き込みでこういうのがありますっていうのをそのままつけて
僕の後あってやれ橘ティアとまからとまた千村 t の方に贈ってもらえればあの北2
とあの変なことが不足するのはブロックしてるんで見れないんですけども
ですからう6されてない人がですね橘
詐欺とか鉢花
反射とか
あとどうだろうな
まあ皆さんが見てですねこれは明らかに
橘に対する
メイソンというものだというものについてはですねちょっと送ってもらえればこちらで
ピックアップして出しますのでよろしく御協力よろしくお願い致します
以上です a
和泉市の選挙に勝って nhk をブッ子は明日からの1トル首位
このままブログにアップロードするにはちょっと厳しそうだなと感じた。
3. Vrewを使う方法
これは動画データの音声から実際に文字起こしするツール
実際に起動して動画を読み込んでみたスクリーンショットはこのような感じ。
Vrewは動画を再生しながら字幕を修正したりすることも出来るようだ。
Vrewを使って字幕データを出力したものがこちら
和泉市の選挙に勝って
nhkをぶっ壊すということで
2年2020年8月25日
じゅーななじじゅーななふんであります
ちょっと眠そうですね
早速明日もうできました
今twitterの希望が来ましたので
このアメリカの登記簿なんですけども
届いております立花品物については
その名誉感情みたいなものの侵害なので
枕名誉感情の侵害って9月
微妙っていうのは
橘が反射反社会勢力と人間だとかですね
立花が作業してるとかですね
ちょっとそういう具体的な書き込みをですね
見つけたら是非
twitterで
僕にこういうのはありますよって送って
もらうからできたで
こういうのがありますって送ってもらえれば
あの変なことがブロックされたですね
立花反射とかあとどうだろうな
まあ皆さん上手ですね
他に対するそういうものだ
というものについては
ちょっと送ってもらえば
こちらでピックアップして出しますので
よろしく
よろしくお願いします以上です
和泉市の選挙にかかるの
YouTubeの字幕データの方が精度高いような・・?
まとめ
これ以外にも文字起こしツールは探せば色々ありそうだが、現在分かってる範囲だとYouTubeの字幕データを使うのが良さそうかなと。
自動化する流れはこのような感じ
・対象のYouTubeチャンネルが動画を上げたかを監視
・youtube-dlで動画を読み込み字幕ファイルを出力
・字幕ファイルを加工してテキストに
・テキストをブログにアップロードして公開
ただし、字幕データのままの文字起こしだと分かりづらいので、実用的には複数人のチームを作り文字起こしテキストを修正するのが良いと思われる。
ブログだと同時に編集するのは厳しそうなので、いったんGoogleドキュメントなんかの共同編集できるツールを用いて編集した方がいいのかも。
2分弱の動画の自動文字起こしを実際に修正してみたところ、結構時間かかった。動画見ながらなので、動画の時間の数倍は余裕でかかってしまうのでよほど時間が余ってないと大変だなと感じた。
そのうちYouTubeの字幕生成の精度が向上して、手で修正する手間も減るといいんだけどね。
おわり