見出し画像

YouTube ライブ配信において「ライブ自動字幕起こし」をする方法

本記事は kubell Advent Calendar 2024 シリーズ2 および アクセシビリティ Advent Calendar 2024 5日目の記事です🎄🦌🌟

株式会社kubell(旧 Chatwork株式会社)ブランドエクスペリエンスユニット コミュニケーション部の@shibumariです。

私の所属するコミュニケーション部では、社内に向けてYouTube ライブを用いた動画配信を行っています。
全社総会「kubell CAMP」、オンライン月次会議「kubell-ba」、そして私が編集長を務める社内向けライブ配信メディア「kubelive」など、様々なアプローチでkubellの戦略やMVV、カルチャー、共に働く仲間についてなどをお伝えしています。

kubellグループでは様々なハンディキャップがある仲間が働いており、合理的配慮やよりよいコミュニケーション環境構築の取り組みのひとつとして、リアルタイムで情報共有をするために動画配信におけるライブ自動字幕起こしの対応を行っています。
本記事では、その手法を皆さんにも共有し、多くの人にライブ自動字幕起こしの機能を活用していただければと思います。


YouTube ライブに自動字幕起こし機能はないの?

YouTubeの自動字幕の機能は多くの方がご存知だと思いますが、YouTubeの"ライブ配信"での自動字幕起こし機能は、2024年12月現在は英語にのみ対応しており、日本語での提供がありません。
ライブ配信が終了し、アーカイブ動画となってから通常数時間〜数十時間後には、自動字幕起こし機能によって字幕がつきますが、リアルタイムで自動字幕起こしを行いたい場合は、何らかの工夫が必要となります。

OBS Studioを使って、自動字幕起こしを表示させる

私たちがYouTube ライブ配信を行う際は、ライブ配信用ソフトウェアのOBS Studioを使用しています。
OBS Studioを使うと、画像や複数のカメラの映像、HTMLファイル、PCの画面キャプチャなど、様々な情報を配信画面上で合成することが可能です。

月次会議「kubell-ba」の配信シーン。ひとつの画面に、様々な要素を組み合わせています。

今回は字幕のシステムを配信画面上で合成することによって、自動字幕起こし機能を盛り込みたいと思います。

文字起こしアプリ「UDトーク」を使ってみる

音声認識をして、自動で文字起こしを行ってくれるサービスは様々ありますが、特に有名なものに「UDトーク」というアプリケーションがあります。
UDトークに音声を聞かせるだけで、会話が即座にテキスト化されます。リアルタイムな会話にも使用可能で、テレビドラマ「星降る夜に」や「Silent」でも、聴覚障害の方が実際にUDトークのアプリを使用するシーンがあったので、ご存じの方もいらっしゃるのではないでしょうか。
UDトークはiOS版とAndroid版のモバイルアプリの提供があり、無料で利用ができます。また、読み込んだ音声データが再利用されない法人向けのプランもあるので、必要に応じてプランを選ぶとよいでしょう。

OBS StudioにUDトークを組み込む

上述のとおり、UDトークはモバイルアプリなので、ひと工夫してPC上のOBS Studio上に組み込まなければなりません。
私たちは通常はMacBook Proを使用して動画配信を行っているので、Macでの配信方法を記載していきます。

1. Macのアプリケーション「App Store」で、UDトークをダウンロードする

「UDトーク」でワード検索をすると、「iPhoneとiPadのアプリ」のタブに表示されるので、予めMacにUDトークをダウンロードします。

App StoreでUDトークをダウンロードします。

2. UDトークのアプリケーションを起動して、トークを開始する

「設定」メニューから、フォント、フォントサイズ、フォントウェイト、ふりがなの有無、自分が話す言語など様々な設定ができるので、ご自身の都合に合わせて調整し、トークを開始します。

「トークを始める」ボタンから音声入力画面を表示します。
画面下部の赤いマイクのボタンから、音声認識を開始できます。

3. OBS StudioでUDトークの画面をキャプチャする

UDトークを開いたままOBS Studioを立ち上げ、字幕を入れたい任意のシーンを選択して、UDトークの画面を配信映像上に合成していきます。

ソース画面の + ボタンから、「macOS スクリーンキャプチャ」を選択します。
「新規作成」で、字幕と分かりやすい任意の名前をつけます
作成した字幕のソースを、ダブルクリックします。
プロパティで、"方式:ウィンドウキャプチャ"、"ウィンドウ:UDトーク"を選択し、
UDトークのアプリケーション画面を取り込みます。
キャプチャしたくない部分をトリミングして、画面の見た目を整えます。

デザインとしてなじませる、ひと工夫

OBS Studio上で合成する、UDトークのキャプチャ画面の下に敷くテロップ画像(いわゆるザブトン)は、背景をUDトークの背景色に合わせると、合成した時に境界が見えず、画面になじみます。
選択できる背景色は白(#FFFFFF)または黒(#000000)です。

メニュー → トーク設定 → 背景色の設定で、白か黒を選べます。
Figmaで作成しているデザインデータ。
この画像をOBS Studio上で、カメラの画像などと合成します。
左下の画面に、UDトークの字幕が表示されています。
白い背景なので画面になじみ、デザインに統一感があります。

Windowsの場合は…?

私たちの配信体制もアップデートを重ねてきており、過去にはWindowsのゲーミングPCでも配信をしていたことがありました。基本的にはMacでの配信と同様の構成で、Windows版のOBS Studioを使用していました。
その際には、BlueStacksというandroidのエミュレーターをインストールし、エミュレーター上でandroid版のUDトークを動かし、アプリケーション画面をOBS Studioでキャプチャする、という手法を取っていました。

単語登録でより便利に!

UDトークの素晴らしい点として、単語登録ができるところが挙げられます。
人名や組織名、サービス名、MVVなど、会社としての発信となると自動変換されにくい固有名詞がたくさん出てきます。
UDトークはCSVファイルから単語の一括インポートが可能なので、全社総会などでは、台本や発表スライドから、事前に発言が予想される新単語や人名を、毎回事前登録しています。

自動変換されにくい名称や、MVVのワードなどを登録しています。

その他の方法、UDトークの「外部字幕サービス連携」

今回取り上げた自動字幕起こしの表示方法の他に、2024年5月に公開されたUDトークの新機能、YouTube Liveの字幕(クローズドキャプション)に送信する方法があります。
この手法を使うと、OBS Studioを使わずに、YouTubeとUDトークのみで自動字幕起こしを表示させることができます。
この方法ではOBS Studioを使用したときのように字幕をデザイン要素に組み込むことはできませんが、ミニマムな構成で字幕表示を始められるという利点があります。

この機能はアクセシビリティのイベントであるGAAD(Global Accessibility Awareness Day)Japan 2024に合わせて開発された機能だそうです。
UDトーク開発者の青木さんは、GAAD Japan 2024でUDトークについてのセッションでご登壇もされました。

最後に

このようにして、kubellのコミュニケーション部では試行錯誤を重ねながら、多くのメンバーに情報がきちんと届くように、配信での工夫を行っています。
kubellでは現在、一緒に働く仲間を募集中です!
ご興味がありましたら、ぜひ募集要項をチェックしてみてください。


いいなと思ったら応援しよう!