動画配信に字幕をつける（その後）

*nao*

2018年12月30日 11:03

以前公開した「ゆかりねっとで音声認識字幕をつける」話題ですが、その後　いろんなやり取りがあって、続きができたので、すこし書いてみます。

「ゆかりねっと」とは

「ゆかりねっと」とは、作者（おかゆぅさん）が配布している、音声認識を応用した映像作成・配信者向けのアプリです。

いわゆる、音声変換…いや、次元変換機ともいうべきでしょうか。自分の発した声を音声認識して字幕化したり、自分のアバターとしてキャラクターに発声してもらったりするものです。

ゆかりねっと標準では、Google Chrome 経由で、Google音声認識をつかった字幕を提供しています。

せっかくなので、音声認識精度をあげる

昔、（私の興味半分でつくった「ゆかりねっとコネクター」）を公開して様子をみてみました。

個人的興味からつくったものでしたが、実際にどこまで実用に至るだろう？なんて思いもありました。なんせ、自分がバーチャルユーチューバーではないので、酷使する環境にないからです。

とはいえ、「こういうものは公開して反応があれば、そのときにもっと要望にこたえていけばいい」と思っているので、まずは使える形にして世に出しました。

そして、反響があった

公開してからしばらくして、花山茶菜さんから、書き込みが！

文字を出すだけを優先して実装していたけど、どうも「英語と日本語」両方出すニーズでつかわれているんだな、と実感。

そして、

ほ、ほほう！ってことで、どんな感じなのか、さっそく見に行くことに。定期的に配信されているようで、その世界では有名な方の1人のようです。

マジック・ザ・ギャザリング(MTG)。あぁ、なつかしい、親戚の兄ちゃんとよくやったなぁ。もうルール覚えてないけど。そういえば、このゲームもまた「専門用語」がおおいゲームだったなぁ。

MTGはカードゲームですが、いまは、ワールドワイドなネット対戦ゲームになっていて、世界規模で盛り上がっている、ってことのようです。

なので、ゲーム実況するとしても「字幕があると世界規模で楽しめる」って事なのでしょう。おお、音声認識ってこういう使われ方もするんだ！めっちゃおもしろい！

どうやって配信してるんだろ？

動画配信するとなると、OBSみたいなツールで合成して配信する、って感じかとおもいます。

なので、配信用PCでキャプチャ可能な状態にする必要があります。

どうも、ノウハウをきいたところ、Android版のUDトークと、エミュレーターBlueStacksをうまくつかっている、ってことでした。(ほかにもNoxってツールもあるらしいです。）

BlueStacksというツールをつかうと、AndroidアプリをPC上でうごかすことができます。これなら、PC上で音声認識することも可能…ですが、問題点が２つあります。

１．スマホでつかうときより認識精度が悪い。
　（マイクをつなぐなど工夫しないと音が綺麗に入らない）
２．ＵＤトークと直接通信ができない（NAT機能の弊害）

なので、この方式だと、認識がうまくいかないし、ローカル通信ができないから、ゆかりねっとコネクターと班組みができないのです

んじゃ、さっそく改良だ！

ってことで、今回、ゆかりねっとコネクター自体を、UDトークの招待機能（QR通信）に対応させました。

これにより、インターネットに到達できれば、班組みが可能になります。QRの場合は、音声認識に使う端末は、実際に手元にあるスマートフォンを使えばOKです。エミュレーター上のUDトークは表示につかい、ゆかりねっとコネクターもQR通信で文字をうけとります。

画面もわかりにくいだろう、ということで、レイアウトも書き換えました。

ちょっと、ゆかりねっとのデザインにも寄せてますが（笑）あ、これv1.1の画面です。

さっそく、曳山まつりかさんに使っていただいて、QRコードはうまーく配信できているのを確認いただきました。その様子をみつつ、MTGって難しいし戦略そうとう練らなきゃ勝てない高度なゲームだなー、とおもいました。(^^)

さて、実際に使っていただいているのをみて、感じたことは２つ。

１）Youtubeなら、字幕機能で多国語がみれたほうが、より良いよね
２）配信につかうシステムの数を減らして、もっと楽にしたいよね…

ってことで、v1.2でさっそく搭載してみました。

１つは、srtファイルが保存できる機能。まだ粗削りな機能ですが、これをつかえばYoutube自動翻訳で多国語字幕がつきます。

このファイルを使ってアップロードする方法は、ここに解説があります。ファイルをアップロードすれば、表示されていた文字列は入りますから、あとはタイミングを調整してあげれば、そのままクローズドキャプションの字幕として公開できます。

あとは、字幕機能。でも、これはゆかりねっとの字幕機能を使えば、実は必要ないのかもしれません。

まぁ、つかってみてください。右クリックすれば、いくつかメニューがでてきますが、時間がたったら文字が消える機能なども入れてあります。

これがうまくつかえたら、日本語だけならエミュレータ減らせるかもしれませんね。

ちなみに、まあちゃんの最新版では、英語(google翻訳)と日本語を両方1画面に出せる機能を追加しているので、1画面で済ませたかったらそちらを使う手もあります。

（ちなみに、Macをお持ちで、iPhoneで実践されている方がいましたら、ライトニングケーブルでMacとつないで、OBSを起動することでiPhone画面を直接配信することもできます。これならエミュレータつかわなくてもいい…のですが、ちょっと負荷が高いです。）

こうやって、成長していくのですね

いろんなユーザーのアイディアや活動を通して、ともにやりたいことが実現できる方向にすすめたら、これは素晴らしいことです。（いわゆる「スパイラルアップ」ってやつですね）

こうやって語ってますが、実はまだ調整が必要っぽいのです。

なので、もうちょっと調整しながら、実用に耐えるレベルにしていこうかな、と思います。いろんなソフトが関係しているとなかなか問題の切り分けが難しいですね。そういう意味ではログが吐ける機能とか、エラーメッセージを適切に出せる機能は必要かな。

という感じで、これからもっと広がっていくVチューバーの世界に、微力ながら貢献できたら、私もうれしいです。もう少し知見や情報得たら、ツールのノウハウとかも、ご紹介していけたらいいな。

興味があったので、試してみた。

どうも、いろいろ方法はあるみたいなんだけど、手短なものから順に。

音声認識は、UDトークとゆかりねっとコネクターをつかいます。

インタフェイスとして、もちろんゆかりねっとをつかいます。

声も合成で出したほうがずっと聞きやすいので、今回はCeVIO CS6をつかってみます。ベクターなどで簡単に購入できるし、ゆかりねっととも繋がる。

で、アバターはいろいろ種類があるんだけど、私は一番手軽なFeceRigをつかってみた。

アバターはダウンロードすれば種類あるんだけど、許諾条件を読み解くのが若干難しい。Youtubeで見たモデルはカスタムオーダーメイド3D2っぽい。

これを、OBS Studioで、レイアウトしてみます。

OBS Studioのソースで＋をおして、画面キャプチャを追加します。アバター、字幕、ゲーム映像をいれていきます。

背景の緑は、カラーキーやクロマキーで切り抜いて透明化できます。

そうやって作った画面がこんな感じ。これをそのままニコ生とか、Youtubeに配信したら、見事に配信完了…って感じですね。

やってみてわかったけど

これ、試してみたけど、英語だそうとおもったら、ここに字幕用のBlueStacksと、UDトークがいるんですね。まぁ、動かせないこともないけど、やっぱり使ってるちアプリがおおいよねぇ。

UDトークの翻訳結果は訳あって（大人の事情で）受け取れないので仕方ないんだけど、Google翻訳ぐらいなら搭載できるかな。そしたら、ゆかりねっとコネクターの字幕は英語で、ゆかりねっとの字幕は日本語で…って感じでだせるかも。

でもなー、Google翻訳だと英語の部分をカスタム辞書で精度UPできないからなぁ。翻訳品質を上げていけないのも微妙だな…。それならUDトークつかったほうが、まだいいか。（希望する人がいたら、その機能をつけてみようかな。）

ってことで、google翻訳で同じ画面に英訳をだせるようにプログラムを改良しました。(v1.3)。これ、googleとの通信でお金がかかるっぽいので、使ってみて便利だなーっておもったら、ぜひこのnote にサポートして頂けると助かります。そのカンパで翻訳費用を充当したいとおもいます。

そうそう、それから、ゆかりねっとの音声認識で帯域エラーが出ているっていう人がいるみたいだけど、音声認識との通信の問題だとしたら、この方法でUDトーク使えば解決するかもしれんので、ぜひこの方法ためしてみてね！

開発したり研究したりするのに時間と費用がとてもかかるので、頂いたお気持ちはその費用に補填させていただきます。