音声認識で文字化を簡単に行おう!
1.イントロダクション
最近は、音声認識が手軽に出来るようになりました。
議事録や文字起こしも、これらを使えば簡単にできます。
また、インターネットラジオも個人で運用できるようになり、
LINEライブやTwitCastみたいな配信系も増えました。
そういうエンタテインメントをやり始めると、
次に課題になるのは「みんなに伝えたい!」ってところ。
まぁ、それなら… 音声で伝えられない環境が問題ならば
それを乗り越えられる道具をつかえばいい!というわけです。
道具はもうそろっていますが 案外とっかかりがないと
やりづらいんだわ!って声もよく聞くので、
取り掛かり方をちょっと書いてみましょう。
2.音声を文字に直すには
音声を文字に直す技術は、巷で「音声認識」と呼ばれています。
携帯電話によくついている、あれです。
「OK! Google」とか「Hey! Siri」とかいうやつ。
今回は、長い発話・会話につよい音声認識エンジンである
「AmiVoice® Cloud」をつかってみましょう。
このエンジンをつかうためには、これを採用しているアプリを
導入するのが一番手っ取り早い話になります。
市販されていて、すぐ手に入れられる…という条件なら
「UDトーク®」というものが最適です。
Apple製品なら AppStore から、Android系ならPlayStoreにあります。
まずはこれをダウンロードしましょう。
3.編集用アプリ
それから、編集用アプリ。
UDトーク®公式編集アプリもありますが、今回は高機能編集アプリの
「まあちゃん2017」を用います。
ダウンロードはここからできます。(Windows版のみ)
http://caption-sign.jp/?page_id=164
Mac OSXをご利用の方は、Bootcampで上記アプリを使うか、
UDトーク®公式アプリをつかいましょう。
ダウンロードしたら、ファイルを実行してインストールします。
もし「ブロックされた」と表示されたら、
詳細表示をおして、実行を押しましょう。
(これは回避できるようにしたいのですが 年間5万ぐらいかかるので
実質無料で提供しているソフトではコストが捻出できないのです。
すみません。企業採用やカンパで予算ができれば、対応します。)
4.トークルームを作る
まずは音声認識できる環境をつくります。
携帯電話でUDトーク®を起動します。
この画面がでたら、「今すぐトークを公開する」を押します。
そうすると、QRコードが表示されます。
上のボタンにある「招待」をおします。
この画面がでたら、ひとまず携帯は置いておきます。
5.パソコン側をつなぐ
まあちゃんを起動します。
まずは、UDトーク®とつなぐ設定をします。
通信→UDトーク®を選べば、設定を完了できます。
この時、インターネットにつながっていれば、
ユーザーIDが表示されます。
このユーザーIDを、先ほどの携帯にうちこみます。
このあと、招待をおしましょう。
接続先(講習会)が出てきますので、ダブルクリックして
接続しましょう。
これで、入力準備が完了しました。
5.音声を入れる準備をする
UDトーク®で音声認識をするためには、
音声トークスイッチを押して、話しかけるだけです。
しかしながら、音声認識はノイズや音の強弱などによって
認識の正確さにかなりの差が出ます。
できれば、マイクを使って、マイク~口元間の距離を
なるべく一定にして話しましょう。
マイクをつなげるためには、マイク接続用の変換ケーブルや
変換機材(iRig2)を使う方法があります。
安定して使うという意味では、iRig2での実績が多くありますので
これをお勧めしています。(Amazonや楽器屋で入手できます)
なお、最近のあたらしいiPhoneでは、Φ3.5のイヤホン端子がないので、
イヤホン用変換端子などを使うといいです。
(Apple公式アクセサリとして販売されてます。 )
iRig2のつなぎ方はUDトークマニュアルをみると、よくわかります。
マイク出力は、音声認識している間だけ出力されます。
パソコンなどで配信する場合には、この出力を音声入力につないで、
ボリュームは携帯端末の音量SWで調整する、といった感じで使います。
マイクを設置するのも…という感じのかたなら、
iRig Lavというピンマイクも販売されています。
この場合は、iRig Lavの出力端子を直接携帯端末にさして、
iRig Lavについているイヤホン端子をPCの入力に差す、という感じで
動画配信機器に音声を取り込むことができます。
6.実際に配信する
あとは、音声認識開始SW(携帯端末の下側にある赤いボタン)を
押して、話すだけです。
もし、このときの認識状況をインターネット越しに共有するなら、
iPhoneにVGA(もしくはHDMI)変換コネクタを指して、
画像配信先に取り込むか、視聴者が見える閲覧先アドレスを
配布する方法で実現できます。
このQRコードを配るか、メールで送信(もしくはコピー)で得られる
URLを視聴者に配りましょう。
相手がそのアドレスを利用してUDトーク®を起動すれば、
この画面がしっかり共有されます。
★このとき、下の選択肢は「閲覧のみ」を選びましょう。
そうしないと、見ている人が文章を書き換えたり、
文章をけしたりすることができてしまいます。
そうそう、大事なポイントが1つありました。
無料版では、認識に使った音声は音声認識精度のレベルアップに使われます。セキュリティとしては厳重に管理されますが、内容的に音声認識会社に
わたること自体問題となる場合は、法人契約やコンパクトプランといった
「音声を破棄するプラン」を活用しましょう。
また、完全無料版は一定時間で、音声認識が止まり、再度音声認識ボタンを
押していく必要があります。これを解除するためのアドインがあるので、
必要な人はこれを購入すれば、何時間でも連続認識が可能となります。
7.間違いを直す
もし、音声認識中に間違いがあったら、まずはマウスで
その行を押してみましょう。
そうすると、編集ができるモードに移行します。
編集中という水色の表示と共に書き換えができるようになるので、
間違っている所(例では錦→認識)に書き直します。
編集がおわったら、エンターキーを押しましょう。
これで、携帯端末のほうも修正されます。
(同時に、視聴者側の画面も変わります)
ちなみに、原稿に文章をいれて、カーソルを合わせ、
F1キーをおすとその行を送信することができます。
配信タイトルとか入れておくと楽ですよ。
8.要するに…
・事前に集める道具は、PC、携帯端末、マイクをつなぐ道具、マイク。
周辺機器は配信機材や構成によって変わる。
・ソフトをいれたら、招待して、編集PCと携帯端末をつなぐ。
・字幕を配信したければ、画面を取り込むか、接続用URLを配る。
・タップして話し、間違いはPCでさっと直す。
9.最後に
図解するとなんだかたくさんあるように見えますが、
なれれば5分以内に準備ができてしまいます。
この構成は色んなことに応用できるので、ぜひ活用してみてください。
開発したり研究したりするのに時間と費用がとてもかかるので、頂いたお気持ちはその費用に補填させていただきます。