![見出し画像](https://assets.st-note.com/production/uploads/images/38953528/rectangle_large_type_2_c0a3156c3bb053602792253ebbaea7f7.png?width=1200)
Chromeだけで動画にリアルタイムで字幕が付けられるスゴいサービスが登場!
朝、「七人の秘書」なんかを再生しながらまったりとFacebookのタイムラインを見ていると、落合陽一先生のフィードでスゴいものを見つけた。
タイトルまんまだが、とにかく面白そうだったので、サクッと試したら本当に期待通り、いや、期待以上の出来だったので興奮して思わずYouTubeも撮ってしまった。
要は、自動的に音声認識して字幕を表示できるんだけど、特筆すべきはかなり細かくパラメータ調整ができること。
「あーこりゃ自動翻訳あったらいいな」と落合先生のタイムラインに書いたら、実は既に自動翻訳は実装されていたという、さすがの先廻り感
まあ音声自動認識&自動翻訳なので、なぜか落合先生のタイムラインが「おじさんのタイムライン」になってしまっているが、それは僕の滑舌が悪いため。
これの面白いのは、自分にとってさっぱりわからない言語にも翻訳できてしまうこと。なぜか気分は国際的サムシングだ。ちなみにアラビア語は右詰めなので、そこまでは対応していないそう(とか書くとすぐに対応してくれそうなところがスゴい)
ヒンズー語に至っては完全にわからん。
なんとなくボリウッドのメディアにインタビューされてる気分?服装をもっとちゃんとすればそれっぽく見える可能性はある。
ふと、サングラスかけてスーツ着てやってみようかと思ったが、それでは単なるコラージュと変わらないので自重する。
開発したのは落合研OBの鈴木一平氏の模様。
Chromeで以下のURLを開けばすぐ使える。
https://1heisuzuki.github.io/speech-to-text-webcam-overlay/
ソースコードはここらしい
https://github.com/1heisuzuki/speech-to-text-webcam-overlay
ソースが公開されているので、極端な話、カスタマイズの可能性は無限に広がる。
ZOOMで使うにはもうひと工夫あるといいかもしれない。
たとえば、先日正式版がリリースされたmmhmmを使えば、スクリーンキャプチャをカメラとして配信できる(ややこしいが)
そうすると、自分がしゃべるときだけ日本語でも字幕が出るというわかりやすさに。
また、密かな英語のスピーチ練習として、発音言語を日本語以外にできるので
「Googleが聞き取れるギリギリの英語スピーチ」の練習にも役立つ。
また、認識した結果はログとして取り出すこともできるのがまた超便利で、一粒で何度でも美味しいという、実にハッカー魂を揺さぶられるツールである。
中身はGoogleのAPIを呼ぶだけなのだが、それでこれだけコロンブスの卵的なものに持っていける発想がほんとにスゴい。エンジニアリングとは別のメディアアート文脈ならではの実装力・実現力を感じた。
実際に使用している動画は以下
落合先生によれば、聴覚障害者向けに開発した技術を活用して、落合研究室、ピクシーダストテクノロジーズなどなどが連携していろいろやっているそう
所属研究室でのリモートミーティングで,どうやって音声認識を活用しているかGitHubにてまとめました!また,そこで発生した課題などについても触れていますので,ご興味のある方や参考にしたい方は是非どうぞ!
— Thetaθ Akihisa / Akihisa Shitara (@Theta_Tsukuba) May 20, 2020
▶︎GitHubhttps://t.co/eLViNHBy9o@labDNG @xdiversity_org #xdiversity pic.twitter.com/WD9T4aJBhY