見出し画像

最近の音声文字変換に関するムーブメントとは何かを常に考えている #xdiversity / #xDiversity_Subtitle

実は最近このムーブメントはなんだっただろうかと頭のどこかで廻らせている.

コロナの影響を受けて,所属研究室でのミーティングもリモート形式に移行した.それを機に,一気にあれこれと試行錯誤した.そんなときに落合さんがこれはどうよ?とやってみせたのが,上記の記事の通りである.

そのときに一旦これまで試行錯誤してきた知見を公開しても良いかと相談し,落合さんもやろうと承諾してくださり,速やかに公開作業に取り掛かった.

これを通して,改めて日本社会の縮図を見えかけたのか思いやられたのがある.

何故,頑としてテクノロジーを積極的に取り入れようとしないのか

これは落合さんも上記の記事でも触れていた通り,テクノロジーで全て解決しようと思っていなくて,でも1つ1つ問題を解決していくのにはテクノロジーが必要だし,実際に時代背景や社会環境などの要因でテクノロジーがありふれているし,そこまでして頑としてまでという理由が分からない.

しかし,ただ公開しただけにも関わらず,簡単にムーブメントになってしまい,いくつかと誤解されているような感覚に陥ってしまっている.本当にこれで良かったのかと頭のどこかで廻らせているし,いくつかコメントをもらってて,こちらの意図があまりにも伝わらなさすぎて困惑している.

・そんなことするよりも,Web会議システム開発している会社へ要望した方が早いじゃない?
・わざわざ文字を目立たさせるの?他の人にとって邪魔じゃない?
・ろう者を逆に差別化しようとしているの?難聴者を優先しようとしているの?
・某アプリを使わないんだ?意識が高い人はそっちにいくんだね.

1つ1つ反論させてほしい.

そんなことするよりも,Web会議システム開発している会社へ要望した方が早いじゃない?
それはそうであるが,どうしようもない時に黙って見てろってことになりたくないからこそ,自分でハッカソンできるようにレシピを公開しただけであるし,言葉だけでもどうしたら良いかニュアンスが伝わらないのもあるだろうから,こんな感じで見せるだけでも参考になるので,遠回りではないです.(実際にその後に複数社がサービスの中に新しい機能として加えてくれたそうです,本当に感謝の気持ちでいっぱいです.)

わざわざ文字を目立たさせるの?他の人にとって邪魔じゃない?
逆にクローズキャプションだと,誤変換や表示されないとかで余計気になりませんか?また,置いてボッチにしますか?
私はそれが嫌ですし,相手にも修正とかで手を掛らせたくない気持ちもあったので,話者へのフィードバックとして目立たさせる話者が誤変換とかを把握できた状態で言い換えたりすることが可能にしています.
これは落合さんや他のメンバーと話し合った上でこうしましたが,それが嫌であれば,文字の大きさや文字の表示画面のサイズを調整すれば良いわけですし,それぞれ各自で話し合って調整してもらえばと思っています.

ろう者を逆に差別化しようとしているの?難聴者を優先しようとしているの?
音声で話せる人ばかりで,手話で話す人のことをちょっとも考えてない!!とか言われても,それは確かにそうだなぁと認めるしかないのは確かであって,どうしようもできない.ただ,この記事を参考にし,手話通訳を配置してみたりすることは可能ではないかと思っている.

リアルタイム配信の授業で離れた場所から手話通訳を行いたい,PEPNet-Japan 事務局より

手話通訳を配置できなかったら,上司や同僚と相談して,議事録をGoogleドキュメントとかのリアルタイムで同時編集できるツールを使い,そこにリアルタイムで書き込むなどの対応策もある.

手話認識はまだなの?とかはあると思うが,技術的には可能である.ただ,あまりにもマルチモーダルで統合しないといけないし,顔の表情を用いる,空間を用いる文法へ反映していくまでには進んでいないのが現状である.
(手の形を認識できればいいでしょというわけではない.)

某アプリを使わないんだ?意識が高い人はそっちにいくんだね.
いや,ちょっと?あくまで私のニーズに合わせた結果,某アプリではなく別のアプリを用いただけで意識が高いってステレオタイプに判断しないでください?別の人がニーズによって某アプリも使えますよって補足説明してあります.選択肢があると丁寧に説明しています.意識が高いからどうかという話ではないですし,自分でハッカソンできるようにカスタマイズできるようにレシピで話しています.(もしも意図を受け取れなかったら,丁寧に書き直しますので,遠慮なくおしゃってください)


と言いたいことはなるべく書ききったが,最後に.

私はあくまでも差別化とかそんなつもりでやっているのではないですし,勿論,イベントなどの公の場では専門性がある団体に依頼して,手話通訳や文字通訳を派遣してもらった方がよっぽど良いに決まっているわけで.

ただ,その場合難しいとなった場合,黙って指を加えて見てろとかただ声を上げるだけというのはまた違うなと私個人的には思っています.妥協しようがないのではなく,少しでも妥協できるようにしてもらえたらと思いを込めただけである.それだけは強く言いたいだけである.

そのために,1つの方法として,自分で自分の環境にあるものでハッカソンして妥協できるものは妥協するようにはと考えた結果,活用事例のレシピを公開することだなと思った上でやったけれども.

ただ,「あなたがやっていることは,マイノリティの中のマジョリティをえこひいきしてて,マイノリティの中のマイノリティを差別している」とかは自分の中でも結構心惑いがあったが,最終的に情報を得るには得られるようになるだけでも大いに違うから,差別ではないと腹をくくることにしたわけで.

また,活用事例を公開した後に,「そもそも皆が料理をしてて,当たり前のようにレシピサイトで自分のオリジナルレシピを公開してたりするのできているのに,テクノロジーの方はそこまで気楽じゃないのがどうしてだろう」と思い巡らせているし,「小学生の頃から家庭科で料理を学ぶと同様にITリテラシーとしてハッカソンを学ぶようにしたら,ここまで悩む必要もなかったのでは」と思っていたりとあれこれと考えています.

それだけではなく,話した内容を音声認識にて文字を起こした結果,どこかが誤変換しているのかも,そもそも小さい頃からバイリンガルで日本手話と日本語を学べる環境で音声認識を使いまくっていたら,自然と誤変換している部分がわかったりしているのかなと思ったりしている(実際に70~80%でここは誤変換しているなと理解してしまう自分がいる).もちろん誤変換の場所を何らの形で表示しようとしている研究もあるが,未だにベターすら見つかっていない状態である.

誤変換の場所を表示しようと試みた研究の例
Deaf and Hard-of-Hearing Perspectives on Imperfect Automatic Speech Recognition for Captioning One-on-One Meetings

最後までなんだかまとまりのない内容でした,最後まで読んでいただいて,感謝です.




もっとわかりやすく書けるよう努力いたします!ほんの少しだけの応援をお願いいたします!