見出し画像

選択のウェイトをどこに置くか

昨日かいた 文字通訳に関するノートの話。

先日のノート、いろいろ読んでいただいてるようでして、
コメントもちょこちょこもらってます。

一部では議論も始まっているようで。本当にありがたいことです。
さて、その中にもある議論をいくつかピックアップ。

・ノートのような中身の文字通訳      がいいのか、
・内容を読み取ってノートをかける文字通訳 がいいのか

要は中身の問題。
「ノートが取れるように書く」ように指導されるわけだが、
結果的に「ノートと同じ中身」になっているケース。

究極の要約だけど、それは要約されることによって
利用者が「考えてノートをとる」機会を失っている。

もっとも時間的制約があるから、ノートがとりづらいという
問題はあるんだけれども、そこは技術を活用すれば解決できる。

根本的な問題はどこにあるか、そして
「最終的に何を優先するのか」は考えたほうがいいだろう。

・5%の誤字と、95%の原文(ただし機械的ミスを含む) がよいか
・30~40%に圧縮された 要約文(ただし人的ミスの可能性を含む)

単純な比較からすれば、95%の原文のほうが「正しい」。

正しいの基準は、「話した通りにでる」そして、「利用者は文章がおかしいことに気づくことができる」という点。

もともと、会話やコミュニケーションは何故やるか?といえば「何かを判断して、行動をおこすため」ですよね。

そのためには、相手が発していることを理解する必要がある。もちろん、人間自体、正しく話すとは限らない不確実な存在だから、「確認」をすることによって、正確さをUPさせる。

つまり、「誤りに気付くことができるか?」は重要なファクターだ。

私は、この5%の誤りを、人間が直す「ハイブリッド訂正」が一番正しい状態を安定して供給できると考えている。

というのも、圧縮することによって、会話のニュアンスや伏線は回収できず、要約というフィルターを通すことで意味が変わることもあるから。

私も通訳をやっていたから経験はあるが、聞き取って、打ち込んでいるうちに整合がとれなくなることもある。それは人間が短期記憶に頼って行っている処理であるから仕方ない部分でもある。だからこそ、補償するための仕組みが必要なのだ。

私の周りにも「通訳者は綺麗な文を書いてくれる。誤ったことは言わない。」と通訳に絶対的信頼(悪く言えば鵜呑みに)する人がいるが、実際に音声認識字幕を見たとたんに「この人、こんなに話が下手だった?」とか「こんなこと言ってたの?前とちがう!」と話されることもある

つまり、要約することによって、人格を含む 多くの情報をロストしているのだ。逆に、要約がうまく機能する場合がある。それは事務的あるいは仕事のような場合。会社でもよく言われるでしょ?「報告・相談・連絡をするときは端的に言え!」って。

端的に言われれば、端的に回答して、行動に移せるから実際は楽。でも、これは聞く相手が色んな情報を握っている前提で、的確で端的な会話をすることにより、判断に使う時間を短縮しているに過ぎない

まぁ、上手な通訳者というのも 実際には居て、話がストンと腹に落ちる人もいるわけで、この辺りは技量次第というところでもある。こういう通訳者に出会えると、目の負担や読み込みにかける時間を極力減らして、思考に時間をつかうことができる。本でも「翻訳者によって読む読まないを決める」人もいるけど、そのあたりは通じるものがあるのかもしれない。

盲ろう通訳では、追い付かなくなると全体をとめて、コミュニケーションをとりながら会議を進めたりしている要約に必要なペースや必要な時間をしっかり確保できるように調整しながら品質を保っている。

まぁ、音声認識を使いながら出来るケースもあれば、人がしっかり担保するほうがいいケースもある。それができるシステムを、大学では作ってきた。信条や議論は色々あるでしょうが、「最終的には何を優先したかったのか(=求める結果、結論)」がブレない方法論を選択すると良いかと思う。

<参考文献等>

※音声認識の「95%」は、実際の運用値より。
 現状の音声認識は DNNを採用したエンジンの適用により、
 過去のCNN採用論文の値があまり参考になりません。

※文字通訳の要約率は高尾さんの論文を参考とした。
 http://www.tuins.ac.jp/library/pdf/2009gensha-PDF/2009-13takao.pdf

 実際の検証で得られた要約率は おおよそ30%程度。

開発したり研究したりするのに時間と費用がとてもかかるので、頂いたお気持ちはその費用に補填させていただきます。