会話を文字にするということ

ちょうどこの連休中は、まさに文字起こしのオシゴトを家でする予定(昨日今日と先延ばしにしてしまったので明日こそはやる)だったので、タイムリーにこんな投稿を拝見してちょっと恐れおののいています。

確かに、ここまでPCでなんでもできるようになってきて、最近は音声認識もかなり進んでいるとはわかっていたけれど。こうして、改めて現実を知ってしまうと、わたしがしているオシゴトはそのうちなくなってもおかしくないなぁ、、、と。

もちろん、いくら自動化するといっても完璧に音声認識するのはむつかしいだろうし同音異義語とかもあるのでどうなんだろうとは思うのですが、半分~6割位は自動でできてしまうとなると、人間様ならではの“仕上げ”をしないとどんどんお払い箱になっていってしまいそうです。

話しことばを文字に起こすとわかるのですが、結構人は無駄なことを喋ってます。「あの~」とか「えーと」とか。インタビュー記事など、臨場感を大切にする場合はそういうのも拾うのかもしれなのですが、わたしがしているのはビジネスの場での議事録に近いので、発言を整理する必要があり(発言そのものの会話調ではなくて書きことばに近くなる)そういう発語はすべてカットです。
さらに、倒置法とか曖昧な表現については、前後の文脈と合うように適宜ことばを入れ替えたり、補ったりする必要があります。例えば「面白いと思ってたんですよ、昨日見るまでは。あ、息子がイイって言ってたので」は「息子にいいと勧められたので、昨日見るまでは面白いと思っていました」となります。ほかにも「別に」「微妙」などの発言は、「特別よいとはいえなかった(否定的)」のか「特に問題なかった(肯定的)」のか、「微妙」もそれこそニュアンスが微妙で、話者の年代やそのときの状況、前後の文脈によって意味が違ってくるので、そこを補完しながら作業をていきます。(あくまでもわたしがしている仕事の場合です)

こうやって整理すると、さすがにこれはまだAIでも難しい領域なんじゃないかしら?と思ったりするのですが、これだけいろんなことが目まぐるしく進化していくと、近い将来人間様の存在が脅かされることになりそうなので、わたしにできることはなにかという“強み”を考えねばならないと改めて認識させられました。

それはきっと、日本語の曖昧で微妙なニュアンスや言外の意味ををどれだけくみとって言語化できるかとか、(これは実は音声だけでは難しくて、顔の表情とかも関係してくるとわたしは思ってますが)、1対1でなくてグループディスカッションみたいな場合にいかに時間軸に沿って内容を整理できるかとか、ということなのだろうなと思うのですが、、、

なんだか、こんなふうに考えてたら長年わたしにオシゴトを振ってくれる某企業様のことがすごくありがたーく思えてきました。
てか、あれこれ考える前に〆切前に少しでも早く納品するとかのほうがだいじなのじゃなかろうか、わたしよ。(さすがに落としはしなくても結構ギリギリになってしまうとが多いので反省)。むしろ、こんなサービスがあるのなら、そんなんなんぼのもんじゃい、まず自動で文字化させてそれを利用して自分の作業を楽にしてやれ!って強気でいたいなぁと思うのでした。

いいなと思ったら応援しよう!