【備忘録】AIボイスレコーダーで文字起こしの時間を従来比3分の2に短縮
メディア関係者にとって、一問一答形式のインタビュー記事執筆の本質は「作業」である。
会話をそのまま再現していたら記事にならないので、はしょったり補ったり、言い換えたり前後を入れ替えたりはするが、通常の記事のように「ストーリー」をつむぐ自由はほとんどない。基本は相手が話してくれたことが全てだ。
つまり、製品たる記事そのものも議事録の亜種みたいなもの。万一はしょり過ぎたり、補った部分が相手の言わんとしたこととズレていたりしたら、クレームを受けること間違いなし。
なので、記事の分量や会話時間にもよるが、時間に余裕がある場合はインタビューを文字起こしし、できるだけ正確に発言内容を把握したいところ。まさに作業で、神経ばかり使って退屈な苦行である。
というわけで、腱鞘炎のリスクを避けるためにも迅速・正確な文字起こしツールを探し続け、2カ月前にAIを使った自動文字起こし機能が売りのボイスレコーダー「オートメモ S」(ソースネクスト)を購入した。メーカーのサイトで確認できる価格は1万9800円。これをノジマのポイントを使って1万円で買った。
結論を記すと、オートメモを使った場合、約1時間の1対1のインタビューの正確なトランスクリプト(要約などせず、話されたままをほぼ完全に文字に起こしたもの)の作成に要した時間は、約2時間。1時間のインタビューの完全起こしをPCで手打ちすると3時間はかかるので、1時間の時間短縮。
かつ、ここが重要ですが、録音をAIが文字起こししたテキストが自動生成され、それを元に音声を聞きながら修正を加えていく形になるので、腱鞘炎の心配はなし。
裏返せば、AIによる文字起こしの精度は、そのまま「トランスクリプトでーす」と鼻の穴膨らませて人に見せられるレベルでは全くない。パラグラフもうまく切れてないし、話者の区別も付かない。
室内で話者から1メートル以内の距離にオートメモを置いて録音した限りでは、固有名詞は「安倍晋三」がかろうじて出てくる程度で現代人はほぼダメ、漢字の変換も不十分。「転回→展開」とかですね。漢字はAIにとって本当に難関なようで、英語の電話インタビューの方が精度は高かった。
話者の発音、発声の仕方の影響も大きくて、当然ではあるが、ぼそぼその小声、早口では精度が下がり、腹からの太くはっきりした発声なら精度は上がる。試してはいないが、講演をマイク端子を使って(端子はあります)ライン取りしたら、精度は大分上がるんじゃないか。
また、文字起こしは録音しながら同時にやってくれるわけではなく、wifiへの接続が必要だ。録音データはwifiでクラウドに保存され、AIによってテキスト化され、それが登録した自分のメールに音声データと共にテキスト本文形式で送られてくる、という流れ。
1時間強の録音であれば、録音終了(つまりインタビュー終了)からAIテキストの受信まで30分程度かな。もちろんwifi環境下で、ということで、wifi環境がない場合は、当然ながらwifi接続からテキスト受信まで30分程度。
それでも文字起こし作業に関しては、手打ちに比べカロリー消費は極めて低くなる。上着のポケットに入るような大きさ(タテ9.2センチ、ヨコ5.4センチ、厚さ1.2センチ)と重さ(88グラム)で、携帯性も普通のICレコーダーと同じだ。
ただし、操作は基本タッチスクリーンで、昔の安物アンドロイド携帯みたいに反応があまりよろしくない。録音中はほとんどいじらないので大きな問題は生じないけど、気にはなる。
通常のICレコーダーと違うのは、ランニングコストがかかる点。1カ月1時間までは無料で文字起こしできるが、1時間を超える場合は、月額980円で月30時間の文字起こしを利用できるサブスク「プレミアム」プランに加入するか、10時間(1480円)、100時間(1万4000円)分の利用権を購入する必要がある。
ライターさんはじめ、月に何本もインタビューを行ってそのたびトランスクリプトがいる、という方なら、初期導入経費約2万円、ランニングコスト月約1000円(プレミアムプランの場合)というのは、まあ悪くないんじゃないでしょうか。AIの改良を行っているかどうかは知らんけど、もしそうなら文字起こしの精度も今後上がってくるでしょうし。
最後に、参考までにオートメモのAIが自動で文字起こしした実例を、そのまま掲載致しましょう(パラの区切り等もメールからコピペ)。意味不明だと思いますが、雰囲気を感じ取れると思います。どこだか忘れましたが、国の研究所でAIを使った言語研究をやっていて、そこに行くとシリコン製のヒューマノイドが迎えてくれて、「何食べたの?」「カツ丼」「うらやましい」とかいう会話が成立する、といった話です。
ああそれと、本記事はソースネクストのステマでも案件もありません。ライターさんはじめメディア関係者向けのレビューということで。