見出し画像

【備忘録】AIボイスレコーダーで文字起こしの時間を従来比3分の2に短縮

 メディア関係者にとって、一問一答形式のインタビュー記事執筆の本質は「作業」である。

 会話をそのまま再現していたら記事にならないので、はしょったり補ったり、言い換えたり前後を入れ替えたりはするが、通常の記事のように「ストーリー」をつむぐ自由はほとんどない。基本は相手が話してくれたことが全てだ。

 つまり、製品たる記事そのものも議事録の亜種みたいなもの。万一はしょり過ぎたり、補った部分が相手の言わんとしたこととズレていたりしたら、クレームを受けること間違いなし。

 なので、記事の分量や会話時間にもよるが、時間に余裕がある場合はインタビューを文字起こしし、できるだけ正確に発言内容を把握したいところ。まさに作業で、神経ばかり使って退屈な苦行である。

 というわけで、腱鞘炎のリスクを避けるためにも迅速・正確な文字起こしツールを探し続け、2カ月前にAIを使った自動文字起こし機能が売りのボイスレコーダー「オートメモ S」(ソースネクスト)を購入した。メーカーのサイトで確認できる価格は1万9800円。これをノジマのポイントを使って1万円で買った。

 結論を記すと、オートメモを使った場合、約1時間の1対1のインタビューの正確なトランスクリプト(要約などせず、話されたままをほぼ完全に文字に起こしたもの)の作成に要した時間は、約2時間。1時間のインタビューの完全起こしをPCで手打ちすると3時間はかかるので、1時間の時間短縮。

 かつ、ここが重要ですが、録音をAIが文字起こししたテキストが自動生成され、それを元に音声を聞きながら修正を加えていく形になるので、腱鞘炎の心配はなし。

 裏返せば、AIによる文字起こしの精度は、そのまま「トランスクリプトでーす」と鼻の穴膨らませて人に見せられるレベルでは全くない。パラグラフもうまく切れてないし、話者の区別も付かない。

 室内で話者から1メートル以内の距離にオートメモを置いて録音した限りでは、固有名詞は「安倍晋三」がかろうじて出てくる程度で現代人はほぼダメ、漢字の変換も不十分。「転回→展開」とかですね。漢字はAIにとって本当に難関なようで、英語の電話インタビューの方が精度は高かった。

 話者の発音、発声の仕方の影響も大きくて、当然ではあるが、ぼそぼその小声、早口では精度が下がり、腹からの太くはっきりした発声なら精度は上がる。試してはいないが、講演をマイク端子を使って(端子はあります)ライン取りしたら、精度は大分上がるんじゃないか。

 また、文字起こしは録音しながら同時にやってくれるわけではなく、wifiへの接続が必要だ。録音データはwifiでクラウドに保存され、AIによってテキスト化され、それが登録した自分のメールに音声データと共にテキスト本文形式で送られてくる、という流れ。

 1時間強の録音であれば、録音終了(つまりインタビュー終了)からAIテキストの受信まで30分程度かな。もちろんwifi環境下で、ということで、wifi環境がない場合は、当然ながらwifi接続からテキスト受信まで30分程度。

 それでも文字起こし作業に関しては、手打ちに比べカロリー消費は極めて低くなる。上着のポケットに入るような大きさ(タテ9.2センチ、ヨコ5.4センチ、厚さ1.2センチ)と重さ(88グラム)で、携帯性も普通のICレコーダーと同じだ。

 ただし、操作は基本タッチスクリーンで、昔の安物アンドロイド携帯みたいに反応があまりよろしくない。録音中はほとんどいじらないので大きな問題は生じないけど、気にはなる。

 通常のICレコーダーと違うのは、ランニングコストがかかる点。1カ月1時間までは無料で文字起こしできるが、1時間を超える場合は、月額980円で月30時間の文字起こしを利用できるサブスク「プレミアム」プランに加入するか、10時間(1480円)、100時間(1万4000円)分の利用権を購入する必要がある。

 ライターさんはじめ、月に何本もインタビューを行ってそのたびトランスクリプトがいる、という方なら、初期導入経費約2万円、ランニングコスト月約1000円(プレミアムプランの場合)というのは、まあ悪くないんじゃないでしょうか。AIの改良を行っているかどうかは知らんけど、もしそうなら文字起こしの精度も今後上がってくるでしょうし。

 最後に、参考までにオートメモのAIが自動で文字起こしした実例を、そのまま掲載致しましょう(パラの区切り等もメールからコピペ)。意味不明だと思いますが、雰囲気を感じ取れると思います。どこだか忘れましたが、国の研究所でAIを使った言語研究をやっていて、そこに行くとシリコン製のヒューマノイドが迎えてくれて、「何食べたの?」「カツ丼」「うらやましい」とかいう会話が成立する、といった話です。

 ああそれと、本記事はソースネクストのステマでも案件もありません。ライターさんはじめメディア関係者向けのレビューということで。

30時間て、ただなんでしょ30時間超えるとお金かかってくる。
英語もやって、失礼して英語もやってくれるみたいですね。最近、ニューラルトランスレーションとかもai使って、もうほんとにあれが日本語が自然な日本語になっちゃうんですよねで、これも1年前と比べてそのaiアップデートしてるので、うんで使ってるうちに、どんどんどんどん制度がそうまあ、食わせるからね。そうですね。1番ダメなのがこう有名。ああ、それはちょっと覚えられないもんね。安倍晋三ぐらいは多分、略して
ミスクじゃない。ミストのあの京阪南にある総務省の研究所なんですようん。あ、そっから技術がで、ポケとポケットくいってこんなに広がってるんですけどね。そのそうですか。ただで民間にあだと思いますよ。56年前から成功したんですから、
そこに行くとね。あのちょっとずれるけど、なんつったかな、あんなちゃんとか、はんなちゃんとかいるんだよね。ああ、リス、アリスと
シリコンのね。女の子が座ってるんですよね。
あと、口元動くからちょっとはほんと喋ってみたんだけど、ねこの日本語はね。驚くほど自然なんですよ。で、会話になるわけ信じらんないよ。キャッチボールがでそうそう座るでしょだね。
かはさんでしょとか言うんだよね。なんで知ってるのだって。日程表に書いてあるもんとか言うわけの
みで、来たんだとか言ってついたか、お腹すいたんじゃないのとか言われて、何食べたのえ、カツ丼、羨ましいとか、こうこういう会話になるんだよね。一応
信じられないでしょ。もうでもその世界に入っちゃってるんですよ。そういうのに、あのまあ、いきなり本来的な話。

いいなと思ったら応援しよう!

この記事が参加している募集