文字起こしツール4種比較検証

2024年8月14日 17:34

検証経緯／当社での活用想定

当社では、下記のようなシーンで文字起こし機能を利用する想定で検証を開始しました。

・議事録作成
議事録作成が効率的になるだけでなく、どうしても発生してしまう聞き漏れ/書き漏れをなくすこともできます。また、メモを取ることに脳のリソースを割かずに済むため、会議がより充実することが予想されます。

・商談
商談では、同様にログを残すことで、商談スキルの共有、FBの量・質の向上が期待されます。

・採用面接のFB作成
当社では、部門も役職も様々な人間が面接官となり、人事にFBを送っています。FBの書き方について、事前に指導をいただけるものの、仕事の合間に行うこともあり、どうしても質にバラつきが生まれています。
文字起こしをしたうえで、面接FB用のプロンプトを打ち込むことで、FBの均質化が図れるのではないかと推測しています。

・取材記事作成
本ブログでは、いくつか取材記事を投稿しています。
その作成の際にも、文字起こししたものに、取材記事作成用のプロンプトを打ち込むことで、記事が完成するようなイメージをしています。

比較対象ツールの紹介

・Azure AI Speech(https://azure.microsoft.com/ja-jp/products/ai-services/ai-speech/#Pricing)
Azureのサービスの一つで、比較対象のうち唯一開発（ノーコードでも可能）が必要です。当部のエンジニアがBuddy上で利用できるようにしてくれました。

・YOMEL(https://ai.yomel.co/gijiroku)
議事録作成のクラウドアプリで、自社開発の音声解析エンジンOlaris（https://olaris.jp/）を用いている。

・Texta(https://texta.cloud/)　使用モデル：Google Speech to Text
Webアプリで、何も使わないとリモートで会議をしている相手方の声は文字起こしできません。イヤホンをせずに音を出すことで可能になります。
また、話者識別機能はありません。

・Plaudnote(https://jp.plaud.ai/)　使用モデル：OpenAI Whisper
薄型のレコーダーで録音を行い、専用アプリで要約等を行うことができるツール。

比較検証方法

ツールだけでなく、利用環境によっても精度が変動すると仮説だて、

・会議の人数
・対面/リモート
・録音機器　PCマイク/安価なイヤホン/Anker PowerConf(会議用スピーカー)https://www.ankerjapan.com/products/a3301

という条件を変動させ、全てのパターンで会議を実施し、文字起こしの精度（何割程度正しく文字起こしなされるか）と、
話者識別精度（何割程度正しく話者識別なされるか）の検証を行いました。

検証結果

＜結論＞
対話形式と、使用ツールに応じて、下記のような精度になりました。
ツールの比較で言うと、Plaudnoteは断トツで精度がよく、ついでYOMEL、Azure、textaと続きます。また、リモート会議の方が精度が良い傾向にあります。

PCマイク、Anker PowerConf、Plaudnoteという録音機器による精度の変化は感じませんでしたが、安価なイヤホンを用いると、音漏れから相手からの発言が、自分の発言としても認識され、二重に文字起こしされることがありました。

上記の表だけ見ると、薄型レコーダーが精度に貢献している可能性も高いですが、Plaudnoteで録音した音声を、YOMELに読み込ませて文字起こしした結果、他の録音機器を用いた場合と同程度の精度でした。
その結果から、改めて録音機器がほとんど精度に影響を与えないことが分かります。

精度以外の差

・リアルタイム性
Azure AI Speech、Texta(Google Speech to Text)、YOMELはリアルタイムに文字起こしが可能。Whisperはリアルタイムに文字起こしはできません。（小分けにして音声ファイルをアップロードしていくことで疑似的には可能と言えます）

・専門用語登録機能
文字起こしを行うAIは、社内専用の用語や専門用語は、正しく認識できないことが多いです。例えば、”ゆうせん”と話すと、当社としては”USEN”と文字起こししてほしいのですが、”有線”と文字起こしされます。

そういった言葉も正しく文字起こしさせるために、YOMELとAzureでは、単語登録を行うことができます。（ゆうせん、USENをセットで登録します）これを行うことで、より高精度な文字起こしを行うことが可能です。

・情報セキュリティ
Textaでは、音声データを学習させる仕組みにしています。しかし、Google Speech to Text自体は、社外に音声データを出さずに利用することが可能です。
OpenAI Whisperでは、学習されないようにすることはできますが、30日間OpenAI社に保管されます。
Azure AI Speechは、社外に音声データを出さない仕組みにすることができ、YOMELはNDAを締結したうえで利用しています。

・料金体系
＜Plaudnote＞https://jp.plaud.ai/products/plaud-note-ai-voice-recorder
録音機器が27,500円、毎月300分の要約がついてきます。12,000円/年を追加で支払うと、毎月1,200分要約が可能になります。

＜Azure AI Speech＞https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/speech-services/
アップロードしたファイルを、即座に文字起こしする場合は1時間あたり1$ですが、バッチ処理（文字起こしが最大30分以上後に行われる）で行う場合は1時間あたり0.18$です。

＜Texta＞　https://texta.cloud/ 利用量に関わらず、30名につき、30,000円/月ファイルをアップロードしての文字起こしには時間制限がありますが、MTG中、リアルタイムに行う文字起こしは、無制限に行うことができます。利用ユーザー数には制限があるので、小人数が何時間もリアルタイムの文字起こしを行う場合には効果的です。

・リモート会議での使用可否
Textaでは、リモート会議では使用できませんでした。音声ミキサーのようなもので、相手方の音声と自分側の音声を組み合わせて一つの音声とする仕組みが必要と考えられます。

・話者識別可否
Textaでは、話者識別ができませんでした。

比較結果まとめ

各用途での使用ツール

冒頭当社では、下記4シーンへの活用を検討していると話しました。

・議事録作成

・商談ログ作成

・採用面接のFB作成

・取材記事作成

検証を踏まえて、現段階での結論として、Azure AI Speechを利用したいと考えています。

価格が安いことと、セキュリティレベルが高いことが主な要因で、弱みである利用ハードルについては、当部のエンジニアが突破してくれます。誰もが使えるツールとして社内展開していきます。精度に関しては、高ければ高いほど嬉しいのですが、要点を抽出するためには十分であり、費用対効果で考えるとこれが最適と判断しました。また、録音した結果を聞きながら文字起こし結果を修正することができる設計にすることで、余りにも異なる内容である場合には容易に修正することを可能にしています。

おわりに

いかがだったでしょうか？

当社では、四つのツールを比較検討した結果、現段階ではAzure AI Speechを利用していく判断をしました。
今回明らかになった強み、弱みをもとに、みなさんも自社のニーズに合ったツールを活用いただけたらと思います。
また、社員のニーズや技術の進歩によって、当社の選択も変化し続けると考えています。
当社の今後の動きにも、ご注目ください！

執筆、編集作業と所要時間

合計: 121分
- 人間: 120分
- AI: 1分
  - 人間の場合の想定時間: 10分
  - 7%削減
内訳
- 記事執筆（by 人間）: 120分
- 誤字脱字の確認（by AI）: 1分