音声入力、音声書き起こしを活用しよう ~業務効率を最大化するツールの活用法~
私たちの生活や仕事は日々のテクノロジーによってどんどん変わってきています。その中でも「音声入力」と「音声書き起こし」は、特に効率化に貢献するツールです。手で文字を打つことなく、言葉を話すだけでメモや議事録が自動的に文字にされる便利さは、忙しいビジネスパーソンやクリエイターにとって大きな魅力です。
今回は、Evernoteに新しく実装された音声書き起こし機能を中心に、iOSの音声入力機能の魅力にも触れながら、どのようにこれらのツールを活用して業務効率を最大化できるかについて紹介します。
昔から存在した音声入力・書き起こしツール
音声入力・書き起こしツールは決して新しいものではなく、実は何年も前から存在していました。特に、Windowsや他のオフィスソフトに付随していたいくつかの音声認識ソフトは、一時期非常に話題になっていたのを覚えています。vistaから搭載された、Windows Speech Recognitionもその最たるものでしょう。中でも、自分が主に使っていたのは、一太郎に付属していた「ドラゴンスピーチ」という音声認識ソフトです。
当時は「声を使って文章を書ける」というアイデアに大きな魅力を感じまして、一時的に使っていたのですが、実際には思った通りには使えませんでした。まず、認識精度がかなり低く、話した内容が思うように文字に変換されないことがしばしばでした。文章を作成しようとすると、何度も訂正が必要で、結局、手間がかかりすぎてしまったのです。さらに、ソフト自体が非常に重たく、起動や動作が遅いことが原因で、かえって作業効率が悪くなってしまいました。
これらの不便さから、結局「ドラゴンスピーチ」を使わなくなってしまいました。こういった体験から、音声書き起こしに対しては「便利な未来のツール」という期待はあるものの、現実は厳しいものだという印象を持ち続けていました。
しかし、近年の技術の進化により、音声書き起こし・入力の精度とスピードは劇的に改善されました。今では、かつての不便な体験とはまったく異なる、実用的なツールが次々と登場しているのです。
Evernoteの音声書き起こし機能
最近、Evernoteに新しく「音声ファイルの文字起こし」機能が追加されました。会議の議事録やアイデアのメモなど、音声で記録した内容が自動的にテキスト化されるこの機能は、時間の短縮だけではなく、手入力では漏れがちなニュアンスや情報を正確に残せる点が特長です。
個人的に、自分の耳より信じられる印象です。確かに、固有名詞には弱く、大学名が誤っていたり、おかしい箇所は散見されます。しかし、ここまで文字起こしをしてくれると、修正も楽なので、やはり便利です。
内部的にはおそらくWhisper APIを使用
この書き起こし機能、技術的にはおそらくOpenAIのWhisper APIが裏で動いていると考えられます(※)。Whisperは非常に高精度な音声認識モデルで、多言語対応もしており、日本語の音声を正確に文字に起こせることが特長です。Whisperの実力を活用することで、Evernoteの書き起こし機能は、単なる自動文字化ではなく、より正確で自然なテキスト生成を実現しているのです。
https://openai.com/index/whisper/
料金ですが、結構安価です。音声データの1分あたりの料金としては、現在(2024年9月時点)$0.006 / 1分となっています。ざっくり、今のレートで1円です。
ここで宣伝しても1円も入ってきませんが、Evernote有料版は月当たり775円となっています(年払いしたとすれば)。他にもAI機能が強化されており、画像からの文字起こしも可能です。これらをかなり活用すると、元は取りやすいのでは、と思います。(執筆時点でAI機能の上限は無さそうです。)
※自前でこれだけの開発ができるとは思えないのと、サードパーティベンダーを見ると、それっぽいのはOpenAIしかないので、そうだろうな、という考えです。
Evernote:プライバシーポリシー(サードパーティベンダー)
iOSの音声入力機能
AIによる音声入力がまた注目されていますが、そもそもiOS(macOS)にはかなり前から音声入力機能が存在しています。こちらは、オフラインでも動作する(外部に送信されない)ため、業務でも使いやすいツールではないかと思います。
さらに良いのが、音声入力しながら、タイピングもできるので、人によっては2倍近い速度で文章入力できるのではないかと思います。ただ、周りに人がいる状況では使いづらいかもしれません。
また、防水性能の観点から推奨はできませんが、お風呂場や手が離せない場面でも活用できる機能ではないかと思います。しかし、Siriとの連携が現時点で賢くはないので、事前にショートカットを作成しておくなど、ひと工夫しておけば、ノータッチでメモはできるかと思います。
機密情報の扱いに関する注意点
当たり前ですが、外部サービスを利用して音声を文字起こしする際には、注意が必要です。特に会議の議事録など、機密性の高い情報が含まれている場合には、相手や組織の同意を必ず得ることが重要です。外部API(例えばWhisper API)を使う場合、その音声データは外部のサーバー(OpenAIのサーバー)で処理されるため、機密データの外部送信(セキュリティインシデント)となる可能性があります。
機密性の高い情報を外部に送信する際には、基本的に慎重に対応し、できるだけ内部システムを利用するか、事前にセキュリティポリシーを確認することが推奨されます。企業であれば、その企業のポリシーに従うこと、個人対個人であれば、相手の同意を得ることが望ましいです。
個人用(趣味的な使い方)でも注意するに越したことはなく、固有名詞を事前に「田中さん」を「Tさん」にマスキングしたり、その他個人情報を不用意に記録しないようにすれば、より安心できます。(音声データに限っては、事前の処理は難しいのでテキストに限りますが。)
何か事故が起きた際に、そもそも個人情報が無いサーバー(データベース等)であれば、それほど大きな問題にはなりません。この辺いい加減だと、本来流出しなくていい個人情報が、大量にフリー素材化する場合があるので、本当に気をつけた方が良いです。(関係ない人の個人情報もばら撒かれると、目もあてられないですから。)
まとめ
音声入力と音声書き起こしは、作業効率を大幅に改善する素晴らしいツールです。Evernoteの新機能やiOSの音声入力を活用することで、時間の節約と記録精度の向上を同時に達成することができます。ただし、データの機密性には十分に配慮し、適切な対応を心がけましょう。
テクノロジーをうまく活用すればもの凄く便利です。日々の業務をより効率的に、よりスマートに進めていきましょう!
余談
最近、ChatGPTにも「高度な音声機能」が追加されて、より自然に口頭で対話できるようになりました。使っていて感じたのは、書いている時と話している時とで使われる脳領域が違うというものです。書いているとすらすらと出てくることも、話すとなると詰まる場面が多く、自分にとっては実質的な脳トレになっています。
一概には言えませんが、書くときには脳のブローカ野やウェルニッケ野が活用されるとされています。論理性や文法構造を意識した思考が働きます。一方、話すときは運動皮質や前頭前野が比較的活性化するようです。つまり、使われる脳領域は確かに異なるようです。AIとの対話においても、書く場面、話す場面を切り替えることで、より広い思考で物事を展開できる可能性があるのではと考えています。(この分野をきちんと研究してみるのも面白そうですね。)