もっと便利な音声入力を実現するWispr Flow

2024年11月11日 22:37

ポッドキャスト「アシカガCAST」第783回の要約記事です。

音声入力ツールWispr Flowを使ってみた

新しい音声入力ツールのWispr Flow（ウィスパーフロー）を試してみました。これはMac用のソフトウェアです。設定したホットキーを押している状態で話しかけることで、自動で文字起こしされます。

※上記リンクはアフィリエイトリンクになっています。このリンクからユーザー登録していただけるとうれしいです。

Gmailでも、Slackでも、メモアプリでも、文字を入力できるところならどこでも使うことができます。どんなときでもキーボードショートカットで音声入力ができるのは便利だと感じました。しかし、考えてみたらそれはMac標準の音声入力でもできることでした。

Mac標準の音声入力と手軽さは同等

Mac標準の音声入力機能とWispr Flowは、音声入力の手軽さはあまり変わりませんが、操作にちょっとした違いがあります。標準機能では、ファンクションキーのマイクキーを1回押すとスタートし、もう1回押すと終了します。一方、Wispr Flowはキーを押しっぱなしの間だけ音声入力されます。

ただし、Wispr Flowにはハンドフリーモードも用意されています。たとえば音声入力を起動させるためのキーとスペースバーを同時に押すことで、キーを押しっぱなしにしなくても音声入力が可能です。

また、Mac標準機能では話している途中でも入力内容のテキストが表示されますが、Wispr Flowは最後にまとめて表示される仕組みになっています。話している途中でもどんどんテキストが表示される方がいいように思うんですが、Wispr Flowが音声入力終了後にテキストを表示するのには意味があるのであとで説明します。

Wispr Flowでの音声入力のどこがいいのか？

では、Wispr FlowがMac標準の音声入力よりどこがいいのかが気になりますよね。公式サイトの説明によると3つのポイントが書いてあって、1つ目が「自動編集」、2つ目が「状況に応じたテキスト化ができる」、3つ目が「その人らしい文章になる」ということでした。

自動編集というのは、しゃべったそのままが忠実にテキストになるわけではなく、ある程度整理された文章として書き出されるということです。なので入力途中にはテキストが表示されないんですね。

例えば、「じゃあミーティングは5時にしましょう。いや、6時にしましょう」と話すと、「じゃあミーティングは6時にしましょう」とテキスト化されるといったことができるらしいんですが、これはなかなかうまくいきませんでした。後でうまくいったケースの話もします。

状況に応じたテキスト化とは、メールの返事なのか、Slackの返事なのか、
SNSに投稿するのかなどの状況に応じた文章を作成してくれる機能です。ただ、わたしがいろいろ試した範囲では、今のところその効果が出てるなと実感したことがありません。

例えば、齋藤さんから来たメールに返信するときに、「さいとうさん」と喋って音声入力すると、そのメールをくれた齋藤さんの正しい漢字になるとか、そういうことを狙ってるんだと思います。

また、使い込んでいくうちにその人らしい文章を作るようになってくるらしいんですが、これも今のところ効果を感じたことはありません。

結局、Wispr Flowの3つのポイントは、いまのところ日本語で使う上ではあまり効果が出ていないように感じます。

自動編集が成功した例

では、今度はわたしが実感したWispr FlowがMac標準の音声入力とは違うぞという良いところを話したいと思います。

まず、さっきの繰り返しになりますが、自動編集機能です。「ちょっと微妙…微妙なんですよね」という言い方が「ちょっと微妙なんですよね」とすっきりとテキスト化されるといった成功例もありました。

音声で編集指示をすることもできて、テキストを選択した状態で「Flow、この文章をもっと丁寧な文にして」と言うと丁寧な文章に変更してくれました。

Wispr Flow公式のPR動画では、キーボードをノコギリで切るシーンが登場し、キーボードが不要になるという強いメッセージを打ち出しています。しかし、Mac標準の音声入力機能が登場してからも、キーボードはいらないといった流れにはなってないですよね。

Today, we’re excited to announce Wispr Flow 🚀

Just speak, and Flow writes for you, everywhere on your computer.

No BS, no waitlist. Feel the magic 👉 https://t.co/ObLJvkmRI4 pic.twitter.com/nHGYHEQN5N
— Wispr Flow (@WisprAI) September 30, 2024

なので、じゃあ音声入力でキーボードをいらなくするにはどうしたらいいかを考えての自動編集であったり音声による指示でテキストを編集していく機能だったりするのかなと思います。AIの力を借りながら、キーボードを使わずに音声だけで文章の作成ができることを本気で考えているツールなのかなと感じました。

辞書登録、履歴、ささやきモードが便利

ほかにも便利な機能がいくつかあります。辞書登録機能では、登録した表記で自動的にテキスト化されます。例えば、「アシカガキャスト」という言葉を「アシカガCAST」という表記で登録しておくと、話した内容がその通りにテキスト化されるので便利です。

音声入力した内容は履歴として保存され、音声データも残るので後から聞き直すことができます。履歴は検索も可能で、ちょっとパッとは使い道が思いつかないですが便利な気がします。

特筆すべきは「ささやきモード」で、とても小さなささやき声でも認識できます。Mac標準の音声入力よりも明らかに小さな声を拾えることを確認しました。

また、対話型AIのPerplexityと連携する機能もありますが、わたしは一度も成功しませんでした。これはわたしの発音の問題かもしれません。

競合音声入力ツールTalkTastic

音声入力ツールとしてTalkTasticという競合ツールも見つけました。こちらも状況に応じたテキスト化ができることを特徴としています。

TalkTasticでは、話したそのままのテキストとAIが整えた文章の両方が表示され、好きな方を選んで入力できる仕組みになっています。

TalkTasticよりWispr Flowが後発のツールだと思うのですが、私が使ってみた感じではWispr Flowの方が洗練された印象を受けました。

↑アフィリエイトリンクになっているので、ぜひこのリンクからユーザー登録してください。

アシカガCASTはYouTubeおよびYouTube Musicでも聴けます。

X（Twitter）でも情報発信しています

X（Twitter）でもデジタルツールやWebサービスを中心に情報発信しています。

試してみました。
Mac標準の音声入力よりすごいと思う点
・同じ言葉を繰り返し話したところなどを自動で直して文章化
・「Flow もっと丁寧な文にして」みたいに自動編集できる（うまくいかないことが多いけど日本語でも成功した）
・辞書登録しておけば表記をコントロール可能
・囁き声で入力できる https://t.co/AMhhKPm5Nq
— アシカガコウジ／デジタル活用Podcast (@ashikagacast) October 2, 2024

ポッドキャスト「アシカガCAST」

「アシカガCAST」では、デジタル活用のヒントをスキマ時間で聴けるポッドキャストを月〜水の朝8時に配信しています。

https://typebot.io/ashikagacast

↑アシカガCASTを聴く方法、エピソードリストなどを教えてくれるチャットボットです。

Apple Podcasts、YouTube Music、Amazon Music、Spotify、Google Podcastsなどで聴けますので、耳が空いているときにチェックしていただけるとうれしいです。

Audiobook.jpの聴き放題、YouTubeでもお聴きいただけます。

いただいたサポートはnoteの執筆、ポッドキャスト活動などのプラスとなるものに有意義に使わせていただきます。ちなみに「スキ」を押すと出てくるイラストは4種類あります。