音声入力は使い物になるか。
(これは音声入力の写真ではない)
最近スマホデビューして気づいたことがある。
iPhoneの音声入力がすごいと言うことだ。
音声入力ソフトの比較ポイント
音声入力ソフトには、どのソフトにも共通したセオリーがある。かつて売られていたドラゴンスピーチなどのソフトも、appleやGoogleの音声入力も、皆セオリーは同じである。
このセオリーの特質に従って見ていくと、それぞれのソフトの現実的な実力がわかると思う。
1.入力用のマイクの性能が、ソフトの性能を左右する。
音声入力に使うマイクは、音声を正確に拾わなければならない。具体的には、3,000円以下のマイクや、ヘッドセットでは、基本的に役に立たない場合がが多い。音声を正確に拾えないだけでなく、パソコンに(ソフトに)認識すらされない可能性がある。
そのため、音声入力ソフトの中には、マイクを付属して販売しているものもある。その分値段が高くなるのだが、このとき推奨されるマイクは、おおむね1万円から5万円前後のものである。マイクは、価格と性能が、ほぼ比例する商品なので、少なくともソフト会社は、1万円前後のマイクは使用した方がいいと考えていることになる。
しかし、感度という点だけなら、1万円前後のマイクで良いのだが、こうした感度のいいマイクは、入力している音声以外にも、ほかの部屋の音や会話まで取り込んでしまう。すると、音声入力するときの変換が狂ってくる。
このため、使用するマイクは、感度だけでなく、強い指向性が必要になる。
私は、1万円ほどのマイクを利用していたが、これだと指向性が足りず、自分の声だけでなく、隣の部屋のテレビの音まで拾ってしまっていたので、実際に使うときには家中を無音にして行う必要があった。
こうなると、あまり実用的ではない。
これが5万円ほどのマイクになると、強い指向性を持った商品も現れてくる。指向性が強ければ、入力者の音声のみを拾うことが出来る。
だから、音声入力ソフトに理想的なマイクは、5万円前後の商品と言うことになるが、ソフト本体より、2倍以上高いマイクを使用するというだけで、二の足をふむユーザーも多いだろう。
2.音声入力にはコツがある。
音声入力ソフトはどれでも、使い方にコツがある。
これはソフト会社でも推奨していることだが、入力は必ずある程度の長さの文章をまとめて入力する方がいい。これは、日本語には、同じ音で違う表記の漢字があり、同じ漢字がいくつかの読みを持ち、さらに、全く同じ熟語でも、文章の流れによって発音が変わったりするという特質があるからだ。
このことを踏まえて、一定の長さの文章をまとめて入力することで、文章の流れをとらえ、正しい漢字表記を選択するようにプログラムが出来ている。
一語一語、熟語1つの単位での入力では、本当の実力は発揮されない。
3.音声入力ソフトのセオリーと、使用者の利便性がずれている
しかし、このセオリー(ソフトを使うコツ)は、必ずしも使用者の利便性に即してはいない。
実際に使ってみるとわかるが、一語一語入力していくなら、間違いはすぐその場で修正できる。だがまとまった文章を一気に入力してしまうと、修正は、その後に、まとめて行うことになる。
残念ながら音声入力ソフトの誤変換は、かなりユニークで、突拍子もない。同じセンテンスを重ねて入力したり、前の語と後ろの語を間違った連結で変換するので、後で読むと何が書いてあるのか悩むことがある。例えば、
「今月だいぶ使ったからな」「今月大仏買ったからな」
この2つは、お金を散財したことには変わりないが、だいぶ意味が違う。「今月だいぶ使ったからな」と入力したつもりで「今月大仏買ったからな」と誤変換されてしまうようだと、直すのが大変である。このように、音声入力した文章は、あちらこちら意味不明のセンテンスが挟み込まれる。
この手の間違いが多用されてしまうと、後から直すのはとても手間がかかる。
4.入力者の特性に左右される。
音声入力の難しさは、ソフトの性能によるところだけではない。
音声入力というのは、まさに口述筆記である。
だが、例えば、物書きが文章を作るというのは、頭の中を覆う霧の中から、手探りで、言葉を一つ一つ探し出すような作業だから、蚕が糸を吐くように、蕩蕩としゃべれるという事はなく、つっかえつっかえ入力することになる。時々考え込みながらという事も多い。ところが音声入力では、一定のリズムで、よどみなく入力しないと、うまくいかないときがある。
実際、入力のリズムが狂うと、ソフトの変換も狂ってくることが多い。変なところで無音が入るので、文節の判断が狂ってしまうわけだ。また途中で入力が止まることで、次の入力言語がうまく受け付けられなくなるときもある。
太宰治のように、口述筆記で小説を書いていた作家は、意外と高度な技術を持っていた事になるのだと気づかされる。相手がソフトであれ、人であれ、よどみなく文章をしゃべり続けるというのは1つの才能である。凡人には難しい。
この凡人には難しい事が出来るかどうかが、音声入力ソフトの性能を左右する。
5.記号の変換が使いやすさの決め手になる
市販の音声入力ソフトだと、句読点や改行、スペースなどは、音声で入力できる。一文字削除、二文字削除 なども出来る。しかしGoogleとappleに関しては、そこまでは出来ない。
Googleでは、改行、句読点、スペース、どれも音声入力は出来ない。だらだら文章を入力するだけである。後で編集しないといけない。
appleは、句読点、改行は音声入力できるが、スペースは出来ない。
またapple、Google双方で、文字削除などは出来ないようだ。言い間違えたら、キーボードを使って直すしかない。
実際に使ってみると、句読点と改行が出来るだけでも、使い勝手は格段に良くなる。後で直すときも、句読点も改行もない文章を直すのはとてもやりづらい。
その点では、市販のソフトは使いやすいといえる。
5.予測変換の善し悪し
市販される音声入力ソフトには、ワープロソフトの予測変換と同じようなプログラムが入っている。入力者はほとんど1人に特定することが求められており、その入力者が何回も繰り返し入力することで、言葉や声の癖を覚え、より正確に読み取りが出来るように、学習することになっている。
ところが、人間は毎回それほど正確に話しているわけではない。話癖もある。それをソフトが覚え込んでいくうちに、どんどん正確な変換が出来なくなるという事が起きる。
私は、ドラゴンスピーチと、AmiVoiceを使っていたが、実際に使ってみると、使い始めには正確に変換していた言葉を、しばらく使っていると、誤変換するようになってくる。
これで全く何も学習してくれないと使えないのだが、しかし余計なことを覚え過ぎても、使えなくなるのである。(結局使えないんだ)
実際に音声入力ソフトの比較をしてみた
有料ソフトは、すでにその役目を終えつつある。
今回は、かつてこの手のソフトとしては独壇場だった「ドラゴンスピーチ」その後結構ポピュラーになった「AmiVoice」
そして、現在主流である、「Google」と「apple」の比較をする。
結果、その差は明らかだった。
まずドラゴンスピーチとAmiVoiceは、すでに時代遅れと言ってもいいだろう。オフラインで使えるというメリットはあるし、音声入力だけでなく、多機能な部分もあるのだが、1万円から2万円以上するソフトとしては、物足りない物となっている。
ドラゴンスピーチは、数年前までは語彙数が飛び抜けて多いソフトだった。だが、その分、変換に時間がかかった。多数の語彙から適切な語彙を選ぶのに時間がかかっていたのだ。
ただ、すでに述べたように、音声入力は長文を一気に入力する。このとき語彙数の多さは変換の質に関わるだろうし、全体から見れば、変換の遅延はそれほどの問題ではないかもしれない。
しかし、長文を入力すれば、入力者は、必ずしもリズミカルに入力できるわけではなく、時々止まったりする。その時点で、ドラゴンスピーチも、AmiVoiceも、変換がうまくいかなかったり、止まったりする現象が起きる。
また実際に音声入力して気づいたのだが、ドラゴンスピーチの場合、一語吹き込むたびに、すぐには変換した言葉が表記されない(語彙を選んでいる時間がかかる)すると、その都度、自分の入力(しゃべること)が止まってしまう。人間は、自分が書いた文字を読み、確かめながら言葉を探しているらしい。目の前で、入力した結果が出てこないという現象を見ると、そこでつい、しゃべるのを辞めてしまうのだ。
やはり口述筆記は難しい。
では、すでにある文章を読み上げればいいのか。それならば、文章を読むことだけに特化すればいいから、蕩蕩としゃべれるのではないか。そうすれば、音声入力がうまくいくのではないか。
と考えるのだが、実際にはそうでもない。実は本当に蕩蕩としゃべると、入力がついてこられないのだ。語彙を探すための遅延にとどまらず、変換がストップしてしまったりする。入力される音声の量が多すぎて、パンクしているわけだ。ソフト会社は「普通に話すように入力してください」と言っているが、本当に話すように入力すると、ソフトのキャパがオーバーするらしい。
今回は、40文字、20行前後の文章を、一気に入力したが、結果は、ドラゴンスピーチ、AmiVoiceともに、平均して1行に1カ所くらいの誤変換があった。前にも述べたように、これだけの誤変換があると、後から直すのは結構手間がかかる。これならば、キーボードで入力した方が速いと感じるだろう。
この手のソフトが、結局大きな需要を得られなかったのは、この辺に原因があるかもしれない。
ちなみにAmiVoiceだが、語彙数がドラゴンズピーチよりだいぶ少ない。そのためか、入力すると、その場で文字化する。ほとんど遅延がない。誤変換の多さは、ドラゴンスピーチと同程度なのだが、これは長文の場合で、短い文章だとこれほどではない。
ドラゴンスピーチとの違いは、入力と同時に変換されるので、変換されたとたんにキーボードで直すことが出来る。つまり入力しながら同時に直すことが出来る。この方法は本来の音声入力のセオリーには反するのだが、変換が速いからこそ出来る方法で、この特性を利用して、短いセンテンスの入力には使える。
例えば私は、DVDリストなどを作るときに利用している。
我が家は大量のDVDがあるので、このリストを作るのは結構大変だ。(全然整理していなかったので、今そのツケが回ってきている)このとき、ヘッドセットした状態で、本棚から引っ張り出したDVDの題名を片っ端からしゃべっていけば、AmiVoiceがエクセルに入力してくれる。
キーボード入力でもいいのだが、DVDを取り出し、題名を確かめ、キーボード取り上げてキーを叩き、またキーボードを戻して、DVDを棚に戻し、また次のDVDを取り出す。という作業よりは、棚の片端からDVDを取り出しつつ、その題名を読み上げた方が効率がいい。
ドラゴンスピーチだと、1語の入力でも遅延が生じるため、その場で入力内容を確認できない。わずかなインターバルなのだが、大量の仕事をするときには結構負担になる。
という事でAmiVoiceは現在も使っているが、ドラゴンスピーチは使わなくなってしまった。
Googleとappleはかなり完成されているが、日本語変換には、まだ揺らぎがある。
次にGoogleとappleだが、この2つは、先の2つに比べると格段に変換能力が上がっていた。
やはり40文字20行前後の文章を一気に入力したところ、誤変換は、Googleが3カ所、appleは6カ所だった。
こう言うとGoogleの方が誤変換が少ないように見えるが、実は少し裏事情がある。
appleは、間違えた6カ所のうち4カ所は同じ言葉だった。「会社」と入力したものを「外車」にしたのだ。
どうしてかというと、私が「そふとがいしゃ」と入力したからだ。ソフト会社と入力したかったのだが、appleは、文脈によって言葉が濁る日本語の特性が、うまく理解できていなかったようだ。だから「そふとがいしゃ」と入力した4カ所を全部、「ソフト外車」とした。
そこで「ソフトかいしゃ」と入力すると、「ソフト会社」と変換した。
そこでさらに、1つの文章を入れてみた。
「父は車マニアだが、特に外車が好きだ。アメリカの外車だ」
これを入力したところ、正確に「外車」と変換した。文脈から「外車」という言葉を選択出来たようだ。
一方Googleだが、Googleは、「そふとがいしゃ」を「ソフト会社」と変換した。従って、appleが間違えた4カ所は、すべて正解した。ところが
「父は車マニアだが、特に外車が好きだ。アメリカの外車だ」
と入力したら、
「父は車マニアだが、特に会社が好きだ。アメリカの会社だ」
と変換した。いろいろやってみたが、どうもGoogleは、外車と会社を区別していたわけでもないようだ。
例えば、
「烏はガラスに当たって怪我をしたが、鏡には当たらなかった」
と入力したところ、
「カラスはガラスに当たって怪我をしたが鏡には当たらなかった」
と変換した。
つまり無濁音と濁音を必ず間違えるわけではない。単に「会社」と「外車」の区別がつかなかっただけらしい。たまたま今回正解が「会社」だったからすべて当てられただけだったようだ。
こうなるとGoogleとappleが必ずしも変換に実力差があるとはいえない。「会社」と「外車」の誤り4つを考えなければ、双方間違いは、2個となり、ほぼ変換における実力は同じと言っていい。
変換スピードは、appleが格段に速い。
Googleは、ちょうどドラゴンスピーチのように、一語一語では変換が遅延する。長文が終わるときには、ほとんど遅延なく終わるが、これは文章全体から漢字を選択しているためで、最初に入力された漢字が、後に続く文章の文脈に合わせて、変更されるときもある。
このやり方はappleも同じである。
だがその上で、変換スピードはappleの方が格段に速い。
さらに、Googleはパソコンで、appleはiPhoneで入力を行ったのだが、スペック的には遙かに大きなパソコンで入力しながら、Googleはたびたび勝手にソフトが落ちた。(というか、入力がオンの状態から勝手にオフの状態になった)ネットを介しての変換であるし、大量の文章を一度に変換するのは難しいという面があるのかもしれないが、いずれにしても文章の途中でソフトがオフになることがたびたび起こるし、そこから再び立ち上げるのに時間を要することもあった。
この、勝手にソフトがオフになるという現象はappleでも起こる。appleもネットを介した変換であるし、そもそもiPhoneなので、スペックに限界がある。それでも、Googleほどは落ちなかったし、一度落ちても、即座に復旧できて、次の入力が出来る。この辺のポテンシャルは、appleの方が遙かに優秀だった。
また入力時、入力する言葉が途切れ途切れだったり、止まったりしても、appleは、変換に特に影響はなかった。無音が入ることの誤変換も、ほとんどなかった。
Googleは、入力のリズムが狂うと、変換がおかしくなったり、変換できなくなったりすることがあった。ドラゴンスピーチやAmiVoiceよりは遙かに優秀だが、appleからみると見劣りがすることは否めなかった。
マイク性能の問題が、また浮上
先にも述べたが、音声入力にはマイクの性能が大きく影響する。
この点においてはiPhoneが非常に優秀だった。
Googleの場合は、手持ちのヘッドセットやマイクを使ってみたが、これも先に述べたように、感度が良ければ周りの音を拾うし、感度が悪ければ、自分の声を正確に拾わなくなる。
ところがこのマイクの案配が、iPhoneは絶妙だった。
iPhoneのマイクは、放っておけば隣の部屋のテレビの音まで拾ってしまうが、しゃべり始めると、確実に入力者の言葉しか拾わない。これはiPhoneが携帯電話であり、このマイクが電話の送話マイクである事が大きいのかもしれない。電話でしゃべるときは、周りの雑音をなるべく拾わず、自分の声だけを正確に拾っ他方がいいわけで、まさにiPhoneのマイクはそれを実践していた。
だからiPhoneに関しては、音声入力のマイク問題が全くない。高額なマイクを用意する必要がなく、願ったり叶ったりだった。
実力はapple、パソコンを使うならGoogleもありか。
すべてを総合してみると、私は音声入力は、iPhoneなどに付属するappleのソフトを一押ししたい。
ただ、現状ではWindowsパソコンでは使えないので、使うならiPhoneなどで入力し、それをメールなどでWindowsパソコンに送るという方法をとるしかない。
一方Googleの音声入力なら、グーグルアカウントがあれば、誰でもパソコン上で無料で使える。Googleでアカウントを使ってログインしたら、画面の右肩に、自分の名前のアイコンがでるので、その少し左にある、9つの点のアイコンをクリック。
その中にグーグルで提供するソフトが一覧されている。どこからドキュメントを選ぶ。MicrosoftOfficeでいえば、Wordのようなソフトが現れる。ここで新規ページを開き、画面上部の「ツール」をクリックすると、音声入力の項目が出る。
ここをクリックすると、画面上にマイクマークのアイコンが現れる。アイコンをクリックすると赤く変わり、音声入力できるようになる(マイクは使えるように事前にセットしておく)
Googleとappleは、ほかのソフトとの連携が難しい
ドラゴンスピーチもAmiVoiceもそうだが、基本的には、既存のソフトと連携するように出来ている。
まず、必要なソフト(ワープロとか表計算とか)を開き、入力したい場所にカーソルをセットする。そして、音声入力ソフトをONにして、音声入力を始めると、専用のWindowが開き、その中にテキストが現れてくる。
入力が終わったら、テキストを、すでに開いているソフトへ転送する。このとき「転送」と言ったり、該当するアイコンをクリックしたりする。するとテキストは、すでに開いておいたワープロや表計算ソフト上のカーソル位置から入力される。
これによって、Wordなどのワープロソフトでも、Excelのような表計算ソフトでも、音声入力が出来るようになる。
だが、Googleやappleは、独自でもうけているソフト上に入力することしか出来ない。Googleならchrome上のドキュメントだし、iPhoneなら、iPhone内のメモ帳やメールなどのアプリである。
WordやExcelへの転送は出来ない。コピペなら出来るが、手間である。
ここを鑑みると、Excelなどにデータを書き留めるなら、AmiVoiceが使い勝手がいいかもしれない。
ソフトの学習のやり方の違いが、変換精度を上げた。
総括して言えば、もはや音声入力ソフトは、お金を出して買う時代ではなくなったかもしれない。今後Googleやappleが音声入力ソフトを販売すれば別だが、それでも無料で使える限り、ネット経由で音声入力を行った方が安上がりな上に、品質も良い。
先に音声入力ソフトが、学習すればするほどバカになっていくという話を書いたが、Googleとappleに関しては、従来の音声入力ソフトとは違う学習方法をとっており、それが現在の品質の高さにつながっているように思える。
Googleとappleは、ユーザーが自分でソフトに学習させる必要はない。また、自分が使い込んだからといって、ソフトが変化することもない。Googleとappleは、ネット上にソフト置き、AIアシスタントとしてユーザーに使用してもらって、そこから上がってくる膨大な使用状況データを元に、音声入力ソフトを育て上げている。これはすなわち、ユーザー個々人の特性に合わせるのではなく、多くのユーザーの平均値でソフトを作っていると言うことになる。
結果は、多くのユーザーの平均値を取った方が、音声入力の変換は、より優秀になっていくと言うことである。それは膨大なデーターの集積であるし、それによって、偏ったデータを是正することも出来るのだろう。
そのことを考えれば、ネット上にソフトがある事で、常にソフトは学習し、成長している。従って、音声入力は、ネット上にあるソフトの方が、より品質がいいと言うことになる。
現在はパソコンもスマホも常時接続であるから、まさに現代なればこそ可能になった音声入力の形と言うことになる。
かつては使い物にならなかった音声入力だが、現在ではその将来が楽しみになる存在となった。やがて、キーボードも不要の時代が来るかもしれない。