【新習慣】生成AIとの[対話]-文字入力の致命的な欠点,2025年仕事効率の劇的UP

2024年12月29日 20:15

　音声入力とキーボードの歴史について書いた、前回の記事の続きです。

　Chat-GPTの「マイク」のアイコンをクリックし、アイデアを瞬時に口に出し、AIにまとめさせたり資料を作成させたりすることで、タイピング作業の何倍もの効率化を実感……。

　という便利さは大前提としつつも、本記事では文字入力によって重要な情報が損なわれていること、そして発声による入力こそ、感情を含めた膨大な情報が相手（AI）に伝わる、その重要性について、述べていきます。

文字入力の「致命的な欠点」の解消

　文字のコミュニケーションには、感情に流されず、落ち着いて言いたいことを整理できる、やり取りを記録しやすい、声を出せない環境でも使える、などのメリットがあります。それもあって、僕らは長年、キーボードによるタイピングでコンピュータと付き合ってきました。

　例えば、直にやりとりしたら感情的にヒートアップしてしまいそうな交渉ごとを、文字のやりとりで冷静に進めることができるのは、ビジネスにとって大切なことです。

しかし、コミュニケーションという面では、書き言葉においては大切な部分が欠落するのは事実です。

・感情表現の省略・欠落

　文字情報のみでは、声のトーンや表情、身振り手振りといった非言語的な情報が伝わりません。そのため、真面目な内容なのか冗談なのか、喜んでいるのか落ち込んでいるのか、といった感情が、読み手に伝わりづらいことがあります。

　そのために、絵文字やスタンプなどで補うという工夫も生まれました。しかし、声の微妙な抑揚やリアクションほど豊かには表現しきれない場合が多いですね。

・誤解が生まれやすい

　文字では、読む側が自分の文脈で解釈してしまいがちです。特に、短い言葉だけでやり取りすると「怒っているのか」「冷たい印象なのか」などと相手が勝手に推測してしまうこともあります。

　声ならすぐにトーンや間の取り方、言い回しなどで補足できるのですが、テキストだとそうした自然なやり取りが難しく、意図せず誤解を招くこともあります。

・タイピングによる“表現の負担”

　声に比べてタイピングは、いったん頭の中で文章を整理・編集してから打ち込むことが多いものです。また、漢字変換や誤字脱字の修正、文章の構成などにも気を配る必要があるため、「自分の思いを即座に伝える」というよりは、文章を一度“書類化”する感覚に近い面があります。

　これが「書き言葉にする過程で情報が抜け落ち、実はうまく伝わっていない」という伝達不足、さらには、「ちゃんと伝えることができなかった」という発信する側のフラストレーションにつながることもあるでしょう。

・リアルタイムのフィードバックの欠如

　相手の声や表情の変化が見えない・聞こえないため、つい丁寧になりすぎたり逆に短くなりすぎたりして、自分の感情がこもっていないような文章になってしまうこともあります。

リアルタイムで相手の反応を感じ取って補正するというプロセスが、文字入力では制限されがちです。

「AIって使えないよね」も、書き言葉によるコミュニケーション不足？

　「生成AIって、使えないよね」という感想をよく聞きます。

　僕は、その何割かは、実はこうした、「書き言葉という手段では、相手（AI）に、希望をきちんと伝えることができなかった」という、意思疎通がうまくいかなかったことの結果なのではないか、と感じることが多々あります。

【情報】音声認識技術の進化-OpenAI「Advanced Voice Mode」とGoogle「Gemini Live」で実装済み

　さて。最新の音声認識技術は、非常に高精度です。

　特にここ数年で大きな進歩があり、2010年代後半からディープラーニングを活用した技術が本格化したことで、認識精度が飛躍的に向上しました。

　そこに生成AIのマルチンモーダルという技術が加わることにより、雑音が多い環境でも正確に音声を文字化でき、多少の誤変換があってもAIが文脈を補完してくれます。これにより、作業の流れが途切れることなく進められるようになりました。

　そこに、今年の12月に、OpenAIとGoogleから同時に、感情を理解して、かつ、相手の顔をカメラで見ながら、リアルタイムで会話できる機能がついに登場しました。

OpenAIの「Advanced Voice Mode」は、声のみでなく見ている情報に対してもリアルタイムで音声で会話することが可能になりました。

　同様に、Googleの「Gemini Live」も今月ついにリリースされましたね。

　加えて、すごく進化したのは、相手の感情を声色やトーン、話す内容、顔の表情から、読み取れるようになってきたことです。

　まだ、感情読み取り精度は低いですが、来年の今頃には充分満足できる制度に向上していることでしょう。

　こうなると、文字より音声でAiとやりとりする方がはるかに優れてコミュニケーションが取れることになります。

繰り返しますが、音声に含まれる感情という重要で膨大な情報を、AIは音声入力でキャッチしているのです。

【情報】骨伝導やサイレントボイスでさらに便利に

　とはいえ、人前で音声入力を使うことに、まだまだ抵抗がある方も多いかもしれません。

　その理由として、音声入力をしている人が周囲から奇異な目で見られたり、話し声が周囲の人に迷惑に感じられたりすることが挙げられます。

　しかし、こうした課題も骨伝導イヤホンやサイレントボイス技術によって解決可能です。

　骨伝導なら周囲の音を聞きながらAIと会話でき、サイレントボイスではほぼ声を出さずに音声認識が可能です。

公共の場でも、周囲を気にせず音声でAIと対話できる環境が整いつつあるのです。

音声入力への移行を妨げているのは

　述べてきたように、音声入力には、業務効率化以外にも大きなメリットがあります。それにもかかわらず、多くの人がいまだにキーボード入力にこだわるのは、なぜでしょう。

　その背景には、文字入力が「慣れ親しんだ手法」であることや、「音声での入力が周囲に聞かれるのではないか」、「パソコンに話しかけて仕事をしているとおかしな人と思われるのではないか」、という心理的な抵抗がありそうです。

　また、音声認識が登場し、精度が格段にアップしてから間もないため、キーボードに比べて信頼性が劣ると感じて（思い込んで）いる人も少なくありません。

　しかし、音声認識が徐々に日常のスタンダードになることで、こうした抵抗感は徐々に解消されていくでしょう。

　前述のサイレントスピークなどが今後開発されてきますし、今でも、AppleのAirPods Pro 2や、BOSEの高級イヤホンのような、高度なノイズキャンセリング機能がついたイヤホンをして全員が装着して仕事さえすれば、隣の人の話し声自体が聞こえなくなりますよね。

　そもそも、電車の中で、友人同士で話すのはOkで、スマホのAIにマイクを通じてブツブツしゃべるのはおかしい、というのは、固定概念による「慣れ」以外の何者でもありません。

　なぜなら、どちらも「うるさい」のは同じですから（笑）。　

生成AIと話すことで生成AIの利用は格段に進む

　声でAIと話すことは、入力の手間が省け、時間が効率化されるだけでなく、自分の感情やニュアンスを、声と顔の表情などで、AIに理解してもらうことができるというメリットがあり、一度使うとキーボードでAIを使う世界には戻れなくなります。

　僕も、毎日生成AIを3時間ほど使っていますが、ほとんどは音声で生成AIに話しかけています。

　音声でなくキーボードだけで生成AIを使ってくれ、と言われたら、僕はおそらく使う時間が減ることでしょう。

　それぐらい、キーボードで生成AIを使うのと音声で使うのとは、雲例の差があることに、一人でも多くの方に気がついてほしいな、と思っています。

年末年始にAdvanced Voice ModeとGemini Liveを試してみよう

　音声入力に抵抗を示すことが多い人がまだまだ多い現在。あなたがもし、まだ音声入力を試したことがないなら、この年末年始がチャンスです。

　仕事でなくても、ちょっとした調べものや語学学習など、AIとのやり取りで、ぜひ試してみてください。

　そしてぜひ、僕がさきほど書いた、AIとのよりよい意思疎通という面で、キーボード入力との違いを比べてみてください。音声入力に慣れることが、2025年の仕事面で、あなたに大きな飛躍をもたらしてくれるかもしれません。

　先ほどのリンクを今一度。

OpenAI「Advanced Voice Mode」

Google「Gemini Live」