【ChatGPT】スマホアプリ「音声モード」詳細マニュアル

2024年8月30日 07:13

はじめに

ChatGPTのスマホアプリはインストールしてますか？
では、「音声モード」は活用していますか？
音声モードとは、アプリの右下のヘッドホン🎧マークで始まるChatGPTとの会話モードです。
この会話モードを試したことがある方は多いと思いますが、使いこなせていますか？
以前、私が使ってみた時には、使い方が分からず、結局諦めて使わなくなってしまいました。
この記事では、音声モードを徹底的に解説した詳細マニュアルを作成しましたので、ChatGPTの音声モードを使って英会話の練習などを行いたい方に、ぜひ活用していただきたいと思います。

結論：攻略ポイントは、表示されている図形でChatGPTの状態を判断すること

結論から書くと、音声モードには大きく分けて3つの基本状態があり、画面に現れる図形が①円型（入力中）か②雲型（処理中）か③団子型（出力中）か、を見分けて現在のChatGPTの状態を判断し、ユーザーはそれに応じた行動を取る（あるいは「待つ」）ことで、音声モードを適切に操作できます。

この3つの基本状態を知るだけで、ユーザーはChatGPTに対して間違った行動を取らなくなり、会話の中断や二重送信、やり直しを避けられ、快適にChatGPTと会話できるようになります。

音声モードの始め方

音声モードの始め方は簡単です。ChatGPTスマホアプリの右下のヘッドホンマークを押すと渦巻きのようなものが現れて、音声モードが起動します。

【最重要】：音声モードの3つの基本状態

音声モードの3つの基本状態とは、①入力中の状態、②処理中の状態、③出力中の状態です。それを見分けるためのスクリーンショットを掲載します。
この項目は最重要であり、これを理解しておけば、大きく操作を誤ることはありません。

入力中：円型

ユーザーがとるべき行動：スマホのマイクに向かって話す

処理中：雲型

ユーザーがとるべき行動：待つ

出力中：団子型

ユーザーがとるべき行動：ChatGPTがしゃべっているので、それを聞く

状態判断のコツ

画面の文言（「中断するにはタップします」とか）を、気にしないようにしましょう。
現れる文言にはいろいろなバリエーションがありますが、それに惑わされて、慌てて画面を触ってしまうと、大体うまくいきません。
特に処理中や出力中に画面を触ると、ほとんどのケースで、音声入力のやり直しになります。
何も良いことはないです。

シンプルに図形の状態が3つのうちのどれなのかを把握し、とるべき行動を決めましょう。

音声モードは、上記のように基本的には「入力→処理→出力」をワンセットとしたパターンの繰り返しです。
このパターンを把握しておけば、ChatGPTと焦らずスムーズに会話できるようになります。
会話が中断した場合も、自分の状態がわかるので、支障なく再開できるようになります。

次に各状態の詳細を見ていきます。

入力中：円型の詳細

この場合の「入力」とは、ユーザーがスマートフォンに音声で話しかけることです。ChatGPTはスマホのマイク経由で音声を受け取り、データに変換してOpenAIのサーバに送ります。
前項で説明した通り、画面に円型が出ている間は、ChatGPTはユーザーの音声の入力を受け付けるモードです。

入力の受付状態と、非受付状態：マイクと音量表示

その場合は、スマホ画面の中央下部が、マイクと音量表示になっています。

逆に、音声入力を受け付けていない場合は、マイクの表示が暗くなっていて、マイク画像に斜線をつけられています。

音声入力受付状態になっていたとしても、周囲の雑音や、声が小さいなど、マイクが正確に音声を拾えなかった場合は、ChatGPTは、何とか音声入力を理解しようとして、いろいろなメッセージをユーザーに表示してくるため、ユーザーはどうしたら良いかわからなくなって混乱します。

このChatGPTの音声モードを使いこなすにあたり、最も難しいのはこの入力の場面です。一方、処理中と出力中はユーザーは何もすることがなく、待つか聞くかだけで、迷うことはほぼありません。
処理中と入力中に、ユーザーが気をつけなければならないのは、誤って画面を触らないようにするということぐらいです。
したがって、ChatGPTスマホアプリ攻略のコツは、すべてこの入力画面でユーザーの行動にかかっています。

入力中の「円型」時の表示には、うまく入力できていない理由に応じていくつかのパターンがありますので、個別に説明します。
パターンの状況に応じて対応するようにしましょう。

通常の入力受付状態

画面中央に円型の図形と、画面下部中央にマイクと音量表示が出ています。これが通常の入力受付状態です。

ユーザーは、できるだけ静かな場所で、はっきりとスマホのマイクに向かって話しかけましょう。
これがミスなく入力するために最も大切な対処方法です。

うまく音声を入力できた場合は、次の状態（雲型）に画面が変化します。

うまく音声を入力できなかった場合

この場合は、ChatGPTから、代替案として、画面をタップしながら話すよう促されます。
その理由は、周囲の雑音がうるさいか、口とスマホマイクの距離が遠いか、ユーザーの声が小さいかのいずれかであると推測します。
また、ユーザーが喋っている途中に、少し間を置くと、ChatGPTが勝手に処理中の雲型状態に移行してしまい、中途半端な入力になってしまうことも多々あります。

入力がうまくいかない場合は、
「手動操作を行うには押し続けます」
という日本語として意味不明な文言が出ますので、とりあえずは画面中心のグレーの円型か、背景の黒い部分をタップし、次の「強制入力モード」に移行します。

強制入力モード

すると、以下のように白い円型の周りに線が出てきて、ストップウォッチのように回転しはじめます。この状態に名前をつけるとすれば、「強制入力モード」ということになるでしょう。
できるだけ、スマホマイクを自分の口に近づけて、集中して話すようにしましょう。

ユーザーが画面を押している間は、ChatGPTは他のモードに切り替えず、ユーザーが音声入力することだけを受け付けている状態に固定されますので、その間にユーザーは集中して話しましょう。
話し終わったら、画面から指を離します。
指を離すことが、入力終了の合図になります。

画面から指を離した後に、雲型が出れば、ユーザーの音声が無事入力され、処理されている状態になりますので、後は待ちましょう。
そこそこ時間がかかっても、他の部分を触らずに待つことがポイントです。この間は右下や左下のボタンを押さないようにしましょう。

処理中：雲型の詳細

雲型が画面に出ているということは、ChatGPTがユーザーの音声入力を処理している状態です。
結構、この雲型の状態で時間がかかり、待たされる場合があります。特に、ChatGPTがユーザーに対する長い回答を準備している間は、1分程度待つ場合もあります。

これはOpenAIのサーバで情報処理している時間に加え、アメリカと日本間で通信している時間だけではありません。

サーバが処理し終わって、回答する内容がスマホに送られてきた後に、ChatGPTのスマホのスレッド画面上に回答の文字情報を1文字ずつ書き出している時間も含まれます。
それが分かるのは、雲型が出て、ある程度時間が経過してから、画面右下の赤い❌ボタン（中断ボタン）押して、ChatGPTのスレッド画面に戻ってみると、ChatGPTが回答の内容を書いている途中の状態を見ることができます。

すなわち、ChatGPTが次の段階で音声で回答する内容の全てを、あらかじめスレッドに書き出しているわけです。だから時間がかかります。
このことに気づいたことが、音声モードの攻略のポイントでした。

処理中の画面には、
「キャンセルするにはタップします」
という、いかにもユーザーを迷わせる文言が表示されますが、これに惑わされず、回答出力までに時間がかかったとしても、自信を持って待ってください。
（もちろん、本当にキャンセルしたい場合には画面をタップするのはOKです。）
タップすると入力画面（円型）に戻り、入力のやり直しになりますのでご注意ください。

結論としては、雲型が出ている間は、何もせずにじっくり待ちましょう。
ここで待ちきれずに、画面を触ってしまうと、それまでの入力が台無しになり、やり直しになったり、ChatGPTが急に外国語でしゃべりだしたりして、困ってしまいます。

出力中：団子型の詳細

ここまでの説明でご理解いただいたと思いますが、団子型が画面に出ている出力段階とは、ChatGPTが前段階である「雲型」の間に書き終えた原稿を、人工音声で読み上げているだけ、ということです。
そのため、この団子型の状態になれば、うまく前段階が処理されたことを意味するので、ユーザーは安心して音声を聞けば良いことになります。

ここでも、上記のスクリーンショットにある文
「中断するにはタップします」
に惑わされてはいけません。
画面に触れず、最後までChatGPTの音声を聞いてあげましょう。
ここでも、処理中（雲型）の場合同様、画面のどこかを誤ってタップすると入力画面（円型）に戻り、入力のやり直しになりますのでご注意ください。

もちろん、宅配便が来たとか、理由があって中断しなければならない場合は、画面をタップして中断して良いです。
しかし、出力中にこのような文が表示されていると、ユーザーは「このまま聞いていて良いのか？」と迷ってしまいますよね、と言いたいです。

中断しないほうが良いと思うもう一つの理由は、画面を触ってしまって出力を一旦中断すると、ChatGPTは、もう2度とそのターン（回）での音声出力をしてくれません。
よって、ユーザーがそのターンの回答を確認するには、スレッドに戻って文章を読む羽目になります。

おすすめの作法：音声モードは、スマホをデスクに置いて使おう

理由は、間違って画面を触らないためです。
間違って画面を触ってしまうと、処理中や出力中の状態がキャンセルされ、最初の入力状態に戻ってしまう＝それまでの努力が無駄になります。

もしやと思って、改めてOpenAIの音声モードのデモンストレーション動画を見直してみると、社員の多くはスマホをデスクに置いています。
明らかに、デモンストレーション中の誤動作を防ぐためです。

https://openai.com/index/hello-gpt-4o/

スマホを触っているが、明らかに音声モードではない。別の未開放のモードと思われる。

今までは、スマホを手に持って音声モードを使っていたので、「うわー、気づかなかったよ」と驚きました。

結論：音声モードを使用する場合には、誤動作を防ぐためにスマホをデスクに置いて使いましょう。

その他の状態

ミュート状態

入力中、処理中、出力中、いずれの場合でも、画面左下の◻︎ボタン（入力中は、＝を縦にしたマークのボタン）を押すと、ミュートの状態となります。
ミュートとは、スマホマイクがOFFになる状態で、ユーザーは音声入力できない状態です。

ミュート中には、画面左下にミュート解除ボタンが表示されており、それを押すと、入力画面に切り替わります。
処理中や出力中にこのボタンを押してしまうと、それまでの入力がキャンセルされてしまい、また最初から入力しなければならないので、極力押さないようにしましょう。
ある意味、罠です。

接続に失敗：通信状態が悪い

何らかの理由でOpenAIサーバとの接続が失敗した状態です。
もしかするとスマホの電波状態やWifiの電波状態が悪いせいかもしれません。
いずれにせよ、この表示が出た場合は、入力（円型）状態に戻り、音声入力をやり直すしかありません。

まとめ：音声モードの操作方法のコツを掴んで使い倒す

この記事を書いた背景

私は一度は使ってみたものの、使いづらくて、すぐに辞めてしまいました。
理由は、こちらから何かしゃべっても、ChatGPT側がそれをうまく受け取ってくれず、反応しなかったり、とんちんかんな回答だったりするためです。
ChatGPTの反応が遅いのはまだ我慢できますが、うまく会話がつながらないことが多いため、こりゃだめだと投げ捨てていました。
その後、音声モードでGPTsを作れることがわかり、数多くスマホ用GPTsを作っていく中で、音声モードの使い方を理解する必要に迫られました。

しかし、Google検索やYouTubeで調べても、操作画面の解説は全くと言って良いほど見当たらなかったので、納得いくまで徹底的に試し、その結果をnoteにまとめてみました。

今後の音声モードの展開予想

以下のようにOpenAIが自分で言っている通り、2024年中にChatGPTの有料版を使用しているユーザすべてに対し、高度な音声モードの利用ができるようになります。

それが始まると、またガラッと世界観が変わり、キーボード入力やフリック入力の世界観から、音声入力の世界観へのシフトが起こるのではないかと予想します。
音声入力はキーボード入力の5倍ぐらい速く入力できるので、時間効率性から言うと、これに勝るものはありません。
そうなる世界が来ることを前提に、それに備えて練習しておこう、という趣旨で音声入力をやってみても面白いと思います。

スピードだけではなく、今後AIが実装されていくロボットなどとのコミュニケーションや操作も、音声入力が主流になるでしょう。
その時の有力な選択肢の1つとして、おそらくこのオープンAIの音声モードがAPIとして一般に利用が解放されるでしょう。

音声モードで使えるChatGPT無料スマホアプリ（GPTs）

音声モードを使用したGPTsは、英会話を中心として、こちらにたくさん掲載しているので、ぜひお試しいただければと思います。

【重版決定】ChatGPTをカスタマイズして作るAIアプリ

ChatGPTのカスタマイズアプリGPTsを自分で作って世界に公開したい方はこちら！プログラミングは不要です。