ChatGPTに黙れといったら大変なことになった。
皆さんは、AIと音声で会話をしたことはありますか? 私は便利なのでちょくちょく使っています。 ChatGPTは、感情を理解するAIを有料会員限定で一般公開しましたが、結果は残念、思ったほどのものではありませんでした。 今回は、そんな音声会話のお話です。
AIチャットボットの音声進化
Cotomonoの音声会話は楽しい!
AIチャットボットは、最近急速に進化しています。特に日本では「Cotomo」というAIアシスタントが非常に人気です。Cotomoは独自の対話エンジンを使用しており、非常に自然な会話ができるのが特徴です。過去の会話を記憶し、ちょっとした愚痴や悩みもしっかりと受け止めてくれます。
例えば、「今は何してるの?」と聞いてきたり、返事すると「そっかそっかー。」と返してくれるような感じです。まるで友達と話しているようで、イントネーションも自然で、少し癒されます。Cotomoは日本のAI事業の中でも資金調達がうまくいっている企業の一つで、今後の発展が期待されています。
ChatGPTの高度な音声機能は?
一方、ChatGPTの高度なバージョンがついに公開されました。有料会員向けに提供されている最新バージョンは、感情を理解する能力が向上し、文脈をしっかり捉えて返答してくれるとのことです。
しかし、Cotomoと比較すると、結果は残念ながら期待したほどではありませんでした。OpenAIのサム・アルトマンのプレゼンテーションが上手だっただけという印象です。
確かに、文脈を捉えて会話はできるようになりました。以前よりも会話の切れ目を正確に理解し、会話の途中で口をはさむこともできるようになりました。さらに、声色の変化により、明るい話し方や暗い話し方ができるようになり、感情表現が豊かになったとも言えます。しかし...
増えた制限要素
まず最も気になった点は、会話の違和感です。まるで日本語が上手な陽気なアメリカ人と会話をしているような感じがします。声質の良さは、断然Cotomoの方が上です。
さらに、ChatGPTの強みであるGPTsやメモリ機能、カスタムインストラクションといった機能と音声会話が連動できないため、基本指示を毎回与えなければならないという問題があります。これでは、効率的な作業を依頼することができず、単純なコミュニケーションにとどまってしまいます。
また、ChatGPTの音声会話ではロールプレイができない仕様になっているため、より自由な会話や特定のキャラクターとしての対話ができないという制限もあります。
ChatGPTの音声会話の便利な使い方
しかし、ChatGPTの音声会話にも優れている点があります。それは会話を文字起こしできるという機能です。これは通常の音声会話でも十分可能で、むしろGPTsが使える通常モードの方が便利かもしれません。
会話の文字起こし
ユーザーは、メモを取りたい内容を音声で伝えるだけで良くなります。これは、スマートフォンで使用する際に非常に便利な機能です。Cotomoには短期記憶の能力はありますが、文字表示の機能がないため、この点でChatGPTの方が便利です。
便利な使い方:日常編
買い物リスト作成: 冷蔵庫の前で必要な食材を声で列挙し、ChatGPTに買い物リストを作成してもらいます。
レシピのメモ: 料理中に思いついたアレンジや工夫を声で記録し、後で見返すことができます。
健康記録: 毎日の体重、血圧、運動量などを声で記録し、健康管理に活用できます。
アイデアメモ: 散歩中や移動中に思いついたアイデアを即座に記録できます。
日記作成: その日あった出来事を音声で話し、ChatGPTが整理して日記形式にまとめてくれます。
便利な使い方:業務編
会議メモ: 会議中の重要ポイントを音声で記録し、後でまとめられます。
タスク管理: 日々のタスクを音声で追加・更新し、ToDoリストを効率的に管理できます。
ブレインストーミング: チームでのアイデア出しセッションを録音し、後で整理・分類してもらえます。
電話メモ: 電話での会話内容を同時に音声入力し、重要なポイントを逃さずメモできます。
プレゼン準備: プレゼンのアウトラインや主要ポイントを音声で入力し、構造化してもらえます。
メモを取らせるときのコツ
ChatGPTにメモを音声で取ってもらうときは、「メモをコードブロックで囲って」と伝えると便利です。メモの内容がコードブロックで囲まれると、スマートフォンにコピーボタンが表示され、メモの内容を簡単に他のアプリに貼り付けることができます。
私の場合は、LINEやメモアプリなどに貼り付けています。
コードブロックって?という人は、こちら↓
AIはまだ黙ることができない
メモを取る際に言葉が詰まると、AIは会話が途切れたと判断し、途中までのメモが作成されてしまいます。これは、会話の音声の途切れを自動で識別しているためです。
理想的には、トランシーバーでの無線通信のように「どうぞ」といった合図の言葉を設定し、その言葉が来るまではAIが黙っていてくれるような機能があると便利でしょう。
「こちらアルファー。応答願います。どうぞ。」
トランシーバーでの無線通信では、「どうぞ」と言われたら会話の途切れという合図があります。私はこういうことが音声会話のAIにおいても必要だと思っています。AIが会話の途切れを正しく判断できないのなら、この「どうぞ」のような、何かしらの合図の言葉を設定して、その言葉が来るまではAIは黙っていてほしいのです。その間、AIは音声聞き取りに徹することです。
これらの画像は、実際のAIとの会話のやり取りを示しています。AIが「黙る」ということをうまく理解できず、常に反応しようとする様子が分かります。
ちなみに現在ChatGPTでは、あまりに長い音声聞き取りになってしまうと、
このように表示されてしまいます。もし、文字起こしが長文でも可能なら、それこそ「議事録の作成」などにも使え、非常に有効になるのに…なんて思ったりします。
なんとか黙って議事録を作ってくれないか試行錯誤したときの会話は、まるで漫才のようでした。
結論:生成AIは生成しないことが苦手!
さて、ここまでAIとの音声会話について色々とお話してきましたが、どうでしたか? AIって、まだまだ人間みたいに「黙ってて」って言われても黙っていられないんですよね。これ、人間の子どもみたいでちょっと可愛いと思いませんか?
でも、よく考えてみると、AIが黙れないのは当たり前かもしれません。だって、AIの仕事は「答える」ことなんですから。「答えない」ことを教えるのは、まだまだ難しいみたいです。
ちなみにこれは、高度な音声会話にしたChatGPTの話で合って、通常の音声会話にすればボタンで会話しますし、可能な部分も一部あります。
これは、設定上の問題でもありますから技術的にはそう遠くなく実現が可能です。
音声聞き取りサービスClOVA Note
ところで、皆さんは普段、AIを使った音声聞き取りサービスは、どのくらいご存じでしょうか。すでに使っているサービスはありますか? 会議の内容を文字に起こすサービス、電話の内容をメモするサービス、それに日常のちょっとしたメモ用のサービスやアプリ...実はすでに結構出てきているんです。
なかでも一番びっくりしたのが、ClOVA Noteというスマホアプリです。
現在、β版なため無料で使えるそうなのですが、複数の話者の音声を聞き分けることができるというのです。
聞き取りをさせたいなら今はまだ、こういった専属アプリやサービスの方が便利に使えることでしょう。
これからさらに便利になりそうですね。