ChatGPTのAdvanced Voice Modeから分かるハルシネーションの解決策

2024年9月27日 17:50

こんにちは。ChatGPTから新しい高性能な音声機能であるAdvanced Voice Modeアドバンスドボイスモードが登場し、早速試してみました。前回までのテストプレイと比較すると、パターンがかなり追加されているようです。この記事では、新機能の特徴から、生成AIの未来の可能性まで、幅広く探っていきたいと思います。

以前のアドバンスドボイスを試した結果については、別の記事で詳しく紹介していますので、興味のある方はそちらもご覧ください。

👇前回までのアドバンスドボイスを試した結果はこちらから。

ChatGPTの新音声機能：感情表現の進化

ChatGPTの新しい音声機能で特に印象的だったのは、音声の細かな調整が可能になった点です。これにより、AIの表現の幅が大きく広がりました。

驚きの感情表現：うっふーん💗から笑い声まで

声のトーンやスピード、間の取り方、さらには吐息の量まで変えることができるようになりました。例えば、「うっふーん💕あはーん💕」や「あはは」といった、色気のある吐息から笑い声、怖い話し方から悲しい話し方、他にも様々な感情表現が自然なイントネーションで表現できるようになっています。
この変化は、AIとのコミュニケーションに新たな次元をもたらす可能性を秘めています。

進化したメモリ機能とロールプレイ能力

さらに驚いたのは、メモリ機能やカスタム指示に従ったロールプレイも可能になったことです。これにより、AIとのより深い、文脈に沿った対話が実現しました。ユーザーの好みや過去の対話履歴を踏まえた、よりパーソナライズされた体験が提供できるようになったのです。

しかし、この革新的な機能はあまり負荷のかかるリクエストにはAIは急に厳格な声で「ガイドラインに従い...」と言い、リクエストを強制終了させるようになっています。（エロはもちろんのこと、一人二役にさせるようなことや、悲しくいってもらおうとしただけでも強制終了するときがあります。まだ不安定ですね）

音声は従来の文字だけの時より適切な制限の範囲が厳しくなっているのかもしれません。規制されないように気を付けて運用しましょう。（私はガンガン試しますが）

生成AIのハルシネーション：問題か、それとも可能性か？

さて、これらの新機能、特に感情表現の豊かさは、生成AIの使用範囲を大きく広げる可能性を秘めています。従来、AIの「ハルシネーション」、つまり時に事実と異なる情報を生成してしまう特性は、大きな課題とされてきました。しかし、AIが感情表現を豊かに行えるようになったことで、この特性に対する新たな視点が生まれつつあります。

ハルシネーションの具体例：リンゴの木と創造性

ハルシネーションの具体例を見てみましょう。例えば、AIに「リンゴの木から生える果物を3つ挙げてください」と質問すると、AIは「リンゴ、ナシ、モモ」と答えるかもしれません。これは明らかに誤りですが、同時に興味深い創造性も示しています。

この回答は、AIが「果樹」という概念を理解し、似たような特徴を持つ果物を関連付けたことを示唆しています。つまり、AIは単純な事実の羅列ではなく、概念間の関連性を理解し、新しい組み合わせを生み出しているのです。

人間の創造的思考とAIのハルシネーション

このような「誤り」は、人間の創造的思考プロセスにも見られます。ブレインストーミングセッションでは、一見関連性のないアイデアを組み合わせることで、革新的なアイデアが生まれることがあります。AIのハルシネーションも、同様の創造的プロセスの一部と考えることができるのです。

その一つの答えとして、AIに正確な回答までを求めないというアプローチがあります。この考えに基づいた新しいヘルプデスクのアイデアについては、別の記事で詳しく述べていますので、ぜひご覧ください。

👇新しいヘルプデスクのアイデアはこちらから。

このヘルプデスクの記事で語っているように、私の考えはAIには人の悩みを「聞く力」に優れていると感じています。

トランスフォーマー：AIの「聞く力」を支える技術

AIの「聞く力」は、トランスフォーマーと呼ばれるAIの仕組みから説明できます。トランスフォーマーは、現代の多くの大規模言語モデル（LLM）の基盤となる革新的なアーキテクチャです。

以下の図は、トランスフォーマーの主要な特徴を視覚的に表現したものです：

この図が示すように、トランスフォーマーには3つの重要な特徴があります：

自己注意機構：
図の左側の赤いボックスで表現されているこの機能により、AIは入力された文章の各部分がお互いにどのように関連しているかを理解します。例えば、図の入力文「彼女は本を読んでいる。それはとても面白そうだ。」において、「それ」が「本」を指していることを理解できます。
並列処理能力：
図の中央の緑のボックスで示されるこの能力により、トランスフォーマーは文章を一度に処理できます。これは人間が文章を読む際、一字一字ではなく、文全体を一度に把握するのに似ています。
双方向の理解：
図の右側の青いボックスで表現されるこの特徴により、トランスフォーマーは文章を前後両方向から理解します。これにより、文脈に応じた適切な応答が可能になります。

これらの特徴が組み合わさることで、図の下部に示されるように、AIは入力文の意味を正確に理解し、「それ」が「本」を指していることを把握できるのです。

このような仕組みにより、トランスフォーマーベースのAIは、単に言葉を理解するだけでなく、文脈や感情、意図を読み取る能力を持っています。つまり、「聞く」という行為を、人間に近い形で実現しているのです。

例えば、ヘルプデスクでの対応を考えてみましょう。顧客が「製品が動かないんです」と言った場合、トランスフォーマーベースのAIは以下のようなプロセスで対応します：

文脈の理解：過去の会話履歴から、どの製品について話しているかを把握します。
感情の読み取り：顧客の言葉遣いや表現から、焦りや困惑といった感情を検知します。
意図の推測：単なる報告なのか、解決策を求めているのかを判断します。
適切な応答の生成：状況に応じて、共感を示しつつ具体的な解決策を提案します。

このような「聞く力」は、新しい音声機能によってさらに強化されています。声のトーンや間の取り方といった非言語的な要素も考慮に入れることで、より豊かで自然なコミュニケーションが可能になっているのです。

まとめ：ハルシネーションを超えて - 生成AIの新たな可能性

これまで見てきたように、生成AIには「ハルシネーション」と呼ばれる、時に事実と異なる情報を生成してしまう特性があります。しかし、この特性があるからこそ、私たちは生成AIの活用方法を再考する必要があるのです。

従来のAIに求められてきた「正確性」や「事実の伝達」にこだわるのではなく、生成AIの真の強みである「聞く力」や「感情理解能力」に注目すべきではないでしょうか。トランスフォーマーの仕組みが示すように、生成AIには人間の言葉を深く理解し、文脈に応じて適切に応答する能力があります。

今の使い方、特に情報検索や問題解決といった使い方ではハルシネーションの問題は解決できません。ハルシネーションは０にはならないという論文も出ています。

それよりもハルシネーションを問題としない使い道を模索することこそ生成AIの生きる道だと私は思っています。それは、人間と生成AIの真の共存だとは思いませんか。

技術の進歩と倫理的配慮のバランスを取りながら、私たちはAIとの新しい関係性を模索していく必要があります。「聞く力」を持ったAIとの対話は、私たちの生活や社会にどのような変革をもたらすのでしょうか。その答えを見つけるための探求は、まさに今、始まったばかりなのです。

ぜひ、ChatGPTの新しいアドバンスドボイスを試して未来を感じてください。

#AI #ChatGPT #生成AI #ハルシネーション #音声AI #トランスフォーマー #未来技術 #AIと人間 #桃色吐息#AdvancedVoice