見出し画像

「こんちには みさなん」:人間とLLMの理解🤔

以下のようなコピペを一度は見たことは無いでしょうか。

こんちには みさなん おんげき ですか?

わしたは げんき です。 この ぶんょしう は いりぎす の ケブンッリジ だがいく の けゅきんう の けっか にんんげ は もじ を にしんき する とき その さしいょ と さいご の もさじえ あいてっれば じばんゅん は めくちちゃゃ でも ちんゃと よめる という けゅきんう に もづいとて わざと もじの じんばゅん を いかれえて あまりす。
どでうす? ちんゃと よゃちめう でしょ?
ちんゃと よためら はのんう よしろく

ケンブリッジ大学のコピペ(とされるもの。実際はケンブリッジ大学は関係ない。)

これ、すごいですよね。よくよく見ると、文字の順番がめちゃくちゃです。それでも、読めてしまうのが面白いところです。この現象は「Typoglycemia(タイポグリセミア)」と呼ばれ、単語の最初と最後の文字が正しい位置にあれば、間の文字が並び替えられていても人間が読める現象です。

それにしても、人間の補完力は驚くべきものです。これこそ、AI(大規模言語モデル:LLM)に勝てるポイントなのでは?と思ったのですが、実はそうでもないようです。


TypoglycemiaとAI(LLM)の理解

少し調べてみると、TypoglycemiaとLLMの関係を探った研究が既に存在していました。2024年に発表された論文「Mind Scramble」では、シャッフルされたテキストを使用してLLMの認知プロセスを分析しています。

この研究によれば、LLMには以下のような特性があります:

  1. シャッフルされたテキストでも高い精度で意味を推測可能

  2. 人間と同様に文脈を活用するが、シャッフルの程度に限界がある

  3. 長い単語や未知の構造に対しては頑健性が低下する

また、「Unnatural Error Correction」という論文では、GPT-4が極端にシャッフルされたテキストをほぼ完璧に復元できることが示されています。

実験結果

試しに手元のChatGPT-4oに先ほどのコピペを投げてみました。すると、ある程度綺麗に復元してくれました。

脳をよろしく!はご愛嬌。

次に名誉挽回、英文で試してみました。

こちらは正しく復元してくれました(後半省略しましたが)。やはり英語が強い。

次にお試しで、逆にこのような文を作ってもらいました。しかし、やはり日本語は苦手ですね。ただのカタコトの外国人のようになっています。

正しくない出力をさせるのは苦手なようです。
その点で言えば、この手のタスクはまだ人間が優勢なのかもしれません。

LLM(大規模言語モデル)と人間の違い

では、LLMと人間の「理解」は同じと言えるでしょうか?答えは「ノー」です。人間は、単語を文字ごとに解釈するのではなく、全体の形状やパターンを認識することで意味を把握します。

一方、LLMは単語を「トークン」と呼ばれる単位に分解して学習しています。この仕組みにより、以下のような形で正しい文章を導き出していると考えられます:

  1. トークン化の影響
    例えば「こんにちは」は、「こ」「ん」「に」「ちは」といったトークンに分割されるため、シャッフルがあっても一部のトークンが一致すれば元の意味を推測可能です。※追記:ChatGPT-4oであれば1トークンとして「こんにちは」を扱います。ChatGPT-3であれば、(なぜか)6トークンとして扱っています。(OpenAI公式のTokenizerで確認しました。)

  2. コンテキストの利用
    「こにちはん」といった誤字も、周囲の文脈(例:「みさなん おげんき ですか?」)から元の「こんにちは」を予測することができます。

つまり、LLMの「理解」は人間のような概念的な理解ではなく、高度に洗練された統計的なパターン認識だと言えます。それでも、人間に似た振る舞いを示せる点は非常に興味深いですね。

まとめ

Typoglycemiaの研究は、LLMの「人間らしさ」を評価する新たなベンチマークとしての可能性を示しています。特に、モデルがどのように文脈やパターンを補完するかを分析することで、人間の認知プロセスとの類似点と違いを明確にできるでしょう。

この現象は、単なる面白い言語現象に留まりません。大規模言語モデルの理解力や限界を探る鍵としても重要です。Typoglycemiaを通じて、人間とAIの情報処理や解釈の違いを考えるきっかけになれば幸いです。

いいなと思ったら応援しよう!