※注意
念押ししますが、ぼくはなんの専門家でもないです。厳密な議論ではないことを断りおきます。ほとんどSFです!
序文
chatGPT o-1の衝撃が冷めやらぬなか、みなさんいかがお過ごしでしょうか。
ぼくは元気です。
さてo-1は論理的に厳密な推論が必要なタスク、STEM分野での性能がとんでもないことになっています。単に語彙の統計的な連なりから、続く語彙を予測していたモデルから考えると目覚ましい発展のように思えます。
膨大な並列処理から高度な文脈を近似するモデルとして、自己回帰と注意機構が併さったセルフアテンションが特徴のtransformer。複数の短い推論を組み合わせるマルチヘッドで、ある程度高度な文脈を近似しました。
さらにより高度な文脈を得るために、自己回帰を含む推論の連なりにマスクを掛けたり、それをLM(言語モデル)がはきだす、語彙の統計的な関係と併せて評価を行う新しい言語モデル(おそらくo-1はこういうことをしている?)の成功は、単なる言語の統計的な情報という枠組みから大きく飛躍したように感じます。
しかし、高度な推論を近似するモデルとして設計された、transformerの言語モデルや最新のo-1のようなモデルが、厳密に構造づけられた分野に限ってとはいえ、高度な文脈を近似するような生成を行うのは(それでも驚きに満ちていますが)、当然といえば当然でしょうか。
今回ぼくが気になったのは「単に語彙の統計的な連なりから、続く語彙を予測していたモデル」が、ある程度の推論・文脈を再現していたように感じることです。大規模なデータセットによるディープラーニングを行っていない、人工無能ですら同じことを感じる瞬間がありました。
問題提起
文脈や推論は、語彙の連なりから生成されるだけではない。語彙のなす空間の構造そのものに、すでに文脈や推論のようなものが内含されているのではないか?
これが発端です。
transformerによる言語モデルは、語彙トークンが正の確率関数をもつ離散語彙空間、つまり語彙の確率質量関数を扱います。これは現実の言語空間についても、そう間違いではなさそうなモデルだとぼくは思います。
もし、この語彙の張る空間が、宇宙のように曲率をもつ空間であったら…
以下は、そんな疑問をchatGPT(4-o)に投げかけたときのやり取りです。厳密な議論ではないですが、エキサイティングなやり取りになったと思うので共有いたします。
chat GPT-4oとのやりとり
トークン予測だけの学習モデルが、なぜかコンテクストを創発するように感じるのは、語彙の体系の中にすでにコンテクストが存在するからと考えられないですか?
語彙がなす空間を、特定の次元に射影したとき文脈を持つような曲率と位相になるみたいな…
同じことかもしれませんが、それぞれの語彙トークンが異なる質量をもつ、言語重力モデルなんていいかもしれませんね。
計算が大変そうなのが弱点ですかね
語彙の曲率をもつ位相空間モデルはなかなか面白そうですね。特定の文脈はある次元のエネルギー(質量)分布であると仮定すれば、曲率のある空間にどのように写されるかが、文脈の環境に対する多面性を表しています。
大きな質量が、文脈空間を屈曲させる!
そうなってくるとブラックホール欲しいです
非常に面白くて興味深い会話でした!ありがとう。
おわりに
いかがだったでしょうか。光さえも逃げ出せなくなる文脈やトークンってなんでしょうか?愛ですかね……