以下の投稿についてのプロダクション・ノート的まとめ。
はてさて自然言語の進化は写真の登場が肖像画家を、トーキー映画がサイレント映画弁士を駆逐した様な悲劇を再び繰り返すのでしょうか?
その話に踏み込む前に「そもそも機械学習技術とは何か?」という話から始めたいと思います。
LLM(Large Language Model)登場前夜の機械学習界隈の風景
機械学習技術の大源流、すなわち「訓練用データとテスト用データを分けて考える機械学習」概念の嚆矢はニューラル・コンピューティングの最も原始的な形態と等価の数理的推定モデル、すなわちロジスティック回帰(1958年)となります。
まぁこの段階では隠れ層もなければ、バックエンドで稼働してる数理モデルも最小二乗法に毛が生えた(というか、ほとんどそれそのものを利用した)線形分解タイプに過ぎなかった訳ですが、これ以降機械学習理論は「訓練用データとテスト用データを分けてそれぞれ別段階で与える」インターフェイス自体は全く変えないまま高度化の一途を辿り今日に至るのです。当事者は不満タラタラみたいですが、見た目がが同じ以上「人類の大源流は猿(より正確には「既に滅びた猿と人間の共通の祖先」)」というより確実な祖先性が現れているとしか言い様がないのですね。
この事を強く意識する様になったのは2010年代後半、Googleが2015年に機械学習ソフトウェア開発フレームワークTensorFlowをリリースした途端、人工知能界隈が一斉にこれに飛びついてブログにチュートリアルの進捗状況を書き連ねるのが流行するのを目の当たりにしてから。私が2017年以降数学再勉強に着手する契機の一つとなった出来事ですが、その内容がまさに「用意された訓練用とテスト用のデータセットに対して、ロジスティック回帰を嚆矢として次々とより高度なアルゴリズムを投入していき、誤差が次第に縮小していく様子を観察する」という内容だったのでした。
同時期にはKaggleにおける誤差縮小競争が加熱し「特定の既存データの学習について誤差を縮小させる事しか考えない研究者が増えた」「かかる不毛な競争が齎すのは単なる過学習結果に過ぎず、実用に結びつかない」といった批判が相次いでいたのです。同時にgoogleの開発フレームワークのみに人気が集まるのは独占を生むだけだ、なる主張も登場。イーロン・マスクが2017年にOpenAI社を設立したのも、同じ懸念を抱いたからとされています。
当時の機械学習界隈では深層学習よりランダムフォレスト法が発見された決定技の方が人気でしたが、この時代まで遡ればまぁ「機械学習とは何か?」について余計な思い込みを抱えるのは回避出来るという話ですね。その一方で「裏側がどうなっているか」については、もう手の負えない範囲に…
分布意味論的確率空間はベイズ推定と相性が悪い?
LLMも含め自然言語処理というのは「ある時間、ある空間範囲の」訓練データをベクトル化し、それぞれの出現頻度や条件付同時出現確率などから分布意味論的確率空間を構築するのを基本としています。
だから、ベイズ更新による「検索範囲絞り込み」はともかく「検索範囲拡大」への対応が理論上難しそうなのです(興味深い事に、完全に不可能ではない)。
例えば私がしばしば引用するノーバート・ウィナー「サイバネティクス(1948年初版、1961年増補)」についてChatGPTに要約させてみましょう。
「サイバネティクス」原典を通読してるので、この要約が「ウィーナーはサイバネティクスの原理を社会システムに適用しました」という箇所で軽くハルシネーション(Hallucination)を起こしている点を除けば、ほぼ正しいと断言出来ます。
そして…
その一方でこの内容は、「ベイズ更新」の概念を導入して以下の様に整理した方が実態に即しているとも感じる訳です。
1948年初版段階(事前確率空間)…軍事技術の延長線上に成立した情報理論は、当初あらゆる事象を線形フィードバックに分解可能と考えていた(FA(Factory Automation)やOA(Office Automation)くらいはこの理解で十分実装可能とも)。
1961年増補版段階(ベイズ推定1回目)…線形フィードバックに分解可能な事象が限られている事が明らかとなり、個体を構成する臓器間のホルモン分泌連鎖(生理学)や群を構成する個体のフェロモン(外部ホルモン)連鎖(生物行動学)の様な非線形フィードバックに関心を移すも当時のコンピューター性能の限界から、十分な研究が出来なかった(それでも「KGI(Key Goal Indicator)やKPI(Key Performance Indicator)の適切設定」や「ERP(Enterprise Resources Planning)」といった経営概念に影響を与える)。
それ以降の発展(ベイズ推定2回目以降)…それ以降の分子生物学や神経科学の発展とコンピューター科学の発展により「軍隊や生理学や生物行動学のアナロジーで考える」意義そのものが薄れ、今日に至る。
考えてみれば、以下で触れた「二つの方法論」のアンサンブル?
分布意味論的確率空間がベイズ推定を扱える場合
例えば「イタリアン・ファシズムと未来派の関係(当初は共鳴するも、やがて関係が破綻)」など。
こういう形で分布意味論的確率空間が成立すると、「検索範囲を絞り込んだ(イタリアン・ファシズムと未来派が対立する以前の事象のみ集めた)」ベイズ更新結果を事前確率空間に設定する形で「途中でベイズ更新が起こる」文章を作成出来るっぽいですね。
逆ポーランド記法の有用性と問題点
要するに人工知能は「AはBである」と先に結論を告げて「ここでいうAとは…」「ここでいうBとは…」と補足する論法を「出来ない」というより「許されてない」が、その制約を外してもまた別の問題が生じるだけだろう(あまりお勧めは出来ない)という話ですね。
とまぁ、こういう考え方さえ出来てればそう簡単には淘汰されないんじゃないかな、というのが私の立場な訳ですね。そんな感じで以下続報…