勘繰り1
GPUでAGIいける?
*AGIの定義が人によりけり。参考までに、孫正義のプレゼン(https://youtube.com/shorts/EXP0c-f6HoE?si=If02uciaurJEFngl)資料にある定義 :
結論 : いける
・GPUの計算量だと粒子レベルでシミュレーションしたりは骨が折れる。一方、人間はあくまでオブジェクト単位で認識したり理解したりするので、”それっぽく”なっていれば工学的には満足する。
・例えば、ChatGPT3.5 → ChatGPT4.0 → ChatGPT4.5 → …とトントン拍子に進まなかったように、ただパラメータ増やしてモデルを大きくしても良質データないと性能向上しない。すでにインターネット上に公開されているデータを大部分学習し尽くしたことを踏まえれば(お墨付き : https://x.com/_jasonwei/status/1867696401830096970)、この手法だと頭打ちする(していた)。と思いきや、今度は最終的な回答の正誤だけでなく、その回答に至るまでの思考回路の妥当性までを評価することによりモデルの性能を向上させるパラダイムに入った(ChatGPTでいうo1、o3シリーズ)。o1 → o3までたった3ヶ月だったことを踏まえれば、もうしばらくこのパラダイムで性能が伸長しそう
・GPUはそもそも主に3Dグラフィクスの高速レンダリングなどに特化された設計。ビットコインのマイニングがGPUからASICに移行したように、あんまりテクいtweakが求められない推論工程はASICに移行しそう。ここの市場を狙ってEtched、Cerebras、Groqなどベンチャーがプレゼンス示してきている。例えば、LLMに最適化した推論チップを開発しているGroq鬼速い(ここで試せる : https://groq.com/)。一方、テクいtweakが求められる訓練工程では、NVIDIAが依然として幅を効かせる展開そう。みんなNVIDIAのAI開発環境(CUDA)溺愛している訳だし。
生体脳なんて20W(電球1個分)の電力で稼働しているから、もっと生体脳を忠実に模倣すればよくね?
1 - 今のAIは単語(厳密に言うとトークン)同士の相互関係を線形行列により表現・計算しているけど、生体脳はスパイクベース(ニューロンが発火する or 発火しない)なので表現できる情報の帯域幅が限られる。とは言っても、生体脳の我々は問題なく言語コミュニケーションできてるやん → Indeed。しかし生体脳の場合は、どのニューロンがどのタイミングでどれくらいの頻度で発火したなどの無数の要素が超複雑に組み合わさることで、帯域幅ある情報を表現できている。そして、この生体脳における超複雑構造を模倣するのはまだまだかかる。よくあるAIは感情あるない議論、生体脳に比べて今のAIは構造シンプル過ぎるので、この路線ではAIに感情芽生えなそう。
2 - 進化の過程で結果論的に、生体脳はエネルギー効率・適応性を優先する構造を採用した。この構造を忠実に模倣しても性能面において爆発的なスケール(AGI・ASI)は見込めなくない? CF . 生体脳だと言語学習に猛烈に時間かかる。知識とは結局シナプス結合の強度、例えば、”Human”という英単語を参照すると、考えなくても反射的に人間が連想されるのは、”Human”と人間を司るシナプス結合の強度が鍛えられているから。ではどうやって鍛えた? ある英単語を覚えるために、我々は英単語を開いて同じページを無数に繰り返し訪ねたりして、原始的に狙ったシナプス結合の強度をちびちび鍛える。さらに、重複して量産しちゃったりする。例えば、学生達が、もう欲しい完成形のシナプス結合の強度(ここでは、入試突破させてくれるシナプス結合の強度)は分かっているのに、ちまちま教科書を反復復習する。入試突破させてくれるシナプス結合の強度という共通ゴールをシェアしているのにも関わらず、みんな独立してバラバラに、重複して量産しちゃっている。”入試突破させてくれるシナプス結合の強度”をエンジニアすれば一瞬じゃん。あれなんだか聞き覚えがある → 今のAI (このシナプス結合の強度がパラメータの重みに対応)
3 - 生体脳を忠実に模倣したAIに最適化されたハードウェアが発展途上。
量子コンピューターにより計算速度・効率が桁違いになるから、これでAGIいけるやろ?
1 - そもそも量子コンピューターを活用すれば、計算速度・効率が桁違いになると騒がれている主要な理由として、量子重ね合わせがある。例えば、コイン投げをすれば、コインは最終的に表もしくは裏に落ち着く。ここで、コインが着地するまでの宙に浮いている間は表と裏の両方の状態が重なり合ったまま存在している、と量子世界では考える。ここで表と裏をそれぞれ0と1とすれば、量子重ね合わせを活用すれば0と1を同時に表現することができる。このように量子ビットには豊富な表現力ある。だけど、必ずしも、表現力ある = 性能いいとはならない。例えば、逆に、十分なデータが与えられないとそのデータのノイズやら本質的でない特徴などに敏感になり過ぎて、サンプルパターンからの一般化に失敗しがち(過学習)。この課題に対して、今のAIには盤石なテクニック(正規化、ドロップアウトなど)があるけど、量子回路ではこれらに対応するテクニックは発展途上。
2 - 量子回路における処理自体はイメージ直線だけで表せるくらい淡白(線形)(エンコーディングと測定除きユニタリ操作)。一方、今のAIにおける処理は、イメージ直線だけでは表せないくらい高度(非線形)かつ柔軟にカスタマイズできる。
3 - 今のAIの肝であるアルゴリズム(バックプロパゲーションなど)を活用するには、処理の途中式を参照することがマスト。だけど、量子回路において、量子状態を参照しようとすると、その状態が崩壊して情報が失われる(先述のコイン投げの例において、着地するまで宙に浮いているコインを無理矢理参照しようとしても、コインは表もしくは裏に落ち着くのと同じ現象)。なので、今のAIの肝であるアルゴリズム(バックプロパゲーションなど)を量子回路にアプライする技術的ハードルがある。
4 - 今のAIは望む結果を回答するようにパラメーターが最適化されている。このパラメーターを最適化する為に欠かせないのがそれぞれのパラメーターどれくらいいじるべきという情報(勾配)。量子回路では、この勾配がほとんどのパラメータにおいて0になったりするせいで最適化プロセスが頓挫する(Barren Plateau)。
5 - 今のAIではそれぞれのパラメーターおける勾配は一気に計算してくれるけど、量子回路(Parameter Shift Rule)ではそれぞれのパラメータ毎に2回、バラバラに測定しないといけないので、めんどくさすぎて途方に暮れる。量子コンピューターでAI爆速とか大嘘。
6 - 今のAIの本質はサンプルパターンからの一般化。それに対して、量子コンピューティングの本質は構造化された問題を効率的に解くこと。そもそも異質なので、今のAIの肝アルゴリズム(バックプロパゲーションなど)を量子コンピューティングにそのまま移植は無理やり感否めない。CF . 正解導くには天文学的時間かかるから安全というタイプの暗号(ブロックチェーンの楕円曲線暗号含むけど、ビットコインは耐量子用にソフトフォークするらしい by ビットコイナー)は破れる、実験科学のシミュレーションなど特定の場面において、秀でるだろう。しかし、今のAIを代替はしてくれない(今のAIとのハイブリッドにより、性能ブーストは間違いなくされる。例えば、莫大な候補から超効率的に正解を突き止められる量子コンピューターのアルゴリズム(グローバーのアルゴリズム)は強化学習の探索にアプライできる、量子ビットの表現力を活かせばより精度ある特徴抽出できる、など)。