生成AI祭りが続くのはソフトウェア2.0の結果

2024年12月9日 08:30

毎月のように驚きの連続ですが、いつまで驚き続けるのかと思います。これからも続く生成AI祭りについてお話しします。

生成AI祭り

ここで祭りとは一斉に盛り上がるお祭り騒ぎのことを指します。
今月もOpenAIの12日連続デモ、GoogleのGinie 2の発表など驚きの連続です。生成AI関連のユーチューバーは驚き屋と化しています。
ChatGPT登場前も画像生成のStable Diffusionなどで驚いていました。ChatGPT登場以後の主な驚きの発表は以下の通りです（他にも多数ありますが取捨選択しました）：

2022年11月 ChatGPTリリース
2023年2月 ChatGPT 1億ユーザに到達、ChatGPT Plusリリース
2023年3月 GPT-APIリリース、GPT-4リリース
2023年7月 GPT-4 Code Interpreterリリース
2023年9月 GPT-4Vリリース
2023年11月 GPT-4 Turboリリース、GPTsリリース
2024年2月 Sora発表（発表のみ）、Ginie 発表、Gemini 1.5リリース
2024年5月 GPT-4oリリース
2024年6月 Claude 3.5 Sonnetリリース
2024年7月 GPT-4o miniリリース
2024年9月 o1-previewリリース
2024年12月 o1リリース、Genie 2発表

プレスリリースがあったもの以外にも、イリノイ大学のTransformerが万能チューリングマシンと同等とか、Googleのコンテクストウィンドウを効率的に無限化するInfini-attention ([munkhdalai]) とか驚きの発表が目白押しでした。
そのたびに驚いてはいますが、驚きが止まる様子はありません。今日から未来を見ると、今日が一番生成AIの能力がなかった日になることは明らかです。

大規模言語モデルの本質

元OpenAIのAndrej Kaparthyは難しい生成AIを素人に易しく教えてくれる動画で有名です。最近、Kaparthyの動画で生成AIを勉強しなおしてみました([kaparthy])。
大規模言語モデルとは何なのかというのは結局：

数百億個の実数の塊
数百行のコード

です。
プログラムしている部分は500行もないのです。行列計算ですから大量の計算をしますが、行数自体はたいしたことがないです。
つまり、人間が間違う部分が限られているということです。
数百億個の実数のほうは膨大ですが、こちらは計算機が作り出しているので人間が間違うのとは関係ないです。

ソフトウェア 2.0

最近、NVIDIAのJensen Huangがソフトウェア 2.0ということを言っています ([nvdia]) 。

ソフトウェア 1.0：人間が書いたコードをCPUが実行する
ソフトウェア2.0：機械学習に基づいてGPUが生成したコードがシステムを作る

調べてみるとソフトウェア 2.0自体は2017年くらいまでさかのぼる ([sbbit]) ようですが、いよいよ実現が近づいてきました。
これの優位なところは人間の錯誤が紛れ込んだ大量のコードを管理しなくていいことです。
大規模言語モデルも人間が書いているコードは数百行です。
このことが、データや計算資源の課題はあるにせよ、OpenAI以外の多くの企業が大規模言語モデルを開発することを可能にしています。
大規模言語モデルだけでなく、音声や画像や動画や推論のモデルも原理は同じです。
まして、MicrosoftのCEO Satya NaddellaがIgnite 2024で言ったように今やGPUの計算パワーは毎年4.2倍の速度で拡大しています ([microsoft])。
生成AI祭りが終わらない理由は人間がボトルネックになっていないためです。

むすび

今月はOpenAIが12営業日連続のデモ公開を予告 ([openai]) し、o1が登場しました。Google Gemini 2.0の公開もうわさされています。年末になっても生成AI祭りが続きそうです。
年中の祭りの中でどう本質を捉えて考えるかが問われそうです。

参考文献

[kaparthy] [1hr Talk] Intro to Large Language Models https://www.youtube.com/watch?v=zjkBMFhNj_g 59m47s Andrey Karparthy 2023年
[microsoft] Full Keynote: Satya Nadella at Microsoft Ignite 2024　https://www.youtube.com/watch?v=3YiB2OvK6sY Microsoft 1h16m19s 2024年
[munkhdalai] Tsendsuren Munkhdalai, Manaal Faruqui, Siddharth Gopal: Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention https://arxiv.org/abs/2404.07143 Apr 10 2024
[npaka] OpenAI のAIリリース年表https://note.com/npaka/n/nb07639ad8fb1
[nvdia] Jensen Huang Special Address from NVIDIA AI Summit Japan　https://www.youtube.com/watch?v=x8O6ChAWBxs 1h26m50s NVIDIA 2024年
[openai] 12 days of OpenAI https://openai.com/12-days/ 2024年
[qiu] Ruizhong Qiu, Zhe Xu, Wenxuan Bao, Hanghang Tong: Ask, and it shall be given: Turing completeness of prompting https://arxiv.org/abs/2411.01992 Nov 4, 2024
[sbbit] 「Software 2.0」がやってくる？テスラのAI部門長が語るプログラマの「これから」 https://www.sbbit.jp/article/cont1/34254 2017年