見出し画像

生成AI祭りが続くのはソフトウェア2.0の結果

毎月のように驚きの連続ですが、いつまで驚き続けるのかと思います。これからも続く生成AI祭りについてお話しします。


生成AI祭り

ここで祭りとは一斉に盛り上がるお祭り騒ぎのことを指します。
今月もOpenAIの12日連続デモ、GoogleのGinie 2の発表など驚きの連続です。生成AI関連のユーチューバーは驚き屋と化しています。
ChatGPT登場前も画像生成のStable Diffusionなどで驚いていました。ChatGPT登場以後の主な驚きの発表は以下の通りです(他にも多数ありますが取捨選択しました):

  • 2022年11月 ChatGPTリリース

  • 2023年2月 ChatGPT 1億ユーザに到達、ChatGPT Plusリリース

  • 2023年3月 GPT-APIリリース、GPT-4リリース

  • 2023年7月 GPT-4 Code Interpreterリリース

  • 2023年9月 GPT-4Vリリース

  • 2023年11月 GPT-4 Turboリリース、GPTsリリース

  • 2024年2月 Sora発表(発表のみ)、Ginie 発表、Gemini 1.5リリース

  • 2024年5月 GPT-4oリリース

  • 2024年6月 Claude 3.5 Sonnetリリース

  • 2024年7月 GPT-4o miniリリース

  • 2024年9月 o1-previewリリース

  • 2024年12月 o1リリース、Genie 2発表

プレスリリースがあったもの以外にも、イリノイ大学のTransformerが万能チューリングマシンと同等とか、Googleのコンテクストウィンドウを効率的に無限化するInfini-attention ([munkhdalai]) とか驚きの発表が目白押しでした。
そのたびに驚いてはいますが、驚きが止まる様子はありません。今日から未来を見ると、今日が一番生成AIの能力がなかった日になることは明らかです。

大規模言語モデルの本質

元OpenAIのAndrej Kaparthyは難しい生成AIを素人に易しく教えてくれる動画で有名です。最近、Kaparthyの動画で生成AIを勉強しなおしてみました([kaparthy])。
大規模言語モデルとは何なのかというのは結局:

  • 数百億個の実数の塊

  • 数百行のコード

です。
プログラムしている部分は500行もないのです。行列計算ですから大量の計算をしますが、行数自体はたいしたことがないです。
つまり、人間が間違う部分が限られているということです。
数百億個の実数のほうは膨大ですが、こちらは計算機が作り出しているので人間が間違うのとは関係ないです。

ソフトウェア 2.0

最近、NVIDIAのJensen Huangがソフトウェア 2.0ということを言っています ([nvdia]) 。

  • ソフトウェア 1.0:人間が書いたコードをCPUが実行する

  • ソフトウェア2.0:機械学習に基づいてGPUが生成したコードがシステムを作る

調べてみるとソフトウェア 2.0自体は2017年くらいまでさかのぼる ([sbbit]) ようですが、いよいよ実現が近づいてきました。
これの優位なところは人間の錯誤が紛れ込んだ大量のコードを管理しなくていいことです。
大規模言語モデルも人間が書いているコードは数百行です。
このことが、データや計算資源の課題はあるにせよ、OpenAI以外の多くの企業が大規模言語モデルを開発することを可能にしています。
大規模言語モデルだけでなく、音声や画像や動画や推論のモデルも原理は同じです。
まして、MicrosoftのCEO Satya NaddellaがIgnite 2024で言ったように今やGPUの計算パワーは毎年4.2倍の速度で拡大しています ([microsoft])。
生成AI祭りが終わらない理由は人間がボトルネックになっていないためです。

むすび

今月はOpenAIが12営業日連続のデモ公開を予告 ([openai]) し、o1が登場しました。Google Gemini 2.0の公開もうわさされています。年末になっても生成AI祭りが続きそうです。
年中の祭りの中でどう本質を捉えて考えるかが問われそうです。

参考文献




いいなと思ったら応援しよう!