
マルチモーダルAIに惑わされるな
はじめに
2024年の生成AIの注目のひとつは映像生成AIである。生成AIはまず2022年のStable DiffusionのMidjourneyから幕をあけた。すでに2020年のGPT-3からすごいものができた、すごいものができたといっていたOpenAIはDALL-Eを出し惜しみしているうちにStable Diffusionに先を越された。幸い、あわててβリリースしたChatGPTでOpenAIは一躍時代の寵児になることができた。
Pika 1.0などの映像生成AIの台頭は2年前を思い起こさせる。
生成AIの本質は言語
たとえ4秒といえども映像生成AIの誕生は、おおーという感嘆の声をあげざるを得ない。映像のインパクトは強力である。
音声や映像に比べて過小評価されがちであるが、生成AIの革命力の源泉は言語であることを再度述べておきたい。
言語は文明のOSである。
通貨も法律も宗教も経済も言語によってつくられるストーリーなしでは維持できない
言語はパイプライン化できる
言語から言語が出ることによって、出た言語をまた次の処理にそのまま入れることができる。答えを出して、のかわりに、答えを出すプロンプトを出して、と指示して、その結果を答えを出すために使うことができる。抽象的なメタ思考が可能になる。
映像生成AIのボトルネックは金
下世話な話だが、2024年に映像生成AIが本流になれないと私は考える理由はお金である。映像生成AIは1秒間に60枚画像を作ると考えると1時間に3600枚の画像が必要になる。けた外れにお金がかかる。5分でも300枚だ。
GPT APIが2024年3月に公開されたときに、GPT APIを使った無料のサービスが山のように登場したが、またたくまに消えていった。無料のビジネスモデル、例えば、広告で維持するにはAPI料金が高すぎたからだ。2023年11月にOpenAIは6割の値引きを断行したが、それでも2桁、3桁のコストがかかる映像生成AIを個人が使うにはハードルが高すぎる。OpenAIとGoogleの生成AI競争ははてしなく続く。OpenAIのバックにはMicrosoftがついている。次の事実は重要だ:
GoogleとMicrosoftはともにクラウド企業である。
このため、CPUパワーには事欠かない。このため、生成AIの料金は下がり続けるだろう。しかし、映像生成AIを支えるにはいかないと予想する。
まとめ
人気の映像生成AIはニュースは作り続けるが、2024年の主流にはならない。
2024年の主流は2023年に生まれた次の技術をどのように使いこなすかになるだろう。
エージェントAI/自律分散実行
AIアプリストア
ビジネスアプリとAIの連携