マルチモーダルAIに惑わされるな

2024年1月27日 11:03

はじめに

2024年の生成AIの注目のひとつは映像生成AIである。生成AIはまず2022年のStable DiffusionのMidjourneyから幕をあけた。すでに2020年のGPT-3からすごいものができた、すごいものができたといっていたOpenAIはDALL-Eを出し惜しみしているうちにStable Diffusionに先を越された。幸い、あわててβリリースしたChatGPTでOpenAIは一躍時代の寵児になることができた。
Pika 1.0などの映像生成AIの台頭は2年前を思い起こさせる。

生成AIの本質は言語

たとえ4秒といえども映像生成AIの誕生は、おおーという感嘆の声をあげざるを得ない。映像のインパクトは強力である。
音声や映像に比べて過小評価されがちであるが、生成AIの革命力の源泉は言語であることを再度述べておきたい。

言語は文明のOSである。
- 通貨も法律も宗教も経済も言語によってつくられるストーリーなしでは維持できない
言語はパイプライン化できる
- 言語から言語が出ることによって、出た言語をまた次の処理にそのまま入れることができる。答えを出して、のかわりに、答えを出すプロンプトを出して、と指示して、その結果を答えを出すために使うことができる。抽象的なメタ思考が可能になる。

映像生成AIのボトルネックは金

下世話な話だが、2024年に映像生成AIが本流になれないと私は考える理由はお金である。映像生成AIは1秒間に60枚画像を作ると考えると1時間に3600枚の画像が必要になる。けた外れにお金がかかる。5分でも300枚だ。
GPT APIが2024年3月に公開されたときに、GPT APIを使った無料のサービスが山のように登場したが、またたくまに消えていった。無料のビジネスモデル、例えば、広告で維持するにはAPI料金が高すぎたからだ。2023年11月にOpenAIは6割の値引きを断行したが、それでも2桁、3桁のコストがかかる映像生成AIを個人が使うにはハードルが高すぎる。OpenAIとGoogleの生成AI競争ははてしなく続く。OpenAIのバックにはMicrosoftがついている。次の事実は重要だ：

GoogleとMicrosoftはともにクラウド企業である。

このため、CPUパワーには事欠かない。このため、生成AIの料金は下がり続けるだろう。しかし、映像生成AIを支えるにはいかないと予想する。

まとめ

人気の映像生成AIはニュースは作り続けるが、2024年の主流にはならない。
2024年の主流は2023年に生まれた次の技術をどのように使いこなすかになるだろう。

エージェントAI／自律分散実行
AIアプリストア
ビジネスアプリとAIの連携

マルチモーダルAIに惑わされるな

はじめに

生成AIの本質は言語

映像生成AIのボトルネックは金

まとめ

いいなと思ったら応援しよう！