『何ができる？』から『何を作る？』へ。生成AIの大転換期、激動の2年を振り返る！

2024年6月22日 17:54

パソコンで全てのものが生成できるようになった

　Lumaの登場で映像が生成できるようになったので、文章、画像、音楽、映像という、PC上で生成できるものが全て揃いました。
　これは生成AIの大きなターニングポイントになるので、これまでの生成AIを振返りながら、今後の未来予測をしてみます。

Midjourny (2022年7月)

　文字が絵になる衝撃。
　絵心の無い自分でも絵が描ける時代が来た！　
　当時Midjournyが描いた絵が賞を取って「芸術とは何か？」を問われました。
　この時のインパクトは、藤井聡太棋士の練習相手がAIだった時以来の大きな衝撃でした。

　MidjournyはDiscordで扱いはしやすいのですが、生成まで順番待ちであったり、自分や他人が作ったものが見えるので、自分はStable Dffusionを使い始めました。

Stable Diffusion (2022年8月)

　最初はWeb UIで使っていましたが、毎回の起動時の読み込みと生成速度と制限から、ローカル環境を構築しました。
　思い通りに絵を出力させるのは、なかなか難しい時代でした。
　今ならControlNetで割と簡単に動きをコントロールできますが、当時は手を挙げるのも右を向かせるのもプロンプトの指示次第で、それもなかなか言うことを聞いてくれませんでした。

　今思えばプロンプト最適化の追及は、ここがスタートだったかも知れません。
　　
　ローカル環境で画像生成に制限はなくなりましたが、生成に時間が掛かるのがネックでした。
　１枚生成が４分ぐらいだったかなぁ・・
　調べていくと画像生成にはGPUの性能よりGPUのメモリ量が影響するということで、GPUのメモリが12GBのRTX3060 12MBを購入。

　画像生成が30秒に！
　
　ガチャ引き放題の時代がやってきました（笑）

ChaGPT 3.5 (2022年11月)

　ChatGPTを使い始めたのは2023年になってからでした。
　遡って当時のチャットを見てみると、その時関わっていたオンラインイベントの登壇者のプロフィールの最適化をしていたようです。

　防災のイベントだったので、その時大ヒットしていた「君の名は」についてGPTにいろいろ聞いていたようです。　

ChatGPT4 （2023年3月）

　この頃はpythonのコードも書かせていましたね。
　でも、コードを書き直すたびに違う物が出たり、実行させてもエラーがでたりしていました。
　エラーコードを伝えても、新しいコードが間違っていたりとまだまだ発展途中な感じでした。

　その他には、Stable Dffusion用のプロンプトを作成したり、セミナーの台本を作っていたようです。

　この頃にGPTで小説を書いていました。

　内容を壁打ちしてドラフトを作成していたのですが、会話を繰り返すうちに以前の内容を忘れたり、登場人物の名前が変わったりと、なかなか安定しなかった覚えがあります。
　それでも素人が小説を書けるようになったのは衝撃でしたね。

GPTs　（2023年11月）

　手軽にチャットボットが作れるGPTsの登場は最大の衝撃です。
　それまでのチャットボットは想定される質問と回答を準備する必要がありました。それが回答だけ用意しておけば、質問の内容を理解して答えを出力してくれるようになりました。
　RAGが簡単に作れるようになりましたね。
　
　もう一つは、同じプロンプトを何度も打たなくて良くなったことです。
　それまではプロンプトを作ったらNotionなどに保存して、使う時にコピペして編集するなどの手間が必要でした。

　これがGPTsにプロンプトを入れておくことで、同じことを打たなくてよくなりました。　

　プログラマというのは同じ作業を２度するのが嫌いです。
　繰り返し同じことをするなら、プログラムを作ります。
　プロンプトも同じことで、１度作ったプロンプトをもう一回打つのは苦痛です。
　その意味で、Geminai、Copilot、Claudeなど他のAIを試しても、結局ChatGPTに戻ってしまうのです。
　さらに一人使用にもかかわらず、Teamプランにまで入ってしまいました。

Stable Audio (2023年9月）

　音楽が生成できるAIということで、Stable Audioを試してみました。

　この時は生成できる音楽が４５秒と短かったですね。
　生成できる回数も少なかったので、課金してプロンプトをいろいろ試してみました。
　画像生成のStable diffusionと同じところがつくっていたので、カンマ区切りのプロンプト作成をしました。
　このあたりから、違うジャンルのAIでもプロンプトに対する知見は応用できそうだなと気づいたところです。

Suno (2023年12月）

　音楽生成AIではSunoが衝撃でした。
　Stable Audioでは音楽だけでしたが、Sunoでは歌詞付きで歌を作ってくれました。　

　このときは作れる曲の長さが1分ぐらいで、続きを作成するものガチャ運のため3，4分の曲をつくるのに随分な時間とカウントを消費していました。
　それでも、楽器の弾けない自分が音楽をつくれるようになるのは衝撃でした。

　Sunoは最近のバージョンアップにより、１回でつくれる曲の長さが4分になったり、鼻歌の続きから曲を作ってくれたりと進化しているので、音楽制作が誰でもできる時代になってきました。

Soraの発表（2024年2月）

　OpenAIがSoraのデモを発表しました。　

　Soraはまだ一般には使えませんが、このような映像がみんなが作れるようになったら、世界がまたひとつ変わるだろうなと予感させるものでした。

Luma (2024年6月）

　映像を生成するAIが、遂に一般の人も使えるようになりました。

　今のところ５秒とは言え、連続して破綻を起こしにくい映像が作れるようになったのは大きな衝撃です。
　静止画と動画では、利用範囲も影響力も大きく違います。
　パラパラ漫画のショートムービーと、動画のショートムービーを想像すれば、その差は歴然です。

　同時に、動画生成の品質が上がれば、フェイク情報へのリスクも高まります。
　現在のLumaは、まだまだAI的な破綻が多く判別はつきやすいですが、これが今後精度が上がるとどなるのか？

　楽しみでもあり不吉でもあります。

どうなる？生成AI　

　これまでを振り返ったことが、ほんの２年程度であるというのも驚きです。
　これまでの期間は、常に新しい物が出てきて、誰もやったことがないものだから試行錯誤の繰り返しで、とにかく情報を追いかけるのが精一杯。
　でも、新しいおもちゃが増えているようで楽しい日々でした。
　
　AIで何ができるのか？

　それを追いかけ、探求する。

　映像生成までできるようになったことで、PCで制作できるものは一通り作れるようになりました。
　これからは

　AIで何をつくるのか？

　というステージに入ったと思います。

　現在でもAIの使い方を教えている人はたくさんいますし、そのようなビジネスもたくさんあります。
　しかし今後の本質は、AIを使って何ができるのか？
　AIはそもそも道具であって、アウトプットでどんな価値が出せるのかがポイントになります。

　一方で、AIでの生成物に対しての不安もあります。
　AI画像を用いたポスターが批判されたり、AIと執筆した映画が批判されたりしています。
　
　かつて映画界でCGが使われ始めたころ、物に対しては使ってもいいが人の置き換えには反発がありました。
　ビルから飛び降りたバットマンが着地するまでは良かったのですが、それが立ち上がって歩いたことを批判されました。
　現在の映画ではどこまでがCGなのか？逆にどこに人を使っているのか分からなくなってきています。
　そもそも観る人は、これがCGの動きなのか人の動きなのかなど気にしていません。
　結局は、映画が面白いのかどうか。
　面白い映画を作るための道具として必要ならCGを使うということです。

　CGアニメの大転換となったトイストーリー。
　これも完成間近で作り直しになったという話がありました。
　当時のCG技術としては革新的で、その技術を見せることに意識が行っていたようですが、それをみたプロデューサーか監督かが、
　今の技術は将来見直したら陳腐化する。きちんとストーリーのあるものに作り替えろ。みたいな話だったようです。
　トイストーリーのCGは、今見返すと大したものではありません。
　でも、トイストーリーが今でも愛されるのは、その内容が良かったからです。

　AIの技術も、今は出来ることがすごいとか、こうなったら困るみたいな風潮ですが、将来見返したときには、

　本質は、そこじゃない！

　という風になっているかも知れませんね。

まとめ

　この２年、AIの登場をリアルタイムで経験できたのは貴重なことです。
　今後AIがもっと使いやすく一般に使われるようになったときに、このような基礎技術を知っておくことは大きなアドバンテージです。
　iPhoneの登場でネットが一般に広まりましたが、その基礎技術が軍事拠点を破壊されても通信が届けられるよう蜘蛛の巣状（Web）に複数経路の通信網を作った軍事用技術ということを知っている人は少ないですよね。

　AIも日々新しいのが出てきていて、どれが最後に生き残るのか分かりません。
　かつてのブラウザのように、Internet ExplorerなのかNetScapeなのかMosaicなのかという時代に似ている気がします。

　過去の歴史から学べば、今が一番熱く楽しい時代なのだと思います。

　まだまだ正解も勝者も決まっていないAIの世界。
　とにかく使って、関わって、楽しむことが、今の私たちがやっておくことですね。

#生成AI #Midjourney #StableDiffusion #ChatGPT #ChatGPT4 #GPTs #StableAudio #Suno #Luma #映像生成 #文章生成 #画像生成 #音楽生成 #生成AI #未来予測 #AI技術 #クリエイティブ

いいなと思ったら応援しよう！

この記事が参加している募集

#GPTsつくってみた

1,803件

『何ができる？』から『何を作る？』へ。生成AIの大転換期、激動の2年を振り返る！

パソコンで全てのものが生成できるようになった

Midjourny (2022年7月)

Stable Diffusion (2022年8月)

ChaGPT 3.5 (2022年11月)

ChatGPT4 （2023年3月）

GPTs （2023年11月）

Stable Audio (2023年9月）

Suno (2023年12月）

Soraの発表 （2024年2月）

Luma (2024年6月）

どうなる？生成AI

まとめ

いいなと思ったら応援しよう！

この記事が参加している募集

GPTs　（2023年11月）

Soraの発表（2024年2月）

どうなる？生成AI