OpenAIの新しいAI研究がめっちゃすごい...
2,368 文字
はいな、OpenAIから新しい研究が発表されましたわ。「簡素化、安定化、そしてスケーリング:連続時間一貫性モデル」っていう研究なんですけど。AI画像生成は大きな進歩を遂げてきたんやけど、現在の主流な手法である拡散モデルってのはどうしても遅いんですわ。せやけど、OpenAIが新しい、もっと効率的で速い手法を開発しはったんです。簡素化された連続時間一貫性モデル(SCM)言うんですけどね。
これ、めっちゃ重要な成果なんですわ。というのも、このスケーリングされた連続時間一貫性モデルやったら、たった2ステップで高品質な画像が生成できるんです。今までの手法やと数十から数百ステップも必要やったのに比べたら、プロセス全体がめっちゃ速くなりますわ。
従来のAI画像生成の仕組みについて詳しゅうない方のために説明させてもらいますと、これまでのAI画像ジェネレーターは拡散モデルっていうのを使うてたんです。これはノイズだらけのカオスな画像から始めて、時間をかけてゆっくりとクリーンにしていく感じなんです。認識できる画像になるまでに、500から100ステップもかかって、計算コストも高いし、リアルタイムでは使えへんかったんです。
せやけど、新しいSCMは話が違いますわ。小さなステップを何回も踏む代わりに、一気に大きなジャンプをして、たった2ステップで画像を作れるんです。これ、従来の手法と比べて約50倍も速いんですわ。専用のハードウェアを使うと、なんと0.11秒で画像が生成できるんです。
このシステムの規模についても触れておきますと、15億のパラメーターを持っていて、512×512ピクセルまでの高解像度画像に対応できるんです。普通、速度と品質はトレードオフの関係にあるんですけど、SCMは速度が速いのに高品質な画像を保てるんです。それに、従来のモデルの10%未満の計算力で済むんですわ。
実際の仕組みとしては、従来の方法やと、ランダムなノイズから始めて、パズルのピースを一つずつ整理していくように、徐々にノイズを取り除いていくんです。でも、新しいSCMは、ノイズから完成した画像に直接ジャンプするショートカットを使うんです。これは完成したパズルの設計図を持っていて、それを一気に組み立てるようなもんですわ。
実世界への影響としては、SCMの速さを活かして、リアルタイムでの画像生成が可能になる。写真の即時編集やリアルタイムのビデオエフェクト、アプリやゲーム用の画像をすぐに作れるようになるんです。
これ思い出してもらいたいんですけど、SCMがめっちゃ速く画像生成できるっていう話は、今年初めにGoogleが開発したGenieっていう研究を思い出させますわ。Genieは、Google DeepMindが開発した生成的インタラクティブ環境なんです。テキストや画像、スケッチなどの簡単な指示で、仮想世界を作って探索できるんです。ビデオゲームのように、フレームごとにユーザーがコントロールして探索できる環境を生成できるんです。
続きますわ。
Genieは20万時間以上のオンラインビデオデータから学習してるんです。面白いのは、ラベルや指示なしで学習するんです。子どもが物の動きや相互作用を見て理解するみたいな感じですわ。
一番すごいのは、SCMとGenieを組み合わせた場合のことを考えると、SCMはたった2ステップで高品質な画像を生成できる速さがあって、Genieはビデオのようなインタラクティブな環境を生成できる。この2つを組み合わせたら、リアルタイムの没入型体験が作れる可能性があるんです。
例えば、数語入力するだけで、すぐに豊かな仮想世界が現れて、探索したり遊んだりできる。リアルタイムでビデオゲームを作ることもできて、開発者やプレイヤーが遊びながらレベルやシナリオをその場で設計できる。数秒で夢のゲームや世界を作れるんです。
拡張現実の場合、SCMの速さを活かして、仮想オブジェクトやキャラクターをほぼ瞬時に現実世界に追加できるようになる。ARがもっと魅力的で自然なものになりますわ。
Redditユーザーのjessa722が投稿した内容を見てみましょう。ゴーグルを装着して、将来こんな風に見えるかもしれない拡張現実を示してくれてます。このような編集や視覚表示は、将来私たちが利用できるものを示してると思います。私は自分のをホラーモードには切り替えへんと思いますけど。すでに怖いアパートに住んでるので、もっと怖くする必要はないですからね。
YouTubeユーザーのnikanは、異なるビデオゲームを驚くほどリアルな映像に変換する方法を示してくれてます。GTA San Andreasが実写のようなグラフィックスに見えるんです。Runwayが最近リリースしたフィルターを使うと、どんなコンテンツでも別のスタイルに変換できます。無料プランもあるので、自分でも試せますよ。
これが、一貫性モデルが近い将来可能にするかもしれないものの一例です。リアルタイムで大量の画像を生成できるモデルができれば、仮想世界、仮想ゲーム、拡張現実など、様々なことが可能になります。
皆さんに質問なんですけど、こういったリアルタイムモデルを手に入れたら、どんな用途に使いたいですか?カスタマイズした環境でARを楽しみたい?自分だけのキャラクターで、自分だけの世界で、自分だけのAIフィルターを使ってゲームをプレイしたい?それとも、好きなように複数のAI画像を生成したい?
百万通りの使い方があって、予測できないものもあると思います。OpenAIの研究についてどう思いますか?OpenAIがより開放的になってきてるのは素晴らしいことやと思いますし、一部の分野ではまだまだ先を行ってるんちゃうかなと思います。