【論文瞬読】ランダマイズド・オートレグレッシブ・モデリング（RAR）が切り開く画像生成の新時代

2024年11月4日 18:16

みなさん、こんにちは！株式会社AI Nestです。今日は、画像生成の世界に新たな風を吹き込む手法について紹介したいと思います。それが、「ランダマイズド・オートレグレッシブ・モデリング（RAR）」です。

タイトル：Randomized Autoregressive Visual Generation
URL：https://arxiv.org/abs/2411.00776
著者：Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen

RARとは？

RARは、最近発表された論文で提案された手法で、視覚的生成タスクにおいて最先端のパフォーマンスを達成しながら、言語モデリングフレームワークとの完全な互換性を維持するという、まさに革新的なアプローチなんです。

従来のオートレグレッシブモデルには、一方向の依存関係が視覚データの性質と矛盾していたり、画像トークンを因果系列に配置する「正しい」方法がないといった課題がありました。でも、RARならそれを解決できるんです！

RARの仕組み

RARの秘密は、入力系列をランダムに並べ替えることで双方向のコンテキスト学習を可能にしつつ、オートレグレッシブ構造を保持するという点にあります。これにより、モデルは各トークンを生成する際に、全方向のコンテキストを考慮できるようになるんです。

さらに、RARではランダム確率rを導入し、ランダムな順列とラスター順序の間のトレーニングデータの比率を制御することで、生成品質を向上させています。トレーニングの初期段階では、完全にランダムな順列を使用し、トレーニングが進むにつれてラスター順序に移行していくんです。これにより、多様な順列から学習しつつ、最終的には効果的なラスター順序に収束するという、巧妙な仕組みになっています。

RARの性能

ImageNet-256のベンチマークでは、RARがFIDスコア1.48を達成！先行研究のオートレグレッシブ画像生成器を大幅に上回るだけでなく、ディフュージョンベースやマスクトランスフォーマーベースの手法をも上回る結果を示しているんです。特に、RARの最小モデル（RAR-B）でも、わずか2.61億のパラメータ数で、FIDスコア1.95を達成しているのは驚異的ですよね。

オートレグレッシブ（AR）画像生成器の性能比較
RARと他のARモデルの性能比較

ImageNet-1K 256×256の生成結果
RARと他のタイプの生成モデルの性能比較

RARの応用可能性

RARは、言語モデリングとの互換性を維持しているため、大規模言語モデル（LLM）の最適化手法を利用することができます。これにより、推論速度の向上が期待できます。実際、RARは同等のFIDスコアを達成している他の手法と比較して、最大27倍もの高速生成が可能なんです！

また、RARは異なるモデルサイズでも優れたスケーリング性能を示しています。モデルサイズを大きくするほど、トレーニングロスが減少し、FIDスコアが向上するんです。この特性は、将来のモデルの拡張性を示唆しており、さらなる性能向上が期待できます。

今後の展望

RARは、オートレグレッシブモデルの生成品質を大幅に向上させつつ、言語モデリングとの互換性を維持するという点で非常に優れています。まだ「グローバルコンテキスト」の完全な捕捉などの課題はありますが、さらなる改良により、視覚的生成タスクにおける新たな標準手法となる可能性を秘めていると思います。

また、RARは画像生成だけでなく、視覚的理解と生成に向けた統一的なフレームワークの発展にも寄与すると期待できます。将来的には、言語と視覚を seamless に扱える汎用AIシステムの実現に向けた重要な一歩になるかもしれません。

まとめ

RARは、オートレグレッシブモデルの可能性を大きく広げる手法であり、画像生成の分野に革新をもたらす可能性を秘めています。高速性、スケーラビリティ、言語モデルとの互換性など、多くの利点を持つRARの今後の発展と応用から目が離せませんね！