【爆速】4096×4096の高解像度画像を作れるNVIDIAの画像生成AI「Sana」に期待大！

ゆーま@1ヶ月でAI副業ゼロイチが達成できる限定記事配信中🦅

2024年10月26日 12:26

お疲れ様です、ゆーまです。

画像生成AIが便利だけど待ち時間にストレスを感じている人に朗報です。

爆速で画像を生成できるAI「Sana」が発表されました。

以下の通り、低スペックでも圧倒的速度で画像生成が可能です。

※Sanaは1.2秒

SANA: EFFICIENT HIGH-RESOLUTION IMAGE SYNTHESIS WITH LINEAR DIFFUSION TRANSFORMERS

★お知らせ

「AIをこれから勉強していきたい」「何なら個人でバリバリつかってマネタイズして豊かなスキルを手に入れたい」
こんな方向けに「未経験者・初心者向けに ”実践的AI活用”」というテーマで公式LINEをスタートしました。

NVIDIAの画像生成AI「Sana」とは【とにかく速い】

Sanaは、NVIDIAと他の研究チーム（マサチューセッツ工科大学（MIT）および清華大学）によって開発された画像生成AIで、最大4096×4096ピクセルの高解像度画像をわずか数秒で生成できます。

このAIは、特に「Linear Diffusion Transformers」というアーキテクチャを採用しており、効率的に画像を生成できるだけでなく、他のAIモデルに比べて大幅に高速な処理が可能。

例えば、16GBメモリのノートPCでも1秒以内で1024×1024の解像度の画像が生成できるため、性能が限られたデバイスでも高品質な画像生成を実現します。

Sanaは、通常の画像生成AIと比較して、特定のプロンプト理解やキャプション生成においても優れており、ユーザーが提供するテキストに基づいて、精密かつ直感的な画像を効率的に生成できます。

また、このAIの仕組みとして、「Flow-DPM-Solver」を採用し、従来のモデルよりも少ないステップでの画像生成を可能にしているため、さらに効率的です。

これらの機能により、Sanaは高解像度なビジュアルが必要なプロジェクト、たとえばデジタルアートやコンセプトデザインに向いています。

また、生成速度の速さから、アイデアの試行錯誤が求められるプロセスでも効率的に利用できます

画像を生成AI「Sana」が1秒で画像を作れる特徴と仕組み

Sanaはより少ない計算量で高精細な画像を生成するための工夫がされています。

Sanaはとにかく速く画像が生成できる！ってことが伝わればよいですが、
念の為、仕組みについても可能な限りわかりやすくお伝えしようと思います。

圧縮力が32倍の「ディープ圧縮オートエンコーダー（AE）」

通常、画像を生成するAIは情報を圧縮し、計算負担を減らしています。

Sanaの圧縮技術は「8倍圧縮が通常なら、Sanaは32倍圧縮可能」という特別なもので、少ない情報量で同じ精度を維持できます。

例えば、8枚のメモが必要な作業を、Sanaなら2枚でこなせるとイメージするとわかりやすいかもしれません。
これにより、トレーニングや生成の効率が飛躍的に向上し、サクサクと画像が作れるのです。

効率的な処理「Linear DiT」

画像生成には、AIが画像の細かい情報を理解するための「注意機構（Attention Mechanism）」という仕組みが使われています。

Sanaは、これを軽量化した「Linear DiT」を採用しており、計算量を抑えながらもスムーズに高精度な画像を生成できるようになっています。

例えば、普通ならスパイが一人一人じっくり観察する必要があるところ、Sanaでは簡略化して情報を見分けられるようになっているため、高解像度画像もすばやく処理できます。

新しいテキスト理解「Gemma」モデル

AIに画像を生成させるとき、テキストでの指示（プロンプト）を使います。

Sanaは「Gemma」という新しいモデルで、指示をより深く正確に理解するように工夫されています。
これにより、たとえば「青空の下に立つ桜の木」という指示で、より期待通りの鮮やかな桜と青空の風景が生成されやすくなります。

プロンプトをAIが理解する精度が高いということです。

画像生成のステップを短縮する「Flow-DPM-Solver」

画像生成のプロセスは、少しずつ画像を作り上げていくステップが必要です。
Sanaは「Flow-DPM-Solver」により、従来の28〜50ステップを14〜20ステップに減らし、速く完成させることが可能です。

これを「絵画を仕上げるのに普通なら50筆かかるところ、20筆で完成させられる」ようなものと考えると、効率が格段に向上していることが分かります。

パワフルな性能とモデルバリエーション

Sanaには、パラメーター数が異なる2種類のモデル（SANA-0.6BとSANA-1.6B）があり、使う場面に応じて選べます。

SANA-0.6Bは16GBメモリのノートPCで1秒以内に高解像度画像を生成できるので、低スペックデバイスでも高品質な画像を素早く作れます。

「Sana」と他の画像生成AIとの比較

Sanaには、2つのモデルがあります。

6億のパラメーターを持つ「SANA-0.6B」
より強力な16億パラメーターの「SANA-1.6B」

どちらのモデルも、最新のAIモデル「Flux」や「SD3」と同レベルの性能を備えながら、処理速度が最大で100倍速くなるよう設計されています。

具体的には、SANA-0.6Bは、16GBメモリのGPU搭載ノートPCで1024×1024ピクセルの画像を1秒以内に生成できます。

より高解像度な4096×4096ピクセルの画像の場合、SANA-0.6Bは約9.6秒、1.6Bのモデルは約15.9秒で生成するため、用途や必要な画像品質に応じて使い分けが可能です。

まとめ：NVIDIAの画像生成AI「Sana」の正式リリースを待とう

Sanaのデモページはリリースされていますが、まだデモ段階なので
速度や品質にはブレがあるように感じます。

情報が更新されましたら、またご紹介させていただきます。

効率化するためにAIを使っているのに待ち時間が長い、というストレスが解消されることに期待したいと思います。

実際の体験談を踏まえた実践的AI活用といえばゆーま

本業や副業で今日から使えるAIの情報を発信しています。

いちはやくAIに精通できるようになるので、ぜひ公式LINE登録＆SNSフォローをしてください。