最近の記事
Scalable High-Resolution Pixel-Space Image Synthesis with Hourglass Diffusion Transformers の雑な理解
https://crowsonkb.github.io/hourglass-diffusion-transformers/ を読みました 一言でいうと「Stable Diffusionが潜在空間でやっていた学習を、ピクセル単位で短時間かつ詳細かつ少ないパラメーターで正確に学習できる仕組み」を作ったということですね。 これによる恩恵は、短時間で高精細な画像が得られるし、潜在特有のぶっ飛んだ画像も作られづらいってことっぽいです。 ※潜在特有のぶっ飛んだ画像も作られづらいという