日本特化の画像生成AIのJapanese Stable Diffusion XLを試してみた
SDXLなどの画像生成AIは、欧米の画像やキャプションを中心に学習しているため、基本的に英語入力が必要とされ、日本文化に根差した日本特有の物品や風景の画像を生成するのは得意ではありません。
今回、Stability AIから日本語入力が可能で、さらに日本特有のものを対象とした画像生成にも対応した日本特化の画像生成AIモデルであるJapanese Stable Diffusion XL(JSDXL)が公開されたので、早速試してみました。
1.Japanese Stable Diffusion XLの概要
Japanese stable Diffusion XL(JSDXL)は、SDXL 1.0の高品質な画像生成能力を維持したたま、日本語入力や日本語特有の表現に対応し、伝統的なものから現代的なものまで日本特有のものを対象とした高品質な画像を生成することができます。
JSDXLは、Stability AIが開発した、テキストから画像を生成する拡散モデルの画像生成AIで、SDXL 1.0をベースにファインチューニングしたモデルです。
事前学習済みモデルの汎用性を維持しつつ、日本語や日本の文化・表現の理解を最大化するため、日本語に対応した互換テキストエンコーダを利用して効率的な再学習手法(PEFT)による学習を行いました。
PEFTの手法としてより良い結果と学習の安定性を実現するため、直交ファインチューニング(OFT)という手法を採用しています。
JSDXLは商用利用可能なモデルです。
以下のデモサイトでJSDXLを実際に試してみることができます。
同一プロンプトでChatGPTのDALL-E 3が生成した画像を一部参考に掲載しています。
2.人物
〇 若い男
〇 若い女
〇 女子高生
〇 日本人女性
〇 着物を着て傘を持った若い日本人女性、桜の木
3.歴史的人物など
〇 織田信長
〇 侍
〇 忍者
〇 相撲
〇 お姫様
〇 鬼
〇 日本の鬼
4.建物
〇 金閣寺
〇 城
〇 日本の城
〇 神社
〇 日本家屋
〇 東京スカイツリー
5.地名
〇 浅草
〇 秋葉原
〇 原宿通り
〇 沖縄の街
6.浮世絵
〇 神奈川沖浪裏
〇 富嶽三十六景
〇 東海道五十三次
〇 見返り美人図
7.正月用品
〇 鏡餅
〇 しめ飾り
〇 門松
〇 独楽回し
〇 炬燵
〇 こたつ
〇 炬燵に入ってみかんを食べながらテレビで紅白歌合戦を見てくつろいでいる家族
8.まとめ
日本語入力に対応できていることはよいですが、日本特有のものに関する理解は、まだ改善の余地があるようです。
また、SDXL 1.0に比べて、画像が歪んだり、おかしくなったりすることが多い点も課題だと思います。
他方、日本語入力可能なSDXLが公開されたのは非常にありがたいことであり、これをベースにファインチューニングした日本語対応の改善モデルが沢山出てきたらよいのにと思っています。
この記事が気に入ったらサポートをしてみませんか?