Stablility AI (Stable Diffusionの開発会社) 社の「ClipDrop」を試してみた
さて。Stable Diffusionを用いた機械学習プロジェクトも、結構進捗が出てきました。取り敢えず、ターゲットを絞って学習するという方法ではなく、いろんな方向性(特定人物、背景、少数民族などのグループ、色、Etc)を同時にシミュレートしていましたが、一定の成果。
(表紙:タイ・チェンマイのカレン族(Long Neck Karen)のリングをした日本人の女の子が4月に富士山をバックに撮影するというイメージ)
img2img は使わず、あくまで一発勝負の txt2imgでどこまで精度をあげられるか、にトライ。まあ、Botとしての画像編集サービスとかを提供するんであれば、img2imgは使えない(何度かチャットをやり取りするという方法もあるだろうけど)から。
トレーニング用の画像を幾つか新たに作りたいなと思い、Stablility AI (Stable Diffusionの開発会社) 社の「ClipDrop」に課金してみたんだけど。。。。
例えば、昨日私が作成したStable Diffusionでの画像を、ClipDropの(Replace background)を使って・・:
↓ (これの「背景なし」を用いて、Cherry+Fuji Mountainで背景を作り直し)
なんとも微妙orz
さらにこれを縮小した後、同じように「背景を替えて」みると、
やっぱり指がおかしくなってしまいました。コレが解決できれば色々と違うんだけどなあ・・。orz
(ただ、髪の毛を「補完」してくれたのはありがたい。せっかくだから私の髪の毛も保管してくれないかな・・orz)
あと、背景を消して、トランスパレントにしてくれるのは助かる。学習素材用の物を作るときに役立つ。
現在、色んなパターンを用いて、学習させるということをしています。
・特定人物
・特定集団(例えば、少数民族であったりその衣装であったり)
・モノ
・背景(例えば、日本の桜と日本の城)
・特定の衣装(例:ベトナムのアオザイ、東南アジアの学生服、etc.)
ココらへんがミックスされたものが「使いやすく」なっていれば、色々と幅が広がるんだろうなあ、とは思ってます。
それにしても、GPUの性能で全然速度が違うのを改めて実感しましております…. 特に学習場面で。。。(GPUがかなり良いと、25枚作るのに1分かかっらないという・・Hirexとかは無しで、512*768で)
というわけで、最新の AI美女 画像を(By Stable Diffusion)
(注:ClipDrop ではないです)
AI/MLに関しても「改めて」学習し直しているので、もう少しすれば自在に扱えるようになるかなとは思ってはおります。
(DevOpsとかも、ね)
更に追記:
もうココらへん来ると、ある種の感動すら覚えます。。。長いことご無沙汰しているんだけど、君たちとまたあえて嬉しいよ・・(という感覚)