見出し画像

【初心者】AI画像生成にチャレンジ

ゲーミングPCを持っているなら手軽に始められるかなと思いチャレンジしたものを記事にしました。



はじめに

AI画像生成についての簡単な説明や興味を持ったきっかけ

ここ最近、職場にAI担当が入社したり、AIずんだもんと会話ができる記事やYoutubeなどから興味が沸き自分でも試したことでもう少し踏み込んで、自作ではあるがゲーミングPCを所有しているのでAI画像生成も楽しそうなのでチャレンジすることにしました。

なぜStable Diffusionを選んだのか、他のAIツールとの違いについて

Stable Diffusionを選んだのは、オープンソースということで無料という点ですね。ここ重要。また、ローカルPCで実行できるので自由にツールやプラグインを組み合わせたり、学習済みモデルを追加することが簡単という点。
また、インターネット経由ではないので自由度も高くローカルで完結できるのでプライバシーも守られるという点でしょうか。
ほかのツールとしてDALL·Eも調べましたが、クラウドベースなので生成の制限が掛かることもあるようなので検討対象外としました。

Stable Diffusionは、商用利用にも柔軟で、作成した画像を自由に使える点が非常に魅力的。他のツールでは、商用利用に制限があることが多いようです。
自由度が高く、カスタマイズが容易で、商用利用も可能、利用制限なし、課金不要ということでStable Diffusion一択でした。まずはチャレンジしてみないと何事もわからないですし。

「AI画像生成を始めた理由」や「どんなことを期待しているか」

一番は、頭の中で描いているイメージを具体的な形にできることですね。アイデアが浮かんでも、それを絵に描くスキルはもちろんのこと、時間がないことが多いのですが、AI画像生成を使えば、自分の思い描いたキャラクターや風景をすぐにビジュアル化できるかなという思いからです。

AI画像は人間の思考とは異なり予測不能な結果を生み出すことが多く、その点で新しいインスピレーションを得られることを期待しています。自分が考えたプロンプトに対して、予想外のスタイルや色彩が加わり、自分の創作の幅が広がるのではないかと思っています。


Stable Diffusionとは?

Stable Diffusionとはどういうもの?

Stable Diffusionは2022年に公開され、多くのクリエイターや開発者から注目されています。
AIを使った画像生成モデルであり、オープンソースで提供されているため、誰でも自由に利用できるという点が大きな特徴です。主にテキストから画像を生成するツールで、ユーザーが入力したテキスト(プロンプト)を元に、画像生成してくれます。

画像生成AIの仕組み

画像生成AIの仕組みは、ディープラーニング(深層学習)という技術を使っており、数百万枚の画像データを学習することで、新たな画像を生成する能力を持ちます。

Stable Diffusionの特徴

①オープンソースとカスタマイズ性
オープンソースで公開されているため、誰でも無料で利用でき、さらに自分のPC環境で動かすことができます。商業利用も可能。

②高精度な画像生成
高解像度でクオリティの高い画像を生成できる。特に、キャラクターデザイン、風景、アート作品などに対して非常にリアルな描写が可能。
プロンプトに対する精度が高く、細かい指示を反映させることができる。

③ローカルで動作する柔軟性
他のAI画像生成ツール(例えば、DALL·EやMidJourney)はクラウドベースであり、オンライン環境でしか利用できませんが、Stable Diffusionはローカル環境で動作可能。

④LoRAやControlNetによる拡張性
LoRA(Low-Rank Adaptation)やControlNetなどの技術を利用して、より細かいカスタマイズが可能です。LoRAを使うと、特定のスタイルやテーマに特化した生成が可能になり、例えば「アニメキャラクター」や「ファンタジー風の世界観」といったニッチな需要にも対応。


実際に試してみた

Stable Diffusionを実際に使ってみた結果、想像以上に簡単に画像を生成できることに驚きました。最初はどんなツールか分からず少し不安もありましたが、思ったよりも直感的で、すぐに楽しめるようになり、のめり込んでいます。

①インストールとセットアップ

事前にPythonというプログラミング言語のインストールが必要で私はPythonのバージョンは 3.10.9を入れて使っています。
サイトによっては3.10.6とありますが、Stable Diffusion導入時に古いバージョンということで導入ができず躓きました(笑)
具体的な導入方法につきましてはWebやnoteにて細かく説明されている方が多数いらっしゃいますので割愛させていただきます。

②初めての画像生成

最初に試したプロンプトはシンプルなもので英語は得意ではないので日本語で考えてからChatGPTでStable Diffusion向けに英語に翻訳したプロンプト出力をお願いしました。
『A beautiful sunset over the mountains, with a lake reflecting the colors of the sky.』
と入力して生成してみると、想像を超えたものが表示されました。

作成時の画像は消してしまったので今再現しました

夕日のオレンジやピンクが湖面に反射していて、細かなディテールまで表現されており、AIのクオリティに驚かされました。

CAVE系の弾幕シューティングが好きなので思い付きでデススマイルズ系のキャラクターみたいなのができたらと思って作りました。
『A 20-year-old girl with long blonde hair and blue eyes, wearing a black gothic lolita dress』

こちらも作成時の画像は消してしまったので今再現しました

このプロンプトで生成されたキャラクターは、まさにゴシックな雰囲気を持った女の子でした。プロンプトに基づいて、キャラクターの髪型や服装、表情などがしっかりと反映されており、シンプルな指示でもここまでのクオリティが出せることに感動しました。

③プロンプト(呪文)の工夫

いろいろなサイトを調べながら試行錯誤していくうちに、プロンプトを詳細に指定することで、より精度の高い画像が生成されることが分かりました。例えば、単に「a girl in a dress」では抽象的すぎるので、「a girl with long blonde hair in a black gothic lolita dress, standing in a field of roses」といったように、背景や細部まで説明を加えることで、理想的な結果が得られるようになりました。
また、ModelやLoRA(Low-Rank Adaptation)を使って特定のスタイルに合わせたり、自分好みのキャラクターやアートワークを作成する楽しみがさらに増えハマりました。

細かくプロンプトを書いてみるといろいろと変化するのが楽しいですが、期待外れのものも作成されるので、バッチ回数を増やしているのでストレージ容量の空き容量が簡単になくなります。

過去に使ったプロンプトなのであまりよくないですが、こんな感じでもModelやLoRAなどを追加してかなり良いものが出来上がります!
ちなみに高画質になるようなプロンプトも別途追記が必要です。
『A 20-year-old girl, with long blonde hair wearing a purple Gothic Lolita dress, outfit and striped stockings, sitting in a forest. She is surrounded by tall trees, with soft light filtering through the canopy, standing in a field of roses, creating a mysterious and serene atmosphere.』

なかなか思った物が出来上がらないが、ティーカップを持っているのは良いですね!

④学びと今後の展望

Stable Diffusionを使い始めてから、短時間で多くの作品を作り出せるようになりましたね。クリエイティブな可能性が大きく広がった感じがします。
これからは、さらにLoRAやControlNetの使い方を勉強し、自分のアートスタイルを確立できればと思います。
また、商業的なプロジェクトもできたらとは思いますがハードルは高いですね。
NVIDIA RTX3070Ti 8GBで運用しているのでビデオメモリ不足が否めないのでもう余っているPCパーツとNVIDIA RTX3060 12GBで追加1台再構築してみようかなと検討中。8GBでもいけますが、やはりビデオメモリは多い方がいいようなので12GBで運用しようかな。

リアル系にも挑戦しています
上記のリアル系のものとプロンプトは同じですが、結構変わるも面白いところ

設定は、下記をベースに様子を見ながら、Model、LoRAによって変更しています。
VAEはStability AI社で公開しているデフォルトの「vae-ft-mse-840000-ema-pruned」を使ったりしています。

まとめ

Stable Diffusionを使ってみた感想としては、とにかくめちゃくちゃ楽しい!最初は「AIでそんな簡単にいい感じの画像が作れるの??」と半信半疑でしたが、実際にプロンプトを入力してみると、自分の想像をはるかに超えるクオリティの画像が次々と出てきました。特にキャラクターデザインや風景画なんかは、プロンプトを工夫するだけでいろんなバリエーションが楽しめるので、ついつい何度も試してしまいます。
もちろん、うまくいかないことの方が多いですが、それも含めて試行錯誤のプロセスが面白いです。失敗したら「こうすればいいのかな?」と学びながら、次の生成で瞬時に改善していける感じがたまらないです。
自分の手で描くのとは違った楽しさがあるので、絵を描けない人でもアートに挑戦できるのがいいですね。
これからは、さらにプロンプトやLoRAを駆使して、自分だけのオリジナルキャラクターを作ったり、もっと複雑な背景にも挑戦していきたいです。AI画像生成を使ってこんなに簡単に画像が作れるなんて、やらないのはもったいない!と思いました。
もし興味があってゲーミングPCを所有しているのであれば、ぜひ一度試してみてください。ほんとにハマりますよ!ちなみに初めて1週間です。


Amazonアフィリエイトプログラムに参加しています。リンクを経由して商品をご購入いただくと、私へのサポートになりますので、ぜひお買い物の際にご活用いただけると嬉しいです!

長々と最後までお読みいただき、ありがとうございます。この記事が皆様の参考になり、何か新しい発見があったなら幸いです。今後も、役立つ情報を不定期になりますが、お届けしていきますので、どうぞよろしくお願いいたします!


いいなと思ったら応援しよう!

この記事が参加している募集