
AIを使ってケモノを生成する!~ はじめに ~
自己紹介
皆さんこんにちは、初めまして。
普段、mixtuti桜餅(ミッチサクラモチ)という名前で活動させていただいております。あまりこの呼び方を認知されていないのが悲しいですね(´;ω;`)
ゲーム制作をしたり、音楽制作したりと色々やっています。実際に、ゲームを外部のイベントで展示していたので何人かにはお会いしているかもしれませんね。
また、最近「Cadence」という同人サークルも立ち上げました。コミックマーケット(以下:コミケ)や、けもケット(以下:けもケ)への出展を予定しています。(受かればだけど・・・)
最後にまとめてリンクを貼っておくのでそちらをご覧ください!!
そんな奴が突然なんで記事書いてるんだということですが、少し機会がありましてこの記事を書いております。ハマればまた勝手に書いていこうかなと考えています。
自己紹介はこんなところで、次から本文に入らせていただきます。基本はタイトル通りです。
今回は、使用するAIについての簡単な説明とセットアップ、そして使い方あたりまでを簡単に解説する予定です。お手すきな時にでも読んでいただき、少しでもお役に立てれば幸いです。後、なんでケモノを生成するのかについては執筆者の趣味趣向ですのであしからず。
Stable Diffusionについて
「Stable Diffusion」とは、簡潔に言うと画像生成AIの事です。この一言に尽きます。
画像生成AIとは何か
そもそも画像生成AIとは何か?
大体察しが付くかと思いますが、画像生成AIとは、ユーザーが入力した文字を基にAIが画像を自動生成するシステムの事を指します。「Stable Diffusion」の他に「Midjourney」と呼ばれるAIもありますが、今回は「Stable Diffusion」の方を使って解説していきます。しかし、「Midjourney」でも呪文と呼ばれるプロンプトなど参考になる部分もあると思いますので、ぜひ最後まで読んでいただけると幸いです。

画像生成AIのメリット・デメリット
AIの進化は凄まじく、最近では身の回りにもAIが溢れています。何かと便利になって来ているAIですが、何事もメリットばかりではなく、デメリットも存在します。本稿ではメリット・デメリットについて軽く説明していきます。
1つ目のメリットは、「革新的なアイデアが生まれることがある」ことです。意外と突拍子もないような画像を生成してくることもあり、そこから新たな発想を得ることができます。

例えば上の画像のように、突拍子もない物を作り上げることもあります。しかし、可愛らしい見た目が気に入ったのでどうにかゲームにできないかと考えてできたものが下の画像になります。

さらに、上述していた、けもケにも作ったゲーム作品を出展することにもなりました。
今回の場合は、極端な例かもしれませんが、AIの作りだした1枚によって、アイデアが生まれ、ゲーム制作やイベント出展などにもつながりました。
2つ目のメリットは、「時間短縮につながる」ことです。画像に限らず最近では、対話型AIである「ChatGPT」や、今回のような画像生成AIである、「Stable Diffusion」「Midjourney」、3Dモデル生成AI「Stable Dreamfusion」、作曲AI「CREEVO」などなど、挙げれば枚挙に遑がないほどAIは存在しています。
これらのAIを利用すれば、面白い文章を考えたり、画像素材を生成したり、3Dモデルを作ったり、作曲をしたりする時間を大幅に削ることが可能になります。
今回の「Stable Diffusion」でも、起動に約4分、1枚当たりの生成に1分ほどと、かなり短時間でできてしまいます。
さて、そんなAIですがデメリットも存在します。
デメリット1つ目は、「権利関係があやふや」ということです。AIには、「教師あり学習」と「教師なし学習」2つのパターンがあります。教師あり学習は、前提となるデータから、結果を出力します。ということは、学習データの中に著作物が入っていた場合どうなるのでしょうか。
結論から言うと学習用に使うデータとして使用する分には問題ないと考えられます。
著作権法第三十条の第二項 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
上記のように、情報解析としての著作物の使用は一応大丈夫そうではあります。実際のところまだまだ、法整備も追いついていません。そして、生成された制作物の著作権もまだまだ曖昧です。
デメリットの2つ目は、「品質が不安定・同じものが作れない」ことです。現状同じキャラクターの画像で差分を作ることは難しいようです。また、出来上がるものもばらばらで品質が不安定になってしまいます。同じプロンプトでも、まったく別の画像が生成されることの方が多いです。


上記2枚は、先ほどのゲーム制作の基になった画像と、同一のプロンプトで生成させた画像になります。かなり違う画像になっているのがわかると思います。一応対策もあるのでその辺りはまた次回紹介します。
他にも、メリットやデメリットはあるのですが、一旦次に移らせていただきます。その他のメリット・デメリットは機会があればまた書こうかなと思います。
Stable Diffusionのセットアップ
「Stable Diffusion」は潜在拡散モデルが搭載されたシステムであり、オープンソースAIなため、多くの方法で利用することができます。例えば、Web上に構築された環境や、ローカルで構築した環境などがあります。
今回は、 Google Colaboratoryを用いた方法を紹介します。
※今回は、Googleのアカウントをすでに取得している前提で話します。まだの方は取得しておいてください。
まずは、以下のリンクからGoogle Colaboratoryを開きます。その後AIを使用するために初期設定をしていきます。
編集が現在できない状態になっているので、「ファイル」→「ドライブにコピーを保存」を選択してください。このようにすることで、プログラムを変更することができるようになります。

次にAIがGPUを使用できるように設定します。「編集」→「ノートブックの設定」を選択してください。

すると、ノートブックの設定が開くので「ハードウェアアクセラレータ」の部分を「GPU」に変更してください。(プレミアムになると、高性能GPUが使えるらしいです。)

一通りの準備ができたらいよいよ実行に移ります。実行は、プログラムの左上の方についている再生ボタンみたいなものをクリックするだけです。

実行してしばらく待つと、Running on public URL:~~~~という文字列が現れます。そしてそちらのリンクをクリックしてください。

リンクを押して以下のような画面になれば成功です!!

Stable Diffusionの基本的な使い方
「Stable Diffusion」は、機能が沢山あるため、今回は個人的によく使う機能を紹介します。
Stable Diffusionの基本的な使い方は、Promptの部分に生成して欲しいものを入力、Negative Promptには生成して欲しくないものを入力します。
その欄の下にある、Sampling methodは、画風を表しています。基本はそのままでも大丈夫ですが、好みに応じて使い分けてみてください。その右にある、Sampling Stepsの数字は、AIの画像修正回数です。増やせば増やすほどきれいになりますが、実行に時間がかかるので注意です。

呪文を入力できたら「Generate」を押すだけです。
最低限これくらいの機能を知っていれば「Stable Diffusion」を楽しむことができます。
次回は、今回紹介しきれなかった機能や、ケモノキャラ出力に関して自身の備忘録も兼ねて書きたいと思っています。
それでは、良いAIライフを。(`・ω・´)ノシ
宣伝
最後に少し宣伝を挟んでおきます。
・サークルHP
最近ゲーム制作やボカロ制作など頑張っているサークルです。HPの方も頑張って作りましたので是非見ていってください。
・Youtube
作ったゲームのプレイ映像や、自作曲の投稿を行っています。