![見出し画像](https://assets.st-note.com/production/uploads/images/91082360/rectangle_large_type_2_aef70af720529f7e523320c94c6e68f8.png?width=1200)
AI画像生成の次にくるもの
目次
1. Ai画像生成の領域
・stable diffusion
・米OpenAIのDALL-E
・米GoogleのImagen
2. Ai画像生成の次にくるもの
・動画生成
・make a video
・Imagen Video
・Deep AI Movie Creator
・小説生成
・AIのべりすと
・GPT3
1.AI画像生成の領域
AIが本格的に社会実装されつつある。」AIによる画像生成の本格的な普及は、AIについて専門的な知識がない人々にとっても、そうした印象を与えたはすだ。今年度に入ってGoogleなどの世界的大企業からも「画像生成AI」が発表されているし、Googleトレンドを見ても、ここ3ヶ月で検索数は10倍近くになっている。
特にstable diffusionが有名だ。2022年8月、イギリスのStablity AIが発表した画像生成AIだ。
ユーザーは英語で文章や言葉を入力するだけで、そこから連想される画像をAIが勝手に生成してくれる。
またコードが公開されているため、企業や個人が、stable diffusionのコードを元に新たなサービスを開発することも可能だ。
![](https://assets.st-note.com/production/uploads/images/89502995/picture_pc_47cae8182b27594cf97fd4a4881c4914.png?width=1200)
■stable diffusion
・無料
・商用利用可能
・ソースコード公開
使い方は以下の3通り
・Hugging face(スマホでも可)
AIモデルを共有できるプラットフォームで、stable diffusionだけでなく、単語から単語を予測するGPT-2(たとえば「吾輩」「は」を考慮して「猫」を予測してくれる)などを、サイトに入るだけで使用することができる。
・DreamStudioのベータ版(スマホでも可)
Stable Diffusionの開発元、Stability AI社が開発・運営する画像生成AI・Stable Diffusionのオープンβ版として公開された、テキストを入力すると画像が出力されるサービス。
※ユーザー登録が必要
・Google Colaboratory
プログラミング関連のツールなどのインストールが不要で、Google Colaboratoryのページのみで、Pythonや機械学習・深層学習の環境を整えることが出来る無料のサービスです。
※ユーザー登録が必要
※プログラミングが必要
今回は使い方が最も簡単なhugging face でStable diffusionを実際に使ってみることにしました。色んなブログで既に紹介されている内容ですので、今回は簡単に。
・入力; Mt.Fuji in winter(冬の富士山)
![](https://assets.st-note.com/production/uploads/images/89784477/picture_pc_904890e4e7f9baea5d5e7b0bb827e0a9.png?width=1200)
・入力;angel drinking coffee(コーヒーを飲む天使)
![](https://assets.st-note.com/production/uploads/images/89784520/picture_pc_f65a5ff6020e7ca0a61959c793ba7a68.png?width=1200)
Stable diffusion以外の画像生成についても簡単に紹介しておきます。
■米OpenAIのDALL-E
・基本無料(月の使用回数に上限あり)
・商用利用可能
・ソースコード公開
Open AIは2015年、イーロン・マスクらの出資によって設立されたAIの研究所。DALL-Eの利用は毎月ユーザーに配布するクレジットを消費する形で回数を調整。クレジットは販売も行うため、多く利用したいユーザーは追加購入できる。画像の生成の他に、生成画像やユーザーがアップロードした画像を自然言語による指示で編集できる機能や、1枚の画像から複数のバリエーションを生成する機能などを備える。
こちらもHugging FaceにAIモデルがありましたので、Hugging Faceで試してみます。比較のために同じテキストで画像を生成しています。
Mt.Fuji in winter(冬の富士山)
![](https://assets.st-note.com/production/uploads/images/89882969/picture_pc_069839c8ca2a129fd54134125cf44847.png?width=1200)
angel drinking coffee(コーヒーを飲む天使)
![](https://assets.st-note.com/production/uploads/images/89914504/picture_pc_70984440609a0cf1eb632d2afee09311.png?width=1200)
■米GoogleのImagen
・一般利用不可
・商用利用不可
・ソースコード未公開
別Googleによって開発された人工知能(AI)を使ってテキストから画像を生成する新たな拡散モデル。動作速度と性能でDALL-Eを上回ったと発表している。
2.AI画像生成の次にくるもの
■動画生成
画像生成に続き、AIによる動画生成の開発競争が本格化している。米Googleの研究チームは2022年10月5日に動画生成AI「Imagen Video」を発表した。Googleの前にはMetaが動画生成AI「Make-A-Video」を発表している。
■Imagen Video
・一般利用不可
・商用利用不可
・ソースコード非公開
2022年10月、Googleが動画生成AIとして「Imagen Video」を発表した。「テディベアが皿洗いする(a teddy bear washing dishes)」といったテキストを入力すると、以下のような5秒間の動画が生成される。
Imagen Videoのデモムービー
■make a video
・一般利用不可
・商用利用不可
・ソースコード非公開
22年9月末、Metaがテキストから動画を生成するAI「Make-A-Video」を発表しました。
以下に示したMetaの公式ホームページでは、テキスト入力「スーパーヒーローの服で赤いマン犬(A dog wearing a Superhero outfit with red cape flying through the sky
)」とテキストを入力すると、テキスト内容を忠実に再現する動画が生成されている。
Make a videoのデモムービー
![](https://assets.st-note.com/production/uploads/images/90214723/picture_pc_d5302fd48523bf0e8917b989bcb22700.png?width=1200)
![](https://assets.st-note.com/production/uploads/images/90214730/picture_pc_070e1a31bc165a040581ca6e4fecfd4b.png?width=1200)
■phenaki
・一般利用不可
・商用利用不可
・ソースコード非公開
こちらもGoogle の研究チームが開発した画像生成AI。「imagen video」との違いは、より長い文章で2分以上のストーリー性のある動画を生成できる点です。
現在、Imagen Videoと同様にモデルおよびソースコードは公開されておらず、stable diffusionのように任意のテキストを入力することができません。
phenakiのwebサイトには以下のように、開発者が事前に用意した生成動画が掲載されています。
入力
A photorealistic teddy bear is swimming in the ocean at San Francisco
内容
サンフランシスコの海を泳ぐリアルなテディベア
![](https://assets.st-note.com/production/uploads/images/90286585/picture_pc_f63fc4c7855bd28b390781b1d9d75487.png?width=1200)
■Deep AI Movie Creator
・商用利用可能(有料)
・ソースコード非公開
DeepMovieCreatorでは、人物が写った写真からか本人にそっくりな、アバターを生成することができます。
本人の顔、声色、喋り口調もそのままコピーされたアバターです。
任意のテキストを入力すると、アバターが読み上げ字幕を付けます。文字数制限はなし。
また背景画像は、任意の画像、動画を挿入できます。
※DeepMovieCreatorの利用には公式ホームページからの問い合わせが必要です。
利用方法、料金説明などを確認することができます。
画像右側の人物は、画像からAIによって生成されたものです。
![](https://assets.st-note.com/production/uploads/images/90721760/picture_pc_ab40cb162251a59b0425bf228c81b810.png?width=1200)
■GliaStudio
・一般利用可能
・商用利用可能(有料)
・ソースコード非公開
GliaStudioは、入力したテキストをもとに要約動画を作成するAIです。
動画化したい記事をインプットすると、以下のような流れで動画が生成されます。
①全体の内容認識して、議題を把握
②関連する補足資料を収集
③記事の概要をまとめ、要約動画を生成
公式YouTubeチャンネルで、サッカーに関する記事から動画を生成する動画をアップしています。
![](https://assets.st-note.com/production/uploads/images/90760949/picture_pc_80e1123e8eccef78caaa672287186141.png?width=1200)
↓使い方
ホームページの「無料で試す」をタップすると、以下のようなページが現れて、デモムービーをリクエストすることができます。
![](https://assets.st-note.com/production/uploads/images/90760245/picture_pc_4a03774f218d6c6607702d92d5ecbd53.png?width=1200)
![](https://assets.st-note.com/production/uploads/images/90760383/picture_pc_13fcdb74a30ee59071f4a32df9d5e547.png?width=1200)
■小説生成
小説の分野でもAIによる自動化が進んでいる。画像生成の場合と同様に任意のテキストを入力すると、続きの文章をAIが自動生成するといったもの。例えば「吾輩は」と入力するとAIが自動で「猫である」と文章を考えてくれる。
2020年、アメリカで有名なニュースサイト「Hacker News」でAIが自動生成したある記事がアクセスランキングで1位になりました。
この出来事はアメリカでも注目を集め、AIがクリエイターにとって変わるという衝撃を与えました。
↓「Hacker News」で1位になった記事
「非生産的だと感じていますか? 考えすぎるのはやめたほうがいいかもしれません。(Feeling unproductive? Maybe you should stop overthinking. )」
使用されたのはGPT-3と呼ばれるAIです。
■AIのべりすと
・一般利用可能
・商用利用可能
・ソースコード非公開
・日本語対応
『AIのべりすと』は個人クリエイター・Sta氏が開発し、2021年7月にオープンしたAI自動小説作成サービスです。
書き出しの文章を入力することで、以降に続く文章をAIが自動で生成してくれるというのが主な仕組み。
認識できる文字量の限界は6000文字。
試しに使ってみました。最初の文「アリスが家出をしてから3年が経った。」に対して、生成された文でアリス→女性、家出する→子供と認識されているのが分かります。
![](https://assets.st-note.com/production/uploads/images/90988389/picture_pc_9f472f2f7d091e5acd2d6f05768de30f.png?width=1200)
![](https://assets.st-note.com/production/uploads/images/90988393/picture_pc_ccd9a617ca795af5a5db5d0885cdebee.png?width=1200)
■GPT3
・一般利用可能
・商用利用可能
・ソースコード非公開
・日本語非対応
前述した「Hacker News」でアクセスランキング1位を取った記事を生成したのがこのAI。
簡単に使い方を見ていきます。
Pythonを用いた使用方法になります。
①Open AIのホームページを開く
②「Get Started」からアカウントを作成する③アカウント作成後に、ログイン
④コードエディタ(anacondaやVScode)を起動して、以下のように入力
pip install openai
⑤次に以下を入力
import os
import openai
⑥次にAPIキーを入力します。
APIキーは先程ログインしたサイトの右上、”Personal”から”View API keys”をクリックすることで確認することができます。
APIキーを〇〇に代入した状態で以下を入力してください。
API_KEY = "〇〇"
openai.api_key = API_KEY
⑦〇〇の中に、英語で好きな文章を入力します。
prompt = "〇〇"
最後に、以下を入力して、自動生成完了です。
max_tokensで生成する単語数を調整できます。
response = openai.Completion.create(engine="davinci",
prompt=prompt,
max_tokens=300,
temperature=0.5,
echo=True)
記事を読んでくださり、ありがとうございます。もしよろしければ、投げ銭をいただけると励みになります!
※本記事はここで終了です。
▼INTJの相談室 ※URLを修正しています。
ホームページを作成しました!
INTJへの質問をどしどしお待ちしております。
・悩み相談
・自慢
・要望等
無料・質問内容は問いません。
INTJが誠心誠意を込めてお答えします。
▼URL
https://intjsoudansitu.bubbleapps.io/
ここから先は
¥ 100
Amazonギフトカード5,000円分が当たる
この記事が気に入ったらチップで応援してみませんか?