AI画像生成の次にくるもの

2022年11月2日 19:41

目次
1. Ai画像生成の領域
　・stable diffusion
　・米OpenAIのDALL-E
　・米GoogleのImagen

2. Ai画像生成の次にくるもの
　・動画生成
　　・make a video
　　・Imagen Video
　　・Deep AI Movie Creator
　・小説生成
　　・AIのべりすと
・GPT3

1.AI画像生成の領域

AIが本格的に社会実装されつつある。」AIによる画像生成の本格的な普及は、AIについて専門的な知識がない人々にとっても、そうした印象を与えたはすだ。今年度に入ってGoogleなどの世界的大企業からも「画像生成AI」が発表されているし、Googleトレンドを見ても、ここ3ヶ月で検索数は10倍近くになっている。

特にstable diffusionが有名だ。2022年8月、イギリスのStablity AIが発表した画像生成AIだ。

ユーザーは英語で文章や言葉を入力するだけで、そこから連想される画像をAIが勝手に生成してくれる。

またコードが公開されているため、企業や個人が、stable diffusionのコードを元に新たなサービスを開発することも可能だ。

■stable diffusion

・無料
　・商用利用可能
　・ソースコード公開

使い方は以下の3通り
・Hugging face(スマホでも可)
AIモデルを共有できるプラットフォームで、stable diffusionだけでなく、単語から単語を予測するGPT-2(たとえば「吾輩」「は」を考慮して「猫」を予測してくれる)などを、サイトに入るだけで使用することができる。

・DreamStudioのベータ版(スマホでも可)
Stable Diffusionの開発元、Stability AI社が開発・運営する画像生成AI・Stable Diffusionのオープンβ版として公開された、テキストを入力すると画像が出力されるサービス。
※ユーザー登録が必要

・Google Colaboratory
プログラミング関連のツールなどのインストールが不要で、Google Colaboratoryのページのみで、Pythonや機械学習・深層学習の環境を整えることが出来る無料のサービスです。
※ユーザー登録が必要
※プログラミングが必要

今回は使い方が最も簡単なhugging face でStable diffusionを実際に使ってみることにしました。色んなブログで既に紹介されている内容ですので、今回は簡単に。

・入力; Mt.Fuji in winter(冬の富士山)

・入力;angel drinking coffee(コーヒーを飲む天使)

Stable diffusion以外の画像生成についても簡単に紹介しておきます。

■米OpenAIのDALL-E

・基本無料(月の使用回数に上限あり)
　・商用利用可能
　・ソースコード公開

Open AIは2015年、イーロン・マスクらの出資によって設立されたAIの研究所。DALL-Eの利用は毎月ユーザーに配布するクレジットを消費する形で回数を調整。クレジットは販売も行うため、多く利用したいユーザーは追加購入できる。画像の生成の他に、生成画像やユーザーがアップロードした画像を自然言語による指示で編集できる機能や、1枚の画像から複数のバリエーションを生成する機能などを備える。

こちらもHugging FaceにAIモデルがありましたので、Hugging Faceで試してみます。比較のために同じテキストで画像を生成しています。

Mt.Fuji in winter(冬の富士山)

angel drinking coffee(コーヒーを飲む天使)

■米GoogleのImagen

　・一般利用不可
　・商用利用不可
　・ソースコード未公開

別Googleによって開発された人工知能（AI）を使ってテキストから画像を生成する新たな拡散モデル。動作速度と性能でDALL-Eを上回ったと発表している。

2.AI画像生成の次にくるもの

■動画生成

画像生成に続き、AIによる動画生成の開発競争が本格化している。米Googleの研究チームは2022年10月5日に動画生成AI「Imagen Video」を発表した。Googleの前にはMetaが動画生成AI「Make-A-Video」を発表している。

■Imagen Video

　・一般利用不可
　・商用利用不可
　・ソースコード非公開

2022年10月、Googleが動画生成AIとして「Imagen Video」を発表した。「テディベアが皿洗いする(a teddy bear washing dishes)」といったテキストを入力すると、以下のような5秒間の動画が生成される。
Imagen Videoのデモムービー

■make a video

　・一般利用不可
　・商用利用不可
　・ソースコード非公開

22年9月末、Metaがテキストから動画を生成するAI｢Make-A-Video｣を発表しました。
以下に示したMetaの公式ホームページでは、テキスト入力｢スーパーヒーローの服で赤いマン犬(A dog wearing a Superhero outfit with red cape flying through the sky
)｣とテキストを入力すると、テキスト内容を忠実に再現する動画が生成されている。
Make a videoのデモムービー

■phenaki

　・一般利用不可
　・商用利用不可
　・ソースコード非公開

こちらもGoogle の研究チームが開発した画像生成AI。「imagen video」との違いは、より長い文章で2分以上のストーリー性のある動画を生成できる点です。
現在、Imagen Videoと同様にモデルおよびソースコードは公開されておらず、stable diffusionのように任意のテキストを入力することができません。

phenakiのwebサイトには以下のように、開発者が事前に用意した生成動画が掲載されています。

入力
A photorealistic teddy bear is swimming in the ocean at San Francisco

内容
サンフランシスコの海を泳ぐリアルなテディベア

■Deep AI Movie Creator

　・商用利用可能(有料)
　・ソースコード非公開

DeepMovieCreatorでは、人物が写った写真からか本人にそっくりな、アバターを生成することができます。
本人の顔、声色、喋り口調もそのままコピーされたアバターです。
任意のテキストを入力すると、アバターが読み上げ字幕を付けます。文字数制限はなし。
また背景画像は、任意の画像、動画を挿入できます。

※DeepMovieCreatorの利用には公式ホームページからの問い合わせが必要です。
利用方法、料金説明などを確認することができます。

画像右側の人物は、画像からAIによって生成されたものです。

■GliaStudio

・一般利用可能
・商用利用可能(有料)
・ソースコード非公開

GliaStudioは、入力したテキストをもとに要約動画を作成するAIです。

動画化したい記事をインプットすると、以下のような流れで動画が生成されます。

①全体の内容認識して、議題を把握　
②関連する補足資料を収集　
③記事の概要をまとめ、要約動画を生成

公式YouTubeチャンネルで、サッカーに関する記事から動画を生成する動画をアップしています。

動画URL: https://m.youtube.com/watch?v=-Lvi-qiUhOs

↓使い方
ホームページの「無料で試す」をタップすると、以下のようなページが現れて、デモムービーをリクエストすることができます。

■小説生成

小説の分野でもAIによる自動化が進んでいる。画像生成の場合と同様に任意のテキストを入力すると、続きの文章をAIが自動生成するといったもの。例えば「吾輩は」と入力するとAIが自動で「猫である」と文章を考えてくれる。

2020年、アメリカで有名なニュースサイト「Hacker News」でAIが自動生成したある記事がアクセスランキングで1位になりました。
この出来事はアメリカでも注目を集め、AIがクリエイターにとって変わるという衝撃を与えました。

↓「Hacker News」で1位になった記事
「非生産的だと感じていますか？考えすぎるのはやめたほうがいいかもしれません。(Feeling unproductive? Maybe you should stop overthinking. )」

使用されたのはGPT-3と呼ばれるAIです。

■AIのべりすと

・一般利用可能
・商用利用可能
・ソースコード非公開
・日本語対応

『AIのべりすと』は個人クリエイター・Sta氏が開発し、2021年7月にオープンしたAI自動小説作成サービスです。

書き出しの文章を入力することで、以降に続く文章をAIが自動で生成してくれるというのが主な仕組み。
認識できる文字量の限界は6000文字。

試しに使ってみました。最初の文「アリスが家出をしてから3年が経った。」に対して、生成された文でアリス→女性、家出する→子供と認識されているのが分かります。

■GPT3
・一般利用可能
・商用利用可能
・ソースコード非公開
・日本語非対応

前述した「Hacker News」でアクセスランキング1位を取った記事を生成したのがこのAI。

簡単に使い方を見ていきます。
Pythonを用いた使用方法になります。
①Open AIのホームページを開く
②「Get Started」からアカウントを作成する③アカウント作成後に、ログイン
④コードエディタ(anacondaやVScode)を起動して、以下のように入力

pip install openai

⑤次に以下を入力

import os
import openai

⑥次にAPIキーを入力します。
APIキーは先程ログインしたサイトの右上、”Personal”から”View API keys”をクリックすることで確認することができます。
APIキーを〇〇に代入した状態で以下を入力してください。

API_KEY = "〇〇"
openai.api_key = API_KEY

⑦〇〇の中に、英語で好きな文章を入力します。

prompt = "〇〇"

最後に、以下を入力して、自動生成完了です。
max_tokensで生成する単語数を調整できます。

response = openai.Completion.create(engine="davinci",
                                    prompt=prompt,
                                    max_tokens＝300,
                                    temperature=0.5,
                                    echo=True)

記事を読んでくださり、ありがとうございます。もしよろしければ、投げ銭をいただけると励みになります！
※本記事はここで終了です。

▼INTJの相談室　※URLを修正しています。
ホームページを作成しました！
INTJへの質問をどしどしお待ちしております。
・悩み相談
・自慢
・要望等
無料・質問内容は問いません。
INTJが誠心誠意を込めてお答えします。

▼URL
https://intjsoudansitu.bubbleapps.io/

ここから先は

53字

¥ 100

ログイン

この記事が気に入ったらチップで応援してみませんか？