デザイナーのためのMidjourney活用ガイド：ビジュアライザーとしての潜在能力、その革命性について

2024年8月18日 01:53

7/31にv6.1のアップデートがあったMidjourney。その話しは各方面の方が書いておられるので、書こう、書こうと思いつつ慌ただしく過ぎて書いてなかったMidjourneyのそもそもの革命性についてです。

はじめに

「画像生成AI」と括られることで、その潜在可能性のポテンシャルが伝わっていないMidjourney。
Midjourneyは単なる「画像生成AI」ではありません。2024年3〜4月のアップデートにより、Midjourneyはビジュアライザーとしての能力を大幅に向上させました。この記事では、Midjourneyがデザイナーにとっていかに強力なツールとなりうるかを、具体例を交えて解説します。

もちろん画像生成AIでもあるので、絵、写真といった画像を生成するのに現状ナンバーワンの生成AIではあります。画像を日々、取り扱う職業であるデザイナーにとっては必携活用して欲しいツールだと思っています。

Midjourneyの活用範囲

グラフィックデザイナー
Webデザイナー
エディトリアルデザイナー

など、幅広いデザイン分野で活用可能です。

Midjourneyの驚異的な能力：具体例

以下の10例を見てみましょう。
各例は元画像とMidjourneyで生成した画像を並べています。

さて、いかがでしょうか？

上に並べた10点の画像。
どれも元画像と、その画像を参照して生成したMidjourneyの画像の2つないしは、3つを並べてみたものです。

これらの画像を見比べると、Midjourneyが元画像の世界観、作風、傾向を見事に継承していることがわかります。しかも、これらはほぼ一発で生成されています。

パッと見の第一印象はどれも付けられたキャプションを理解したあとは何の違和感もなく何気に見て過ぎると思います。
もちろん拡大したり、どれが生成画像か、ということを意識して比較参照して見比べれば、まあなんとかわかるレベルです。

Midjourneyをビジュアライザーだと表現したのは、こういうことです。

Midjourneyをビジュアライザーとして活用する

AIっぽさが無いばかりか、元画像の世界観、作風、傾向というものを見事に継承している。元となっているのは全て、左の画像が元で、右の画像は、その世界観・作風を踏襲し生成させた画像です。

それを、この精度で、しかもほぼ一発のポン出しで生成しています。

恐ろしくないですか？

デザインという職能の現場にとって、今まであり得ないことが起きています。具体的な現場のシーンに即した活用可能性のストーリーをちょっと書いてみます。

ケース1｜記事中にそれらしい画像が欲しい

イベント来場者の様子の写真、もうちょっと増やしたいんだけどあるかな？

発注者や編集担当者からデザイナーへの相談

ええーと、探してみますが、確か1枚使ってますよ。

それを2点使ってならべたいんだよね、イベントの評価が2つに分かれてたから、それぞれに1カットづつ使いたいの。

なるほど、探してみます。

というシチュエーションだったとします。でも、いい感じのものが無かったとします。でも編集意図はわかるのでデザイン的にもうまく反映させたい。

はい、Midjourneyの出番です、

1枚あったイベントの写真を読み込み、その写真の雰囲気・世界観をビジュアル全体で分析して、描画に反映してくれます。

プロンプト「スーパーフォトリアリズム、本屋で撮影、左に30歳のイラストレーター男性、右に24歳の女子大生カジュアルな服装、背は低め」
と日本語で書いて、DeepLなど英訳アプリで英訳してMidjourneyへ。

すると以下が生成されました。

お店の雰囲気、照明の感じ、を同様に生成してくれ同一イベントに来場していた二組のカップルという画像になりました。もちろん背景は実際の店舗ではないので1枚目の画像から、より背景の参照性を強めるようなプロンプトを書いて寄せることも可能だとは思いますが、手間なので背景をぼかすなどで「二組のカップル」という編集意図は実現できます。

続いて

ケースワーク2｜ショート動画の起点画像をつくりたい

とある映画のワンシーン風の画像をつくり、動画生成したいとします。
求める雰囲気の風景の写真を見つけます。
その世界観の中に希望する対象物（ここでは車、他にも人物、家、モンスター等）を登場させるというシーン画像をつくりたい、とします。

プロンプトは「スーパーフォトリアリズム、濃い霧の中、向こうから近づくクラッシックカー、ヘッドライトが灯っている」です。これを英文にしてMidjourneyに入力します。

生成されたMidjourneyの画像、元画像の世界観の中にクラッシクカーが登場します

これもプロンプト入力後の最初の生成の一発出しで、この水準で仕上がってきます。凄くないですか？

まるで映画のワンシーン生成ですよ。
この画像をRunway Gen-3などで動画化すれば、静かに奥から手前にクラシックカーが移動するシーンを10秒レベルで作ってくれます。

世界観を統一しながら、動画生成をしてストーリー性のあるショート動画を作りたい場合、このテクニックさえわかれば上の世界観反映画像を5〜10分で作ることができます。

よりこだわりのある情景、状況を更にプロンプトで記述していけば、この世界の中に登場人物を入れたり出来ます。

このようにMidjourneyは動画世界観をビジュライズして作っていくことのできるビジュアルエンジンであることも、具体事例を見ていただくとわかっていただけるかと思います。

単なる画像生成AIというよりはビジュアライザーであり、静止画から動画、漫画、アニメという表現方法へマルチアウトプットしていくための描画エンジンだといえます。

作風のレファランスエンジンとしてのMidjourney

将来的に、もっと凄い画像生成AIが出てくるかも知れません。
しかしMidjourneyには、このようなビジュアライザであるとともに画像の作風カタログデータベースでありレファランスエンジンとしての機能も備わっています。このDB件数において先行者として群を抜いています。

具体的に、どういうことか？
以下をご覧ください。

上の2点の画像は、上が参照元となった画像です。下が、そこから生成された画像。上は「青の少女」下は「青の少年」といったキャプションになりましょうか。少女の描画の線と少年の描画の線は、厳密には微妙に異なりますが、作画の方向、絵全体の雰囲気の作り方は見事に踏襲されています。

この2つの画像はMidjourney世界の画像カタログ的な番号によって、作風、画風、世界観が定義されています。その番号を入力すれば、プロンプトをあれこれ変えたとしても、このような色使いと余白バランスの美しい画像が、この青の画像世界観を参照する画像カタログ番号によって呼び出され描画されます。

楽器などのキーボードでいうところのプリセットメモリ的な感じです。
プリセットの番号を変えていけば、同じメロディーでも音色の異なる、その音色の世界観の音が拡がるのに似ています。

Midjourneyでは、この画像番号のメモリ空間を4,294,967,295個（42億9千496万）確保していて、あらゆるユーザーの日々の生成によって、これらの画像の作風、画風、世界観がコレクションされデータベースされています。
つまり私たちは、その番号さえ把握しておけば、42億9千496万種類の画風、作風を即座に引き出し使うことができるのです。
そしてこれらの番号同士を、複数掛け合わせていくこともできるので、事実上、無限の生成パターンを生み出せます。

ここまで書いてMidjourneyのユーザーであれば、上の各機能は何のことで、それをどう使えば、上のように画像を最初から希望に近いイメージで生成できるのか、経験上知っているかと思います。

ですが、まだまだデザインの現場の従事者にあっては、Midjourneyをお絵描きAIの認識で捉えている方が多いため、画像だけだったら、ロイヤリティフリー画像素材で、まあ、なんとかなるし。という認識なのかも知れませんがロイヤリティフリー画像サイトで、自分が使いたいイメージの画像を探すのに30分も1時間もかかることはザラにあります。

使う画像の重要度にもよりますが、ブログ記事にイメージカットで入れたい、タイトルヘッダーのイメージ写真を決めたい、というなら、今日の記事の画像を生成した方法であれば、10分前後には、イメージに近い画像を生成できると思います。

8月末、9月に、このMidjourneyのこの画像の作風、画風、世界観データベース番号の用い方、また手元にあるベース画像から作風、画風、世界観を抽出して、これから作りたい新規画像に適用するのかという活用方法に特化したMidjourney活用セミナーを開催します。
この方法を適用すれば、漫画なども描けるようになります。

Midjourneyによって、あなたのデザインの仕事の質は変わります。

最後に、プロが仕事で、これらの画像を使っていく場合の留意点について書いておきます。Midjourneyの有料プランに加入すれば商用利用はOKになります。ただし、著作権法はまた別です。

日本の著作権上、作風の踏襲は違法か、どうかについてです。

日本の著作権法において、作風そのものは「アイデア」に該当し、著作権法による保護の対象とはなりません。著作権法は「表現」を保護対象としており、具体的な表現に対してのみ著作権が認められます。作風やスタイルは一般的に「アイデア」とみなされるため、これを真似すること自体は違法とはされません。
ただし、作風を取り入れた上で、具体的な表現やその独自性を模倣した場合、その模倣が著作物の実質的な同一性を生じさせるものであれば、著作権侵害が認められる可能性があります。そのため、作風の踏襲自体は違法とはなりませんが、具体的な表現の模倣に注意が必要です。
この点については、特定のケースごとに判断されるため、具体的な状況に応じて慎重な対応が求められます。

「AI と著作権に関する考え方について」令和6年3月15日文化審議会著作権分科会法制度小委員会

作風はアイデアなので著作権法の外にありますが、その作風で、特定のポーズ、表現がジブリ映画のキキのポーズの表現に酷似したらNGということです。

表現を真似るのではなく、世界観に寄せる、という考え方になると思います。ある表現の世界観に寄せる、とはデザインという行為の中では往々にして使われています。

時代のスタイル、流行のスタイルというものが歴然としてあり、その時のスタイルをどう編集できるか、組み合わせられるか？
がデザインをするものの能力であったりします。
生成された画像を直接使わず、関係者との撮影前の方向性確認、ロケハンで撮影した画像から本撮影のイメージを作ってクライアント承認を得ておく、など使い道は色々とあります。デザインのDXの一つと考えて使うといいと思います。デザインの質が、相当変わること間違いなしです。