Midjourney、Stable diffusionから未来のソーシャルリスニングを考える

2022年9月16日 00:44

みなさん、こんにちは。ソーシャルリスニングBlogです。
前回に引き続き、AI関連の話題を取り上げてみたいと思います。

本noteでは何度かソーシャルリスニングとAI活用に関するテーマを取り上げてきました。ソーシャルリスニングもビッグデータと言われるものを扱う「データ分析」の1領域であることを考えるとAIは無視できないかなと感じています。

特に今回は、最近話題のお絵かきAIアプリケーション「Midjourney」や「Stabele Diffusion」にちなんだ内容になります。
SNSを中心に、これらのお絵かきAIの話題が盛り上がっていましたが、この領域でのAI活用の動きがソーシャルリスニングを考える上でも非常に示唆に富んでいて、ある意味でソーシャルリスニングの未来との相似形があるのではないかと感じたからです。

そのため、今回の記事はソーシャルリスニングに関する何かの経験値の結晶や知見をお伝えするものではなく、私個人の現時点での思考と言うか、妄想と言うか、洞察・見立てのような内容になる点、ご承知おきください。

そもそもMidjourney、Stable Diffusionって？

まず、Midjourney、Stable Diffusionをあまりご存じない方のために、簡単にまとめてみたいと思います。

Midjourney、Stable Diffusionは、「お絵かきAI」と呼ばれる類のAIツールで、大量の画像データを学習したAIモデルのようなものと理解しています。
ユーザーはこんなイメージの画像が欲しいという内容を文章にしてこれらのAIに入力すると、AIがその指示にそった画像データを出力してくれる、といった趣のものです。

詳しくはこのあたりを見ていただくと詳しいかと思います。

これが少し前にTwitterを中心に盛り上がったようで、最近ではTVのニュース番組でも取り上げられていました。
例えば、Twitterで検索するとこんな投稿がたくさん出てきます。

ミントの妖精をイメージしたドレス#midjourney　#midjourneyAi
Copyright 2022 Midjourney and koo. All rights reserved pic.twitter.com/jChOvGwJFl
— koo (@koo02502124) September 15, 2022

Can you not see I'm happy?#midjourney #midjourneyAi #aiart #aiartcommunity pic.twitter.com/kmgfX1PpT9
— imAIgin (@imAIgin) September 15, 2022

逆光　#midjourney 無編集 pic.twitter.com/iTRWxJahdO
— 852話 (@8co28) September 7, 2022

いずれもプログラムが描いたとは思えないクオリティです。おそらくゼロから人が書いたら数時間から数日かかるのではないか、と思うモノばかり。

AIを利用した映像表現の進化の兆し

Midjourney、Stable Diffusionが盛り上がったのはここ1-2か月くらい？かなと思っています。しかし、この短期間で、これらのAI活用の進化は目を見張るものがありました。

１）最初は物珍しさ

初期段階は、こんなツールができたらしい！こんな事がAIでバンバンできてしまう！といった「物珍しさ」で話題がドライブされていたような印象です。

２）呪文の研究

物珍しさステージを超えると、どうやらAIに入力するテキスト（これは呪文と呼ばれていました）を工夫することで様々な画像を作り出すことができるようになることがハックされ、研究が進みます。

３）更なる品質へ

そしてすぐに、単なるAIからの出力を楽しむだけでなく、AIからの出力を人間が後加工することで、さらなるクオリティの追求が始まります。

４）より高度な作品へ

ついには、すべてAIに絵を描かせてマンガを作成するツワモノまで登場しました。

AIにマンガを描かせてみるテスト（1/n）#Midjourney #マンガが読めるハッシュタグ #ツイッタSF #サイバーパンク桃太郎 pic.twitter.com/ctA9BvpU9l
— Rootport💰🧮💰 (@rootport) August 10, 2022

ネットにいる賢い人たちが新しい技術を面白がり、どんどんとアイデアをぶつけものすごい勢いで楽しみ方を進化させていく様子は、横から見ていてとてもエキサイティングでした。
一方で、この一連の動きは、イラスト・絵画・マンガといった映像系表現にとどまらず、創造的な作業とAIの関係に対して、非常に示唆に富んでいると感じました。

創造的作業とAIの関係

AIは「人工知能」と表現されますが、ある種の「作業代替レコメンエンジン」と捉えることができるのではないかと思います。
ECで「これを買った人はこれも興味を持ってますよ」という本来のレコメンエンジンも当然「AI（機械学習）」が裏で走っていますが、今回のMidjourneyやStable Diffusionも、「こういった指示があるなら、こういった画像はどうですか？」といった形で、機械が人の指示を元に何かしらの出力を提案してくる、と言った図式とも理解できるのではないでしょうか。

そして、そのレコメン結果はあくまで機械がプログラムを介して生み出したものであるが、人間の数百倍のスピードで処理してしまう。といったイメージです。

創造的な作業におけるAIの活用とは、このレコメンエンジンを人間がいかに使いこなし、さらに、その上に人しかできない付加価値を載せることができるのか、がポイントになってくるような気がします。

１）プランニング

まずは、ビジョン、目的、構想を決めます。ここはAIがサポートしてくれる領域ではないでしょう。活動の背景や、自分がそもそも何をしたいのか、何を表現したいと欲しているのか、などがスタート地点になります。

当然、人間にしかできない作業です。目的やビジョンを達成するために、どのような作業工程でゴールに到達できるのかをプランニングすることが必要です。

上記のAIで漫画を描いた例で言えば、「サイバーパンク」と「桃太郎」を融合させてこんな世界観、ストーリーの漫画を作りたい。そして、ストリートとセリフは人が考えるが、絵に関してはAIに任せよう、というプランニングを行います。

２）AIへの指示

その次は、プランニングした内容を再現するために、AIにどのような指示を出すのかを考えるフェーズです。
上記で、お絵かきAIに与える指示を「呪文」と呼び、そのワードチョイスや組み合わせる用語とその順番などをハックして最適にチューニングすることで、作成者の頭の中にあるイメージをより忠実に再現した（もしかすると作成者の想像力を超えた）映像を短時間で大量に超高速で生成していくことができることは取り上げました。

上記のAI漫画で言えば、ブレードランナーのような退廃的な未来の世界観とそこに馴染む各キャラクターを作者のイメージ通りに生成するため、「呪文」は様々に研究されたのではないかと想像します。

３）選択眼と2次加工

AIが様々な出力をしても、それらをそのまま利用する形では決して品質の高いアウトプットを生むことは難しいのではないかと思います。

AIが人間の指示（呪文）を元にしたレコメンエンジンとして「こんな画像どうですか？」「こっちのイメージならどうでしょう？」と次々にアウトプットを生んできます。
それらが
「どのような意味・価値を持つアウトプットなのか」
「そもそもの目的、ビジョンや、プランニングしたプロセスに照らして採用するのかしないのか」
という選択眼を発揮することが次に必要になります。

そして、必要があれば、AIのアウトプットを何かしら後加工して求める品質にさらに近づけたり、このアウトプットのこの部分と、こっちのアウトプットのここの部分を組み合わせて、さらに別の形に仕立てていく、という2次加工的なプロセスも人間には求められるのでしょう。
ここも、目的・ビジョン・プランに照らしてどうあるべきかを人間が考えて行動することが重要です。

AI漫画を例にすれば、個別のAI画像を切ったり貼ったりして、世界観やストーリー、各コマに必要な内容・品質の画像へ2次加工をたくさん行っているのではないかと想像します。

４）全体を仕上げる

最後は、AIのアウトプットに人の作業を加えて、もともとの目的やビジョンを達成するように最終的な成果物の形へまとめ上げていくステップになります。
ここはある意味、一番最初の「目的・ビジョン」に答えを出していく作業なので、人間にしかできない工程です。AIが生み出したアウトプットに人間ならではのエッセンスを載せて、最終的な姿へと昇華していくことになります。

AI漫画でも、AI画像を元にした各イラストにセリフをつけて、全体を漫画のフォーマットにまとめ上げる。そして、その工程で、作品のイメージに近づくように様々な試行錯誤、調整、変更、ファインチューニングが繰り返されたのだと思います（個人的な想像ですが、クリエイティブな作業は最後の1割にものすごい時間とエネルギーを要するので、きっとそうなんじゃないかと勝手に思っています）

MidjourneyもStable Diffusionも、突き詰めれば人間が各テキストを元に画像を出力する、という「小さなレコメンエンジン」でしかありません。
それを、①全体の構想とプランニング、②AIへの指示内容の研究、③AI出力の選択眼と2次加工、④人の付加価値と組み合わせて最終成果物へ、という点に人間の知恵とエネルギーとアイデアを注ぎ込むことで、AIを使いながらより複雑な創造的作業が可能になるのではないでしょうか。

ソーシャルリスニングとAI

ここで話をソーシャルリスニングに進めていきます。

ソーシャルリスニングの世界で、特に海外では、AICI（Artificial Intelligence enabled Consumer Intelligence）という領域に進化が進んでいます。

従来型のソーシャルリスニングとは、投稿量がどう変化したか、ポジネガの割合は、ワードクライドを出す、といった領域がメインだったという見方も出来ると思います。
この従来型のソーシャルリスニング機能から、AICIでは、SNSデータを分析する目的でAI利用のアイデアが深まり、各AI機能のチューニングが進むことで、AIが様々な形で分析者をサポートするようになっていっています。

ここに、MidjourneyやStable Diffusionとの相似形を感じ取ることができませんか。

今後も、どんどんAICIの領域は進化と深化が止まらないでしょう。
SNSデータから
「こんなところに面白そうな固まりがあるよ？」
「ここの変化に注目すると面白いかも？」
「こんな傾向があるけど注目してみたら？」
という分析レコメンエンジンがどんどん開発されると思います。

大事なのは、これらを単純に動かして「フーン、こんなアウトプットなんだ、なんかイマイチで使えないですね」みたいな見方ではなく、上記のAIアートの進化から見えた創造的作業のAI活用のように、「構造、プランニング」「AIへのインプットの研究」「AIからのアウトプットの取捨選択と2次加工」「人間の付加価値と最終化」というステップで、AIと人間が協力する方法を研究することで、新しい分析の世界線が開いていくような気がします。

AIが前提となった世界線では

AIからのレコメンを評価して使う価値があるのかの判断も人にゆだねられますし、どのような指示をAIに与えることでレコメンの品質を上げていく工夫も人だからこそできる領域です。

それらを前提として分析全体とどう設計し、どのような指示をAIに出し、どのように2次加工し、そこへ人しかできない洞察と解釈を加えて結論へと繋げていくか。ここが人間が本当に時間とエネルギーを注ぐことが重要になる世界線を想像します。

人がエネルギーを注ぐ対象が、大量のデータをマニュアル作業で裁くことから、「全体設計」「指示、2次加工のアイデアとチューニング」「AI結果を受けての洞察と解釈」に集中していく未来が想像できます。
このような世界線においては、人間（分析者）がエネルギーを向ける対象も変わってくるかもしれません。

おまけ

最後までお付き合いいただき、ありがとうございました。

終わりのチャプターでは、やや妄想に振り切った内容になりました。しかし、AIがどんどん発展し、AIをいかに使いこなすかが問われる世界では、こういったパラダイムシフトが起こる可能性があるなぁ、と感じました。

ただ、この領域は私のいるチームでも、ごくごく最近意識し始めた世界なので、この思想を普段の仕事の中で再現できている、ということは全くないです。
もちろん、色々な点で上記のような世界線に向かっている兆しは日々感じますので、常に意識して自己破壊しながら変化していきたいと思う毎日です。