Hello World作品解説～Can AI understand novels?(mini)～

SUKE【カメラとテクノロジーと旅の話】@WONDEMENT

2024年10月30日 20:27

展示会『Hello World』を開催しました

自分が代表と務めるメディアアート集団"WONDEMENT"は8月10〜12日の3日間、原宿のデザインフェスタギャラリーで第三回展示となる『Hello World』を開催しました。

本展示ではメイン作品1点とサブの作品2点の合計3点を展示し、自分が全体のプロデュースと2つの作品制作に携わっています。

今回はその『Hello World』で展示し、自分が制作に携わったメイン作品『Can AI understand novels?(mini)』の作品解説をしていきます。

作品詳細

今回noteで取り上げるのは『Can AI understand novels?(mini)』です。

クレジット

プロデューサー、ディレクター、AIプロンプター
：SUKE

作品説明

『Can AI understand novels?(mini)』は第二回展示「With」で制作・展示した『Can AI understand novels?』の発展作品です。
↓こちらの作品解説もぜひ！

元の「Can AI understand novels?」は急速な成長を続ける生成AIを軸に
AIが人の書いた小説を他人に説明出来るほどに理解出来るのかをテーマとした作品でした。

題材に宮沢賢治の名作『注文の多い料理店』を使用し、
ChatCPTに文章を読み込ませた上でストーリーを10つのチャプターに要約させ、それぞれのチャプターを説明する画像を生成させることでAIや小説の内容を理解しそれを元にストーリーに沿った画像を生成出来るのか確かめる実験的な側面を持つ作品にもなっています。

今回の『Can AI understand novels?(mini)』ではそのコンセプトや制作手法はそのままに、参照する小説を複数用意して作品ごとの絵のテイストや表現の差も合わせて楽しめる様に改良しています。

使用ソフト等

ChatCPT（GPT-4o）
DALL･E 3
Photoshop

題材を選ぶ

「With」にて制作したものは宮沢賢治の名作『注文の多い料理店』を元に制作していましたが、
今回の題材として使用した小説は下記５つです。

走れメロス
竹取物語
山月記
故郷
雨ニモマケズ

いずれも教科書などで読んでいる可能性が高く、鑑賞者が小説の内容についてある程度イメージが出来る作品を選択しています。

そもそも多くの人がその小説を知っていて、内容をある程度イメージ出来るものでなければ、どんなにAIが小説の内容を忠実に描いても連想出来ないので、メジャーな作品であるかどうかはかなり優先度の高い検討事項でした。

画像を生成する

画像の制作手順は『Can AI understand novels?』と同様に
ChatGPTによる要約→DALL・Eによる画像生成
上記の順序で行っています。

但し、前回はバージョンがGPT-4 Turboだったのに対し、今回はGPT-4oにバージョンアップしており、より精度が上がっているように見受けられました。

要約する

文章の要約は一気に行います。
今回の様な短編小説であればChatGPTの上限トークン数に満たないため、文章を一括で入力し6つの章に分けるようプロンプトで指示を出しています。

そうすると指示通り6つの章に要約された文章が出てきます。
GPT-4oになったことでここの精度が上がると主に、処理スピードが非常に早く鳴っているように感じました。

生成する

次のステップは画像の生成です。
マルチモーダルでDALL・Eも統合されているため、プロンプトで各章ずつ一枚一枚生成していきます。

まとめて出力することも可能ではありますが、全て生成し終えるまで時間がかかりタイムアウトしてしまうのかエラーが出て生成がストップしてしまうケースもあり、前回同様一枚ずつ生成するようにしています。

ちなみにプロンプトはこんな感じ

A scene from the first chapter of the novel 'Run, Melos!' by Osamu Dazai. Melos, a determined shepherd, is seen angrily marching through a medieval village with his shepherd's staff in hand, a determined expression on his face. The village is depicted as serene but with an underlying tension, shown through the wary glances of the villagers. In the background, there is a menacing castle, symbolizing the tyrannical rule of the king Melos is determined to overthrow. The sky is cloudy, adding to the somber mood. The clothing and architecture reflect an ancient Greek setting.

「第一章の様子が分かる様に画像化してください」
といった指示しか出していないため、このプロンプトも内容を元にChatGPTが生成しているプロンプトになります。

あとはこれを小説と必要な枚数の分だけ繰り返します

拡張する

DALL・Eが出力できる画像の最大サイズは基本的に1024×1024です。
※縦長、横長にすると長編が少し大きくなります。

前回はA4に印刷したため圧倒的に解像度が足りませんでした。
今回ははがきサイズに印刷していますがそれでも微妙に足りず、また画像自体がスクエアなので横、又は縦に余白が出来てしまいます。
※350dpiで2039×1378が必要

そこで今回もAdobeのAI機能「Adobe Sensei」を活用したPhotodhopの拡張生成とアップスケーリングを利用して余白部分の拡張生成と画像の高解像度化を行っています。

詳しいフローは第二回展示の『Can AI understand novels?』作品解説で紹介しています。

↓これが

↓こうなる

出力する

画像の用意が出来たら印刷し、パネルに貼り付けます。

今回はより「何の小説なのか」を当ててもらうことに主眼を置いているため、パネルの裏に正解が記載されていて、パネルを手に持ち鑑賞しながら気になったら裏面を見て正解を確認出来る仕様にしています。

結果

本作品は前作『Can AI understand novels?』と同様に
「AIが人の書いた小説を他人に説明出来るほどに理解出来るのか」
という実験的な要素も含んでいます。

実際に会場に来ていただいた方々は生成された画像を見て元の小説の内容を理解することが出来たのかどうかが重要ですが、前回よりも理解できる人が増えている印象でした。

GPT-4 TurboからGPT-4oにバージョンが上がり、要約の正確さやDALL・Eに投げるプロンプトの精度が向上していることも原因だと考えています。

ただ、依然として画像生成において
AIは前後の話やストーリー全体の設定を読み取ってくれない
という課題は残っています。

前後関係を考慮した上で画像を生成することが出来ず、画像の中に登場している人物に統一性がなかったりしていて全体を一つの物語として人が認識出来るレベルには出来ていませんでした。

↓序盤ではこんな顔のメロスが

↓十番では顔も服装も変わっている
（服装も変わっていて世界観の統一もされていない）

映像を生成するAIは前後関係を維持した状態で連続した画像（フレーム）を生成出来るようになっているため、思っているよりも近い将来画像生成においても一貫したものが出力出来るようになるのではと思います。

最後に

今回は「Can AI understand novels?(mini)」について解説してきました。

前回の『Tech Synthesizer』を始め、生成AIを制作に活用し始めています。
一時の狂気とも言えるブームは落ち着きつつありますが、クリエイティブに大きな影響を及ぼし始めている存在です。

そのため、それを用いてどういった事が出来るのか検証し、作品と形で様々な人に触れてもらえる機会を創出することがWONDEMENTのビジョンである「誰が表現できる世界を作る」の達成に近づく取り組みだと思います。

それではまた！

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

48,039件