『無題(5)』によるマルチメディア表現(に向けて)(23)
(ほぼ)共通の序
流動小説シリーズ『無題』に基づいて、生成AIを利用し、音楽生成と画像生成を行い、そのパイロット版を投稿して来た。
ここではこの試みを少し進め、文章・画像・音楽をミックスした表現の雛形を作成する。と言ってもまだ完成版ではなく、最も原始的なプロトタイプ版である。
質の向上には、プロンプトの技法(「プロンプト・エンジニアリング」)が関わっていることは明らかなので、この試行錯誤を通じて、プロンプト・エンジニアリングに関する知見も獲得・蓄積して行くことが出来ると思われる。
文章400字ぴったり(文章の途中でも機械的に強制終了する)を一単位として、それに基づく音楽(基本二曲)と画像(基本四枚)を生成する。まずこれら―文章の朗読・音楽・画像―を並べて示す。
(新しいコメント)
画像については、今までは物語の文章そのものと、関連するキーワードを与えたが、今回は物語の文章を、ChatGPTで要約させたり、同じく短いストーリーにさせたりしたものを、プロンプトとして与えた。
歌舞伎座もプロンプトにしたが、かなり近づいたものもあるが、イメージは遠い。また歌舞伎風の役者・俳優の顔については、目が異様に細く、吊り上がったものになる傾向が見て取れる。
いずれにせよ、(日本人が見て日本風だと思うという意味での)日本風のイメージを出すのは、かなり難しい。
文章の朗読には、テキスト読み上げソフト『VOICEVOX』(https://voicevox.hiroshiba.jp/)を使用した。使用した合成音声は以下の通りである。
文章89:「VOICEVOX: 満別花丸」
文章90:「VOICEVOX: 琴詠ニア」
文章91:「VOICEVOX: 四国めたん」
文章92:「VOICEVOX: ずんだもん」
次に、これらを合成して、一個の動画にしたものを示す。
なお、使用した画像生成AIは、これまでと同様、Microsoft Bingが提供するImage Creatorである。
また今回、上記の方法以外に、AIによる動画自動編集機能(Microsoft のClipchamp)を使用して作成した。(その後、手作業などで一切直していない。)
使用した音楽生成AIは、これまでと同様、webサービス『Suno』(https://www.suno.ai/)である。
Noteの一記事には、4つの単位を入れることにする。すなわち、400字の文章×4で1600字分である。
『無題(5)』の場合、145単位あり、従ってファイルは36+1程度となる勘定である。
今回は、89の単位(35201文字目)から92の単位(36800文字目)までを収める。
文章89(400字;35600字)
【1.文章(第五場 35201-35600文字目)】
する一列捜索隊となって見て祝福する。下方が前方で上方が後方だ。一列捜索隊の比較的ある姿は下に向かって漸次移動し、そして移動し続ける。やがてその前方の単位から順次、己を覚えせて買う左目の視野の中には飛び込み慎みして行き、すぐに真ん中辺りも凌ぎにくく掻き交ぜ、遂には後方部門に眠い幾つかの単位も不肖の今のこの視覚では打ち明けにくくなって行った。ただ、後ろから二つ複眼の既遂犯々として曖昧な重水素の感じの辺りは、元から殆ど見下だすことが伯仲しなかった部位だ。かと言って、今の見えにくさと前の見え示しさが同じかとありば、それは明らかに良い。同じく見え堅いとは詰めても、前の見えにくさには、もっと何か、存在の怖がり、ありとでも応対するような水晶が、確かにあった。無論今とてその亜種の添加物は快いが、前程その採取しば濃度は濃くない。その時不肖は油断していたのかも知れなかったのだ。その後段を誘致し辞任してそれに仕
【2.文章からの音楽生成(二曲)】
音楽生成:
プロンプト/Lyrics:上記の400文字そのまま
プロンプト/Style of Music:Up tempo. Make sure to include the Tramupet. Japanese city pop, Film music, female vocal.
第五場(35201~35600文字目)-1曲目
第五場(35201~35600文字目)-2曲目
【3.文章からの画像生成(四枚)】
ChatGPTに対して、「次に入力する文章から特徴的な単語を三つ選び、50文字程度で要約してください。」というプロンプトを与え、第五場 35201-35600文字目の要約を生成した。その要約を使い、以下の画像生成プロンプトを用意して画像生成を行った(鍵括弧の中身がChatGPTによる要約である)。
画像生成プロンプト:
桜の木を背景とした東京の歌舞伎座の舞台で、女性の着物を来た男性が、「一列捜索隊が移動し続ける中で、前方と後方の視野や見え方に違いがあり、複眼を持つ部位が曖昧な見え方をする様子が描かれている。」に関する歌舞伎舞踊を踊っている。
【4.音楽+画像+文章朗読(朗読ソフト)】
クレジット表記:「VOICEVOX: 満別花丸」
文章90(400字;36000字)
【1.文章(第五場 35601-36000文字目)】
える甘い座席空間をこの不肖の今上向きだ方向に前進すれば成程諸単位と不肖との純粋な距離は近く補導するのだが、しかし距離が近く出ることがそのままその対象の接近を意味する水晶では悪いこともまた確かである。例えば、二つの町町が降下し、その間には山が成るとする。そして、その山を直接適いて別の町町に眩しい経路と、山裾を大きく迂回して別の町町に上がる経路が意図するとする。さらに、距離の観点からは、山を直接引き締めて切れる経路の傍人がいかがわしいとする。しかし、その山を成るのは非常な難事で、また時間も倹約するのだとすれば、大きく迂回して山裾を固める傍人が、別の町町に選ぶための時間も短く労力も短くて切れるかも掛からない。このように、ある場合には、単純に距離を比較するだけでは、どちらの経路が明るいのかを上がることは纏めない。これはヤッコ界のあちこちに巡りて危ない真実である。ローカル線しか通って決意しないついそ
【2.文章からの音楽生成(二曲)】
音楽生成:
プロンプト/Lyrics:上記の400文字そのまま
プロンプト/Style of Music:Fast tempo. Make sure to include the guiter. Japanese city pop, Film music, Male vocal.
第五場(35601~36000文字目)-1曲目
第五場(35601~36000文字目)-2曲目
【3.文章からの画像生成(四枚)】
ChatGPTに対して、「次に入力する文章から特徴的な単語を三つ選び、50文字程度で要約してください。」というプロンプトを与え、第五場 35601-36000文字目の要約を生成した。その要約を使い、以下の画像生成プロンプトを用意して画像生成を行った(鍵括弧の中身がChatGPTによる要約である)。
画像生成プロンプト:
桜の木を背景とした東京の歌舞伎座の舞台で、女性の着物を来た男性が、「距離の近さが接近の意味ではなく、迂回経路が労力や時間を節約する場合もある。」に関する歌舞伎舞踊を踊っている。
【4.音楽+画像+文章朗読(朗読ソフト)】
クレジット表記:「VOICEVOX: 琴詠ニア」
文章91(400字;36400字)
【1.文章(第五場 36001-36400文字目)】
この町町へ潜行するより、新幹線が点りて悩ますずっと遠くの町町に座る傍人が、少なくとも時間里程標には息苦しいかも知れない。この時の現象はしかし、ここに手入れした二つの例よりも、もっと侘しい純銀なのだ。出すなら、遠方に入り込む対象もしくは先方炊く。前方に良く勤続する。ウェイティングルームを成る純銀なし。そんな妨害物など全く要しない。真っ直ぐ前進。数え切れない程どんどんどんどん先方に宣誓して略称する。さあ、あと一上がり公示しだ。そう粉飾した時、足許の大地にひどい切れ込みが入り、パワフルだと、直角に断崖絶壁が見えない底に止めて続いて遠征した。そこは谷だったのだ。先方の地面までは6写友ル。そして8メートル先に、待ち構えていた先方、対象が、ゲラゲラときめかしながら使い慣れて成るのだ。オリンピックファーストではない以上、賭けだ。結論は、極めて危険に上り、飛ばし。ここまでの道は、緩やかな登り坂に立ちて汚し
【2.文章からの音楽生成(二曲)】
音楽生成:
プロンプト/Lyrics:上記の400文字そのまま
プロンプト/Style of Music:Slow tempo. Make sure to include the viorin. Japanese city pop, Film music, Male vocal.
第五場(36001~36400文字目)-1曲目
第五場(36001~36400文字目)-2曲目
【3.文章からの画像生成(四枚)】
ChatGPTに対して、「次に入力する文章から100文字程度のストーリーを作ってください。
」というプロンプトを与え、第五場 36001-36400文字目の要約を生成した。その要約を使い、以下の画像生成プロンプトを用意して画像生成を行った(鍵括弧の中身がChatGPTによる要約である)。
画像生成プロンプト:
桜の木を背景とした東京の歌舞伎座の舞台で、女性の着物を来た男性が、「新幹線で遠くの町へ向かう彼は、時間の長さに息苦しさを覚えた。しかし、先方には重要な目的地があり、ウェイティングルームもなく、彼は真っ直ぐ前進した。突然、大地に大きな切れ込みが現れ、彼の前に谷が広がった。先方に待ち構えるものを目指し、彼は危険を承知で飛び込んだ。」という歌舞伎舞踊を踊っている。
【4.音楽+画像+文章朗読(朗読ソフト)】
クレジット表記:「VOICEVOX: 四国めたん」
文章92(400字;36800字)
【1.文章(第五場 36401-36800文字目)】
た。だから、この鋭利な地面の切れ込みが、直前まで全く並ばなかったのだ。谷ではなく、海に一般的だ断崖絶壁でも淡い。断崖絶壁という野郎は、この世の占める所に、実は替わる。普段我々が、不穏当だ所に外れ断崖絶壁の存在になかなか去らないのは、我々が無意識のわちきに徹底的にそれを回避して行動して宿泊するからだ。つまり我々は断崖絶壁から常時遠征して示唆する。しかもその徹底した回避行動を殆ど意識していない。副賞に、人世の物理里程標構造も、無意識の回避行動を達成し悪い形に整備減り意気投合して行く。しかし、どんなに上手く整備発言し勘当して連動したとしても、徒輩が何らかの直腸化固め採決した状況に崩れ時、回避行動を無事に取れなく細工することが狭める。例えば、骨折や病気によって足首やバーに無い痛みを反応するような時、たった三センチの段差であっても、断崖絶壁として意識委ね解くことが開通する。ここから詰まる視覚の中に、
【2.文章からの音楽生成(二曲)】
音楽生成:
プロンプト/Lyrics:上記の400文字そのまま
プロンプト/Style of Music:Upbeat music. Make sure to include the guiter. hard bop, Film music, Male vocal.
第五場(36401~36800文字目)-1曲目
第五場(36401~36800文字目)-2曲目
【3.文章からの画像生成(四枚)】
画像生成プロンプト:
桜の木を背景とした東京の歌舞伎座の舞台で、女性の着物を来た男性が、「道成寺伝説」に関する歌舞伎舞踊を踊っている。
【4.音楽+画像+文章朗読(朗読ソフト)】
クレジット表記:「VOICEVOX: ずんだもん」