信ジャンル「Future Funk」の構築中に考えたこと。「キーワードスタイル楽曲生成プロンプト」作成のアプローチは遠回りをしてみるべきだ!論
「Future Funk」なる信kジャンルを考えています。そんな大それたものではなく、「モータウン」のような「らしさ」を持つCaptain Panda♬として、何か独自性をもてないかと思って、妄想しているだけですwww
本日未明にSunoのクレジットが尽き果てまして、課金する小遣いも尽きたので、Future Funkの医局目として作ったセマンティックネットワークスタイルのプロンプトを、Udioにそのまま流し込みました。Udioは無課金なので、33秒ルール↓での生成になりますが、「We vibes, we vives・・・」というフレーズがあまりにかっこよかったので、そのまま1曲最後まで作りました。(前記事にメディアファイルを載せています)
その時、ふと気が付いたんです。chatGPTにセマンティックネットワークスタイルの歴史的成り立ちを教えて(「キーワードスタイル」→「構造化スタイル」→「セマンティックネットワークスタイル」)、「今、あなたが記述したのはセマンティックネットワークスタイルのプロンプトです。その楽曲をキーワードスタイルのプロンプトに落とし込んでください。キーワードスタイルには30トークンの制限があります。」と指示しました。すると以下のとおりの楽曲生成プロjンぷとを回答ました。
Future Funk, energetic, nostalgic, 124 BPM, synthesizers, bass guitar, electronic drums, samples, upbeat groove, vibrant, 70s and 80s funk, modern twist, danceable, neon colors, retro-futuristic, celebration, dynamic progression
このキーワードスタイルのプロンプトをUdioにあたえ、Createしたところ、楽曲タイトルは{Neon Night」となりました。全く同じ解釈とはなりませんでしたが、近似していたので、ちょっとびっくりしました。
SunoもUdioも私の思い描く「Future Funk」なんてジャンルは知りもしないわけですから、Future Funkの何たるかを、元の生成プロンプトに込めてあります。その込めた部分も伝わっているようで安心しました。
ここから、話は記事タイトルの回収になります。
この字実践の通り、キーワードスタイルであっても、生成モデルはユーザの意図をかなり器用に解釈してくれるようです。ただし、キーワードスタイルのもつ、あいまいさや拡散性は、人間の試行錯誤では、時間や能力の浪費が激しすぎる気がします。もちろん、それこそが、「クリエイティブらしさだ」といえばそれはそうで、否定はしません。生みの苦しみは出来上がりの達成感を増大させますし、作者の作品への愛着は受け手に「伝わるもの」だと信じています。
でも、「アルケミスト」である私はその、時間や能力の浪費をいかに削るかも一つの命題としています。楽曲生成のフィードバックループは、必要ではありますが、できるだけ避けたいものです。なにしろ、クレジットまでも大量に消費してしまいますからねぇ。
お気づきのとおり、先の記事内容を書き直しになるだけですが、キーワードスタイルプロンプトの作り方を一つ提案します。
・キーワードスタイルと高度なスタイル(本記事ではセマンティックネットワークスタイル)の関係性を、言語モデルに教え、あるいは考察させ、その知識を与える。
・高度なスタイルのプロンプトで楽曲を記述する。
。言語モデルにそのプロンプトから「逆算」を用いて「キーワードスタイルプロンプト」を記述させる。
という流れで焦点の絞られたキーワードスタイルプロンプトができる・・・まぁ、できるかもしれないとしておきます。(そんなに自身もないし)
これならばどうでしょう。Sunoのカスタムモードなど利用することなく、できあがったプロンプトをコピペしてCreateをタップするだけ、スマホでも簡単に作れちゃうじゃないですか!
おまけ:
Udioの歌詞生成能力がユニークなので、このキーワードスタイルを用いてUdioに歌詞を作らせて、その歌詞を頂戴して、Sunoにあらためてセマンティックネットワークスタイル」でプロンプトを与えると、Udioのユニークな歌詞とSunoの一発生成によるフィードバックループが確立できて、はかどりませんかね?
知らんけど。