見出し画像

画像から小説やTwitter用の短文を生成する簡単な方法の紹介


1.はじめに

 こんにちは。ささらさらさらと申します。普段はChatGPTで小説(主にR18)を書いてAIピクターズに投稿したり、動画投稿をしたりしています。時々画像生成でも遊んでいます。
 さて、今回ご紹介するのは、AIなどで生成した画像から小説やTwitter用の短文を生成する方法です。これは先日アップデートされましたGoogle Bardを使用することによって実現可能になりました。もしよければ、この方法を試してください。

2.Google Bardを使う

Google BardはGoogle社が開発した対話型AIです。まずは、Bardの画像認識機能を解放しましょう。

1.Google Bardにアクセスする

アクセスしたら、β版に参加するボタンを押しましょう。しばらくすると参加できます

2.言語を英語にする

現在、Bardの拡張機能は英語版にしか搭載されていません。アカウントの言語設定を英語にしましょう

3.Bardに画像を認識させ小説を作る

 英語版にすると、チャット記入欄の左側に「+」のマークのボタンがあります。それを押すと、wordやexcelなどのデータや画像を添付できます。ボタンを押して、アップロードしましょう。
 今回アップロードしたのは以下の画像です。AI Pictorsさんで生成しました。

なんか尻尾2本生えているけど気にしない。かわいい!

※写真をアップロードする場合はJPEG形式がおすすめです。処理が速く、また画像を誤認識されることが減ります。

アップロードが終わったら、チャット欄に要望を英語で書きましょう。今回の場合、「please write the short (very short) story by using this photo」のようにしました。英語でないとBard君は上手に認識してくれません。でも、簡単な表現で大丈夫です。

すると、Bardは以下のように生成してくれました。

short storyでお願いした場合
very short storyでお願いした場合。こちらは150単語前後。

今回はvery shortとshortの二種類でお願いしましたが、あまり違いは感じませんでした。

内容について先に触れておくと、猫耳やカボチャと言った要素がきちんと反映されています。これはとてもすごいことです。もし希望のストーリーがあれば、条件文を付け足して自分好みのものにしてください。(例えば write fantasyとか)

センシティブな描写の要素を含む場合、Bardは生成をやめます。Bardはかなり規制が厳しいです。
たとえば、パンツ(panties)という要素が絵から見出される場合、Bardはパンツの描写を文章に盛り込もうとします。しかしその際に規制にひっかかり、文章が出力されなくなります。

よって、文章を生成したいのなら、健全な絵を使うことが最善だと言えるでしょう。

4.ChatGPTで和訳をする

 Google Bardは前述の通り、日本語にまだ対応していません。なので、内容をコピペして、ChatGPTに託します。なお、今回はChatGPT3.5を使用しました。3.5でも十分よい文章は作れると思います。
 では、先に画像を添付してから、順を追って説明します。

short storyのの場合。


very short storyの場合。内容はほとんど変わらない。

まず、ChatGPTに文章を訳してもらいます。「日本語に訳してください」などを書き、その後にBardの生成した文章をペーストすれば簡単に訳してくれます。Bardで出力される文章はほとんどが健全なものなので、GPTのフィルターにかかることはないと思われます。

内容を見ると、「猫耳」や「かぼちゃ」など、画像内の要素がきっちりと描かれています。画像と文章の齟齬が小さいのが、Bardの極めて優れている点です。

これで、小説部分が完成しました。小説を作成したい場合は、これで工程が終了となります。もしGPT側で書き直しをさせたい場合は、「この文章をもっと情熱的に書いてください」など、条件を付けてお願いすれば、GPTはすぐに書いてくれます。

5.短文に要約する

 AIで画像を生成する場合、多くはTwitterなどのSNSや画像投稿サイトへの投稿が該当すると思います。その際、一言か二言くらい言葉を付け足すと、画像の魅力が引き立ちます。
 しかし、毎回それを考えるのは大変かもしれません。そこで今回は、ChatGPTに手伝ってもらいます。

 先ほど、GPTに小説を和訳させました。これらを短文にするためには、「1行でまとめてください」みたいな指示が有効です。すると、「女の子はカボチャ畑で楽しく遊びました」のような文章が書かれます。

 しかしこれだと三人称視点であり、非常に味気ないです。Twitterでの投稿を見ると、大抵は「ねえ…恥ずかしいところ、みる?」のように、画像内の登場人物からの語りとして文章が描写されています。

 そこで今回は、「女の子の視点からの感想の形式」という指示を出しました。最初「女の子の視点から」描写するように指示したのですが、まだ三人称視点が抜けていませんでした。そこで、感想というワードを付け足すことで、女の子の感想を描写することに成功しました。

 まだ私はこの方法を思いついたばかりなので、どのような指示文が最適かはわかっていません。皆さんの中で、この語り口はいいな、というものを見つけてくださると幸いです。

6.今後の課題

この方法はBardの異次元の機能によって成立しました。しかし、少し課題があるのも事実です。

1.Google Bard側の制約

 前述したように、Bardは日本語に対応していません。なので、文章の翻訳はChatGPTを経由する必要があります。
 また、BardはGPTに比べてずっとフィルターが厳しいです。なのでエロは全く通用しません。それにより、文章を生成する画像が制約されるのは事実でしょう。ChatGPTが画像認識機能を早く搭載させてくれればわざわざBardを使う必要はありませんので、その日が来るのを楽しみに待ちましょう。

2.画像認識の精度

 正直、画像認識がどれほど正確かわかりません。色とかは少し間違えることもあるでしょう。一方で、アニメの絵などはすぐにキャラクターの情報や吹き出しにはいるセリフを詳細に記述するそうです。すなわち、ネット上の画像とその情報を大量に学習し、画像の要素と言葉を結びつける技術を確立させているのでしょう。
 これは余談ですが、この画像認識技術は、シンボルグラウンディング問題と言うAIの大きな課題を解決するまであと少しのところまで迫っている気がします。いやー、技術革新は本当に早いですね。

6.まとめ

ここまでお読みいただきありがとうございます。Google BardとChatGPTを使って、画像から小説や短文を生成する方法を紹介しました。

画像認識機能が加わったことにより、画像と小説の齟齬が小さくなりました。画像生成の際にプロンプトをいれても、関係ない情報が混じることはよくあります。今回の私の絵のカボチャもそうです。プロンプトには何の情報も入れていません。しかし画像の情報を直接認識して文章を作ることで、プロンプトの情報から文章を作るときに比べ、より正確でより表現力豊かな文章を作ることが可能になっています。これは画像認識技術の賜物と言えるでしょう。

もちろん、Twitterにのせる文章くらい自分で考えられるという方は多くいるでしょう。しかしこのような方法により、少しでも多くの人がAI画像と文章生成AIのつながりに興味を持ち、楽しんでいただけるようになったら、それは私にとってとてもうれしいことです。

お読みいただき、ありがとうございました。

おまけ

私の情報のあれこれ

Twitter: 

Youtube :

Niconico: 

AIピクターズ(ChatGPTで作った小説やAI生成画像を投稿しています。)

ChatGPTの小説執筆方法などに関する質問はこちら:


いいなと思ったら応援しよう!