Heron でシュッと遊ぶ

bbz

2023年9月7日 23:28

ちゃっす(/・ω・)/

Turing さんが Heron というマルチモーダルモデルを出されましたな(/・ω・)/

流石に楽しそうなので久々に Google Colab で遊んでみた(/・ω・)/

使い方は npaka 大先生が早速書かれているのでこちらをご参照あそばせ(/・ω・)/

ワタクシはシュッと遊ぶだけ☆

とりあえず画像からおすすめのアニメを推薦してもらうぞ(/・ω・)/

とりあえず DreamStudio で適当な画像を生成してもらう

この画像を読み込む

from PIL import Image
image_path = "./robot.png"
image = Image.open(image_path)

Let's 推論☆

# プロンプトの準備
text = "##human: この画像が好きな人にお薦めのアニメはありますか?\n##gpt: "

# 前処理の実行
inputs = processor(
    text=text,
    images=image,
    return_tensors="pt",
    truncation=True,
)
inputs = {k: v.to("cuda:0") for k, v in inputs.items()}
inputs["pixel_values"] = inputs["pixel_values"].to("cuda:0", torch.float16)

# EOSトークンの準備
eos_token_id_list = [
    processor.tokenizer.pad_token_id,
    processor.tokenizer.eos_token_id,
    int(tokenizer.convert_tokens_to_ids("##"))
]

# 推論の実行
with torch.no_grad():
    out = model.generate(
        **inputs,
        max_length=256,
        do_sample=False,
        temperature=0.,
        eos_token_id=eos_token_id_list,
        no_repeat_ngram_size=2
    )
print(processor.tokenizer.batch_decode(out))

画像が好きな人にお薦めのアニメは、映画『トランスフォーマー』シリーズだ。
この映画は2007年に公開され、世界中で大ヒットした。
映画では、変形するロボットがさまざまな形態に変身し、さまざまなロボットに変形する。
画像は映画を忠実に再現しており、ロボットとロボットとの戦い、
そしてロボット同士の友情が描かれている

おぉぉぉ～(/・ω・)/

アニメではないけどちゃんとロボロボしてる～

次はこれ

画像の好きな人にお薦めのアニメは、日本のアニメ「デスノート」だ。
このアニメでは、主人公の夜神月（ライト）が、死神のリュークを操り、
犯罪者を裁くためにデスノートを駆使する。
デス・ノート・シリーズは2006年から2年間にわたって放映され、
アニメファンに人気の高い作品となった。

ほぅほぅ。ダークなテイストがそうさせたのかしら？(　・ω・)

したらばこれならどうかな？

画像の好きな人にお薦めのアニメは、日本のアニメ「セーラームーン」だ。
このアニメシリーズは1990年代に人気を博し、セーラー戦士と呼ばれる5人の少女たちが、
悪と戦うために変身する。セーリング・ムーンのテーマは魅力的で、
少女たちの友情とチームワーク、そして困難な状況での勇気と決意が描かれている。

なるなるほどほど(/・ω・)/

女子高生？？の話なので合ってる気がする。

ではプロンプトをいじくるのだ(/・ω・)/

# プロンプトの準備
text = "##human: この画像内容をベースにギャグを創作してもらえますか？\n##gpt: "

ふむ。ギャグセンスはそうでもないのかもしれぬ(　・ω・)

画像は、制服を着た少女たちが学校の門の前でポーズをとっている。

これならどうかな？

text = "##human: この画像から連想される四文字熟語を教えてください\n##gpt: "

団結

団結。簡潔。

まぁ、四文字じゃないけどちゃんと表現できるぞ(/・ω・)/

多分わからんと思うけどこういう質問もしてみる(/・ω・)/

text = "##human: この画像に人間は何人いますか？\n##gpt: "

画像には5人の人間が写っている。

よく頑張った(*´▽｀*)

ちなみにまた忍者に戻して同じ質問をしてみよう。

画像には2人の人間が写っている。

ま、人数なんて気にする問題じゃないよね(*´▽｀*)

ではこういう画像表現は理解できるかしら？(　・ω・)

text = "##human: この画像を説明してください\n##gpt: "

画像は、2人の人物が描かれた大きな絵画で、1人は椅子に座り、もう1人がその隣に座っている。
この2人は、おそらく芸術家か画家であろう。
絵画は壁に掛けられ、背景にはさまざまな果物や野菜が描かれた皿が置かれている。
背景の皿は2つあり、ひとつは左側に、もう一つは右側に置かれている。

すんごい(　ﾟдﾟ)

あっているかどうかもわからないけれどなんだかそれらしいぞ

ということでとりあえず触りたかったのでシュッと遊んでみた(/・ω・)/

なんか色々楽しそうなこと出来そうでワクワクしちゃう☆

満足したのでおしまい。

Heron でシュッと遊ぶ

いいなと思ったら応援しよう！