Heron でシュッと遊ぶ

ちゃっす(/・ω・)/



Turing さんが Heron というマルチモーダルモデルを出されましたな(/・ω・)/




流石に楽しそうなので久々に Google Colab で遊んでみた(/・ω・)/




使い方は npaka 大先生が早速書かれているのでこちらをご参照あそばせ(/・ω・)/



ワタクシはシュッと遊ぶだけ☆



とりあえず画像からおすすめのアニメを推薦してもらうぞ(/・ω・)/




とりあえず DreamStudio で適当な画像を生成してもらう

なんかロボットっぽいやつ



この画像を読み込む

from PIL import Image
image_path = "./robot.png"
image = Image.open(image_path)



Let's 推論☆

# プロンプトの準備
text = "##human: この画像が好きな人にお薦めのアニメはありますか?\n##gpt: "

# 前処理の実行
inputs = processor(
    text=text,
    images=image,
    return_tensors="pt",
    truncation=True,
)
inputs = {k: v.to("cuda:0") for k, v in inputs.items()}
inputs["pixel_values"] = inputs["pixel_values"].to("cuda:0", torch.float16)

# EOSトークンの準備
eos_token_id_list = [
    processor.tokenizer.pad_token_id,
    processor.tokenizer.eos_token_id,
    int(tokenizer.convert_tokens_to_ids("##"))
]

# 推論の実行
with torch.no_grad():
    out = model.generate(
        **inputs,
        max_length=256,
        do_sample=False,
        temperature=0.,
        eos_token_id=eos_token_id_list,
        no_repeat_ngram_size=2
    )
print(processor.tokenizer.batch_decode(out))
画像が好きな人にお薦めのアニメは、映画『トランスフォーマー』シリーズだ。
この映画は2007年に公開され、世界中で大ヒットした。
映画では、変形するロボットがさまざまな形態に変身し、さまざまなロボットに変形する。
画像は映画を忠実に再現しており、ロボットとロボットとの戦い、
そしてロボット同士の友情が描かれている




おぉぉぉ~(/・ω・)/



アニメではないけどちゃんとロボロボしてる~



次はこれ



アイエェェェェみたいな画像




画像の好きな人にお薦めのアニメは、日本のアニメ「デスノート」だ。
このアニメでは、主人公の夜神月(ライト)が、死神のリュークを操り、
犯罪者を裁くためにデスノートを駆使する。
デス・ノート・シリーズは2006年から2年間にわたって放映され、
アニメファンに人気の高い作品となった。




ほぅほぅ。ダークなテイストがそうさせたのかしら?( ・ω・)




したらばこれならどうかな?


なんか青春ぽいやつ



画像の好きな人にお薦めのアニメは、日本のアニメ「セーラームーン」だ。
このアニメシリーズは1990年代に人気を博し、セーラー戦士と呼ばれる5人の少女たちが、
悪と戦うために変身する。セーリング・ムーンのテーマは魅力的で、
少女たちの友情とチームワーク、そして困難な状況での勇気と決意が描かれている。



なるなるほどほど(/・ω・)/



女子高生??の話なので合ってる気がする。



ではプロンプトをいじくるのだ(/・ω・)/



# プロンプトの準備
text = "##human: この画像内容をベースにギャグを創作してもらえますか?\n##gpt: "



ふむ。ギャグセンスはそうでもないのかもしれぬ( ・ω・)

画像は、制服を着た少女たちが学校の門の前でポーズをとっている。



これならどうかな?

text = "##human: この画像から連想される四文字熟語を教えてください\n##gpt: "
団結


団結。簡潔。


まぁ、四文字じゃないけどちゃんと表現できるぞ(/・ω・)/



多分わからんと思うけどこういう質問もしてみる(/・ω・)/

text = "##human: この画像に人間は何人いますか?\n##gpt: "


画像には5人の人間が写っている。


よく頑張った(*´▽`*)


ちなみにまた忍者に戻して同じ質問をしてみよう。


画像には2人の人間が写っている。


ま、人数なんて気にする問題じゃないよね(*´▽`*)



ではこういう画像表現は理解できるかしら?( ・ω・)


なんかピカソみたいな絵


text = "##human: この画像を説明してください\n##gpt: "



画像は、2人の人物が描かれた大きな絵画で、1人は椅子に座り、もう1人がその隣に座っている。
この2人は、おそらく芸術家か画家であろう。
絵画は壁に掛けられ、背景にはさまざまな果物や野菜が描かれた皿が置かれている。
背景の皿は2つあり、ひとつは左側に、もう一つは右側に置かれている。



すんごい( ゚д゚)



あっているかどうかもわからないけれどなんだかそれらしいぞ



ということでとりあえず触りたかったのでシュッと遊んでみた(/・ω・)/



なんか色々楽しそうなこと出来そうでワクワクしちゃう☆



満足したのでおしまい。




この記事が気に入ったらサポートをしてみませんか?