- 運営しているクリエイター
#LLM
OpenAI API の Vision Fine-Tuning を試す
「OpenAI API」の「Vision Fine-Tuning」を試したのでまとめました。
1. Vision Fine-Tuning「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。
2. データセットの作成今回は、「ぼっち・ざ・ろっく」の結束バンドのメンバーの名前を学習します。
マルチモーダルembeddigモデルE5-Vを試してみる
画像と文字列を同じ埋め込みベクトル化できるマルチモーダルなembeddingモデルE5-Vというものを知ったので、試してみました。
画像と文字列を共にベクトル化できるとなると、先行するものとしてCLIPやSigLIPがありますが、このE5-Vは画像も理解するLLMであるLLaVA-NeXT-8Bをベースにしていることから、文章理解力が上がっているようです(上記論文参考)。
画像と文字列とでモダ