CV - LLM｜thomas

2024年9月26日 22:40

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

はじめにソフトウェアエンジニアのホーリーデイです。
前回の記事【お試しコード付き①】では、Qwen2-VLを使って画像を解析し、その内容を自動で解釈する手法をご紹介しました。今回はその続編として、動画データを使った解析方法に焦点を当てます。
動画の内容をモデルに理解させ、自動で解釈を行うプロセスを、Colabを使用して実際に試してみましょう！

Qwen2-VLは、動画や画像の内容を解析し、それ

もっとみる

ホーリーデイ

2024年9月25日 21:42

ソフトウェアエンジニアのホーリーデイです。
今回は、Qwen2-VLを使った実際のデモコードを紹介します。Qwen2-VLは、画像から詳細な情報を抽出して説明する能力を持つビジョン言語モデルです。このデモでは、入力された画像を基に、モデルがどのように画像内容を解釈するかを実際に体験できます。

Qwen2-VLの解説については下記の記事で紹介しています。

早速、実装してきましょう！

使い方ガイ

もっとみる

npaka

2024年10月3日 18:41

OpenAI API の Vision Fine-Tuning を試す

「OpenAI API」の「Vision Fine-Tuning」を試したのでまとめました。

1. Vision Fine-Tuning「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. データセットの作成今回は、「ぼっち・ざ・ろっく」の結束バンドのメンバーの名前を学習します。

もっとみる

npaka

2024年10月2日 09:45

OpenAI API の Vision Fine-Tuning の概要

以下の記事が面白かったので、簡単にまとめました。

1. Vision Fine-Tuning本日 (2024年10月1日)、「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. Vision Fine-Tuning のしくみ「Vision Fine-Tuning」は、テキストによ

もっとみる

朝日新聞社メディア研究開発センター

2024年7月29日 12:00

GPT-4oは画像の座標情報を理解しているのか？

こんにちは。朝日新聞社メディア研究開発センターの嘉田です。

早速ですが、みなさんはGPT-4oを使っていますか？
GPT-4oは画像認識精度も上がっていて日本語OCRもできる！と評判ですが、バウンディングボックスも出力できるのか？そもそもGPT-4oは画像の座標情報をどの程度扱えるのだろうか？と疑問に思い、検証することにしました。

検証方法正しい座標を出力できるか、与えた座標を理解できているか

もっとみる

松note

2024年7月22日 23:59

マルチモーダルembeddigモデルE5-Vを試してみる

画像と文字列を同じ埋め込みベクトル化できるマルチモーダルなembeddingモデルE5-Vというものを知ったので、試してみました。

画像と文字列を共にベクトル化できるとなると、先行するものとしてCLIPやSigLIPがありますが、このE5-Vは画像も理解するLLMであるLLaVA-NeXT-8Bをベースにしていることから、文章理解力が上がっているようです（上記論文参考）。

画像と文字列とでモダ

もっとみる

CV

フォローしませんか？

#LLM

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

【お試しコード付き①】Qwen2-VLで画像内容を解釈

OpenAI API の Vision Fine-Tuning を試す

OpenAI API の Vision Fine-Tuning の概要

GPT-4oは画像の座標情報を理解しているのか？

マルチモーダルembeddigモデルE5-Vを試してみる