マガジンのカバー画像

CV

146
運営しているクリエイター

#ChatGPT

Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

ソフトウェアエンジニアのホーリーデイです。
今回は論文解説の記事です。

2024年は、AIの進化において大きなマイルストーンの年となりました。Qwen2-VLは、1年にわたる開発の成果としてリリースされ、画像や動画の理解、デバイス操作、そして多言語対応において画期的な進化を遂げたビジョン言語モデルです。

この記事では、Qwen2-VLの強化された機能、モデルアーキテクチャの更新点、そしてそのパ

もっとみる
OpenAI API の Vision Fine-Tuning を試す

OpenAI API の Vision Fine-Tuning を試す

「OpenAI API」の「Vision Fine-Tuning」を試したのでまとめました。

1. Vision Fine-Tuning「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. データセットの作成今回は、「ぼっち・ざ・ろっく」の結束バンドのメンバーの名前を学習します。

もっとみる
OpenAI API の Vision Fine-Tuning の概要

OpenAI API の Vision Fine-Tuning の概要

以下の記事が面白かったので、簡単にまとめました。

1. Vision Fine-Tuning本日 (2024年10月1日)、「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. Vision Fine-Tuning のしくみ「Vision Fine-Tuning」は、テキストによ

もっとみる
OpenAIの画像認識とGoogle検索APIでGoogle Lensを再現可能? ベトナムの観光サポートをしてもらってみた【観光×ChatGPT】

OpenAIの画像認識とGoogle検索APIでGoogle Lensを再現可能? ベトナムの観光サポートをしてもらってみた【観光×ChatGPT】

こんにちは、 バイタリフィアジアのNiheiです。
普段は、生成AIを活用したプロダクト開発のアドバイザーとしてプロジェクトのサポートを行ったり、PM / PMO をしたりしています。

解決したいこと旅行先でふらふらと街を歩いていると、有名な雰囲気を醸している建造物や、歴史的に価値がありそうな何かがあったとします。

そのときに「これってなんだろう?」と思うことはないでしょうか?

実際にそう思

もっとみる
図面読み取りに革命!生成AIが生産性を加速させる【データ利活用の道具箱 #13】

図面読み取りに革命!生成AIが生産性を加速させる【データ利活用の道具箱 #13】

はじめに最近、生成AI(生成モデルを用いた人工知能)の進化が目覚ましく、皆さんの周りでもよく話題に上がっていると思います。

特に自然言語処理や画像認識、画像生成で高い精度を出しており、多くの業界で実際に活用され始めています。
例えば多様な設備を扱う製造業や建設業では、図面に描かれた設備間の流れや関係性を読み取って追跡するのに苦労することが多いですが、まだ生成AIの導入は進んでいません。

現状図

もっとみる
GPT-4oは画像の座標情報を理解しているのか?

GPT-4oは画像の座標情報を理解しているのか?

こんにちは。朝日新聞社メディア研究開発センターの嘉田です。

早速ですが、みなさんはGPT-4oを使っていますか?
GPT-4oは画像認識精度も上がっていて日本語OCRもできる!と評判ですが、バウンディングボックスも出力できるのか?そもそもGPT-4oは画像の座標情報をどの程度扱えるのだろうか?と疑問に思い、検証することにしました。

検証方法正しい座標を出力できるか、与えた座標を理解できているか

もっとみる