マガジンのカバー画像

CV

146
運営しているクリエイター

#AI

ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

こんにちは前回はサッカーの選手動画にモザイク処理をかけました。

今回は
ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

にチャレンジします。

ホモグラフィ変換とはホモグラフィ変換は、カメラの視点が斜めになっている場合に必要です。これは、画像上で見えるフィールドが平行四辺形や台形のように歪んでいる場合に、実際のサッカー場の2D平面座標に変換するために使われます。ホモグラフィ

もっとみる
【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!

【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!

【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!
今日は、AI技術を使ってカメラに映った人物が「父親」か「息子」かをリアルタイムで判別するシステムを作ってみました。AIや顔認識に興味がある方はもちろん、初心者の方にも分かりやすく解説していくので、読んでみてください!

今回作ったもの今回の目標は、USBカメラでリアルタイムに映像を取得し、その映像に映っている人物が「

もっとみる
【459_YOLOv9-Wholebody25】を試す

【459_YOLOv9-Wholebody25】を試す

459_YOLOv9-Wholebody25とは?高速かつ軽量な人体検出モデルです。25種類のクラスにラベル分けされており、性別、大人、子供のほかにも全身の部位の検出が可能なようです。更に頭の方向推定もできるそうです。
用途としては、店舗における顧客の見ている商品の解析や、筋トレのフォーム指導、わき見運転の警告、カンニングの防止など多岐にわたって考えられます。

詳細

推論に使用させていただいた

もっとみる

はじめてのキーポイント検出 by YOLO


やってみました。意外と楽しいのでシェア。

キーポイント検出とはキーポイント検出とは、画像や動画に現れる物体のランドマークを検出する行為です。ランドマークとは、間接、目、鼻など、物体中の重要部位のことです。

この技術を用いると、スポーツをしている人のフォーム分析や、料理をしている人の動きの特徴を分析することが可能となります。

YOLOv7 poseによるキーポイント検出の解説として、以下が分

もっとみる
【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈


はじめにソフトウェアエンジニアのホーリーデイです。
前回の記事【お試しコード付き①】では、Qwen2-VLを使って画像を解析し、その内容を自動で解釈する手法をご紹介しました。今回はその続編として、動画データを使った解析方法に焦点を当てます。
動画の内容をモデルに理解させ、自動で解釈を行うプロセスを、Colabを使用して実際に試してみましょう!

Qwen2-VLは、動画や画像の内容を解析し、それ

もっとみる
【お試しコード付き①】Qwen2-VLで画像内容を解釈

【お試しコード付き①】Qwen2-VLで画像内容を解釈

ソフトウェアエンジニアのホーリーデイです。
今回は、Qwen2-VLを使った実際のデモコードを紹介します。Qwen2-VLは、画像から詳細な情報を抽出して説明する能力を持つビジョン言語モデルです。このデモでは、入力された画像を基に、モデルがどのように画像内容を解釈するかを実際に体験できます。

Qwen2-VLの解説については下記の記事で紹介しています。

早速、実装してきましょう!

使い方ガイ

もっとみる
Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

Qwen2-VLのリリース!進化したビジョン言語モデルの全貌

ソフトウェアエンジニアのホーリーデイです。
今回は論文解説の記事です。

2024年は、AIの進化において大きなマイルストーンの年となりました。Qwen2-VLは、1年にわたる開発の成果としてリリースされ、画像や動画の理解、デバイス操作、そして多言語対応において画期的な進化を遂げたビジョン言語モデルです。

この記事では、Qwen2-VLの強化された機能、モデルアーキテクチャの更新点、そしてそのパ

もっとみる
OpenAI API の Vision Fine-Tuning を試す

OpenAI API の Vision Fine-Tuning を試す

「OpenAI API」の「Vision Fine-Tuning」を試したのでまとめました。

1. Vision Fine-Tuning「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. データセットの作成今回は、「ぼっち・ざ・ろっく」の結束バンドのメンバーの名前を学習します。

もっとみる
OpenAI API の Vision Fine-Tuning の概要

OpenAI API の Vision Fine-Tuning の概要

以下の記事が面白かったので、簡単にまとめました。

1. Vision Fine-Tuning本日 (2024年10月1日)、「GPT-4o」の「Vision Fine-Tuning」が可能になりました。これにより開発者は、より強力な画像理解機能を持つようにモデルをカスタマイズできます。

2. Vision Fine-Tuning のしくみ「Vision Fine-Tuning」は、テキストによ

もっとみる
Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

1.Grounded-Segment-Anythingとは、テキスト入力に基づいてあらゆる物体を検出し、セグメンテーションを行うことができる視覚AIシステム。
このシステムは、Grounding DINOとSegment Anythingを組み合わせることで、オープンワールドのシナリオにおいて多様な視覚タスクを実行する能力を持っています。
ユーザーがテキストで対象物を指定すると、システムはその物体

もっとみる

画像認識 Grounding Dinoを試してみる

インストール方法注意: GrounDinoのインストールは難解かつエラーハンドリングも不十分であるため、以下のインストールステップを確実に行ってください。前後すると動作しない等の問題が発生します。

- Visual Studio with C++ support(cl)をインストールする

Visual Studio Installerをインストール、起動し、「Build Tools」インストー

もっとみる
テキストプロンプトで切り抜くものを指定できるワークフレーム「Object Cutter」を試してみる

テキストプロンプトで切り抜くものを指定できるワークフレーム「Object Cutter」を試してみる

「Object Cutter」とはObject Cutterはテキストプロンプトだけで画像内のあらゆるオブジェクトに高品質の HD カットアウトを作成できます。手作業はまったく必要ないところがありがたいところ。
しかもオブジェクトは透明な背景で利用できるため、他の場所に貼り付けることができます。早速試してみたいと思います!

🌐プロジェクトページ💪さっそく試してみるそれでは早速試してみようとい

もっとみる
一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

一瞬で綺麗なdepthを取ることができる「Depth Anything V2」を試してみる

Depth Anythingがバージョン2で復活!Depth Anything がバージョン 2 で復活しました。
現在の他の方法よりも 10 倍高速とのこと。すごい!
さまざまなサイズのモデル (2500 万から 13 億のパラメータ) が Huggingface Hub で入手可能になっています。

Depth Anything V2とは?Depth Anything V2はカメラ1台で撮影し

もっとみる
動画での深度推定AIの「ChronoDepth」を試してみる

動画での深度推定AIの「ChronoDepth」を試してみる

「ChronoDepth」とはChronoDepthは超簡単に使える動画での深度推定AIツールです。
深度推定モデルをビデオに直接適用すると、フレーム間で不整合が生じる可能性がありますが、実際そういうちょっとした不整合でつかいものにならない残念さはクリエイターならみんな実感するとこと。
これはそういうこともなく簡単にできちゃうとのこと。ありがたや〜〜
なお、モデルはStable Video Dif

もっとみる