マガジンのカバー画像

CV

146
運営しているクリエイター

記事一覧

【論文瞬読】1枚の画像から3Dシーンを生成!VistaDreamが切り開く新しい3D生成の世界

【論文瞬読】1枚の画像から3Dシーンを生成!VistaDreamが切り開く新しい3D生成の世界

こんにちは!株式会社AI Nestです。今回は、最近発表された興味深い研究「VistaDream」についてご紹介したいと思います。単一の画像から3Dシーンを生成するという、とても魅力的な技術です。ARやVR、ロボティクスなど、様々な分野への応用が期待できる研究なので、しっかり解説していきましょう!

はじめに:なぜ単一画像からの3D生成が重要なの?皆さんは、1枚の写真から3Dモデルを作れたら便利だ

もっとみる
【論文要約:自動運転関連】A New Dataset for Monocular Depth Estimation Under Viewpoint Shifts

【論文要約:自動運転関連】A New Dataset for Monocular Depth Estimation Under Viewpoint Shifts

自動車のADAS(先進運転支援システム)および自動運転に関わる仕事をしています。
新しい技術が次々と登場するため、最新情報の収集が重要です。
その一環として、自動運転に関連する論文の紹介と要約を行っています。
興味のある論文については、ぜひ実際の論文をお読みください。
論文へのリンク:https://arxiv.org/abs/2409.17851

1. タイトル

原題: A New Data

もっとみる
ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

こんにちは前回はサッカーの選手動画にモザイク処理をかけました。

今回は
ホモグラフィ変換を使って、選手の画像座標を2Dフィールド座標に変換

にチャレンジします。

ホモグラフィ変換とはホモグラフィ変換は、カメラの視点が斜めになっている場合に必要です。これは、画像上で見えるフィールドが平行四辺形や台形のように歪んでいる場合に、実際のサッカー場の2D平面座標に変換するために使われます。ホモグラフィ

もっとみる
PYTHONでサッカープレイヤーをトラッキングしてモザイク処理をする

PYTHONでサッカープレイヤーをトラッキングしてモザイク処理をする

こんにちは

今回はPYTHONで動画の一部を切り取り
サッカープレイヤーをトラッキングして
さらに人物にモザイクをかける処理をしてみます。

特定の12秒間の動画にして保存Google Driveのマウント

google.colabのdriveモジュールを使って、Google DriveをColabにマウントします。

from google.colab import drivedrive.m

もっとみる
【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!

【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!

【AI×カメラ】父親か息子か、リアルタイムでAIが判別するシステムを作ってみた!
今日は、AI技術を使ってカメラに映った人物が「父親」か「息子」かをリアルタイムで判別するシステムを作ってみました。AIや顔認識に興味がある方はもちろん、初心者の方にも分かりやすく解説していくので、読んでみてください!

今回作ったもの今回の目標は、USBカメラでリアルタイムに映像を取得し、その映像に映っている人物が「

もっとみる
【杜陵高・定時制】pythonで顔を検出する!(杜陵高校DX化戦略#07)

【杜陵高・定時制】pythonで顔を検出する!(杜陵高校DX化戦略#07)

杜陵高校DX化戦略の第7弾です。

3年次の宮田くんが、テキスト型プログラミング言語『python(パイソン)』の習得中です。
pythonは「情報Ⅰ」の授業でも触れたプログラミング言語です。以下のような特徴がある開発言語です。

pythonの主な用途は、Webアプリケーション開発、AI開発、科学技術計算、データ分析、事務作業の自動化など、多岐にわたる活用がされています。

プログラミングのビギ

もっとみる
現代のピカチュウは初代からどのくらい痩せたのか画像処理で検証してみた

現代のピカチュウは初代からどのくらい痩せたのか画像処理で検証してみた


初めに こんにちは,Umamusume22です.最近,ネットサーフィンをしている最中に初期のピカチュウの方が太っていて可愛いと言われているHPを見つけました[1].確かに初期のピカチュウ(見出し画像の左)と今のピカチュウ(見出し画像の右)を見比べても今のピカチュウの方が痩せていることが分かります.なんていうか昔のピカチュウはずんぐりむっくりしています (ひどい).ライザ〇プのようなbefore

もっとみる

Image 特徴点 Clustering

Image feature Clustering

画像分類器のトレーニング方法について、特に Bag of Words (BoW) モデルとサポートベクターマシン (SVM) を用いた方法を詳しく説明します。以下に、コードを通して各ステップを詳細に解説します。

ステップ1: データセットの準備

まず、各画像の特徴点を抽出し、その特徴量をリストに格納します。また、画像のクラスラベルも準備します

もっとみる

wsl ubuntu 20.04 ORB_SLAM3環境構築

windows ubuntu LTSなどにORB_SLAM3を構築する手順
初心者を対象とします

ubuntuをwsl上にインストールします。やり方(hyper-v等の仮想環境)などの設定は他サイト手順を真似てください。

ubuntuの環境をupdate

Opencv(※c++等で使用するStandAlone)の物を構築します

SLAMの環境構築 SLAMにはいくつかProjectの種類が

もっとみる

Linux/Ubuntu OpenCV

ROSやSLAM等で直接ビルドしたOpenCVを使用する事はマストです
構築方法は各サイトごとにコマンドをぶん投げる程度で構いませんが
以下サイトが非常に有用なので記載致します

https://www.kkaneko.jp/tools/ubuntu/opencv.html

又は下記を参照

上記は他にもかゆい所に手が届くので他技術紹介等もご覧頂きたく存じます

さて、近年においては依然よりOp

もっとみる
【459_YOLOv9-Wholebody25】を試す

【459_YOLOv9-Wholebody25】を試す

459_YOLOv9-Wholebody25とは?高速かつ軽量な人体検出モデルです。25種類のクラスにラベル分けされており、性別、大人、子供のほかにも全身の部位の検出が可能なようです。更に頭の方向推定もできるそうです。
用途としては、店舗における顧客の見ている商品の解析や、筋トレのフォーム指導、わき見運転の警告、カンニングの防止など多岐にわたって考えられます。

詳細

推論に使用させていただいた

もっとみる
Depth Pro+YOLO11でカメラと人物の距離の推定を試してみた

Depth Pro+YOLO11でカメラと人物の距離の推定を試してみた


概要Appleが発表した単眼深度推定モデルのDepth Proを試してみました。

Depth Proはゼロショットで実際の距離の推定ができる点が特徴です。

YOLO11のセグメンテーションモデルと組み合わせて、カメラと人物の距離を推定してみました。

高速な推論を謳っていますが、あまり速くはありませんでした。

Google ColabのL4インスタンスで810×1080のサンプル画像に2秒

もっとみる

はじめてのキーポイント検出 by YOLO


やってみました。意外と楽しいのでシェア。

キーポイント検出とはキーポイント検出とは、画像や動画に現れる物体のランドマークを検出する行為です。ランドマークとは、間接、目、鼻など、物体中の重要部位のことです。

この技術を用いると、スポーツをしている人のフォーム分析や、料理をしている人の動きの特徴を分析することが可能となります。

YOLOv7 poseによるキーポイント検出の解説として、以下が分

もっとみる
【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈


はじめにソフトウェアエンジニアのホーリーデイです。
前回の記事【お試しコード付き①】では、Qwen2-VLを使って画像を解析し、その内容を自動で解釈する手法をご紹介しました。今回はその続編として、動画データを使った解析方法に焦点を当てます。
動画の内容をモデルに理解させ、自動で解釈を行うプロセスを、Colabを使用して実際に試してみましょう!

Qwen2-VLは、動画や画像の内容を解析し、それ

もっとみる