マガジンのカバー画像

CV

146
運営しているクリエイター

2024年7月の記事一覧

AIを用いて橋梁床版の画像からひび割れ検出を行ってみた

AIを用いて橋梁床版の画像からひび割れ検出を行ってみた

※本ブログはAidemy Premiumのカリキュラム「AI アプリ開発講座」の一環で、受講修了条件を満たすために公開しています。

成果物の橋梁床版ひび割れ検出アプリは下記です。

https://aidemy-final-output-jn.onrender.com/

0. はじめに ~この題材を選んだきっかけ~皆さま初めまして。著者は今ソフトウェアベンダーの技術営業として働いています。最近

もっとみる
【Python】OpenCVで顔認識プログラムを作成してみた話

【Python】OpenCVで顔認識プログラムを作成してみた話

はじめにこの記事では、macOSでOpenCVを使用してWebカメラから顔を検出するアプリの作成手順を説明します。Python仮想環境の設定から、必要なライブラリのインストール、顔検出スクリプトの作成までをカバーします。

前提条件macOSがインストールされていること

Homebrewがインストールされていること

Pythonがインストールされていること

Homebrewの確認とPytho

もっとみる
GPT-4oは画像の座標情報を理解しているのか?

GPT-4oは画像の座標情報を理解しているのか?

こんにちは。朝日新聞社メディア研究開発センターの嘉田です。

早速ですが、みなさんはGPT-4oを使っていますか?
GPT-4oは画像認識精度も上がっていて日本語OCRもできる!と評判ですが、バウンディングボックスも出力できるのか?そもそもGPT-4oは画像の座標情報をどの程度扱えるのだろうか?と疑問に思い、検証することにしました。

検証方法正しい座標を出力できるか、与えた座標を理解できているか

もっとみる
【論文要約:自動運転関連】Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving

【論文要約:自動運転関連】Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving

自動運転に関連する論文の要約をしています。
論文へのリンク:https://arxiv.org/abs/2407.16647

1. タイトル

原題: Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving
和訳: 自動運転における魚眼画像の変形可能

もっとみる
マルチモーダルembeddigモデルE5-Vを試してみる

マルチモーダルembeddigモデルE5-Vを試してみる

画像と文字列を同じ埋め込みベクトル化できるマルチモーダルなembeddingモデルE5-Vというものを知ったので、試してみました。

画像と文字列を共にベクトル化できるとなると、先行するものとしてCLIPやSigLIPがありますが、このE5-Vは画像も理解するLLMであるLLaVA-NeXT-8Bをベースにしていることから、文章理解力が上がっているようです(上記論文参考)。

画像と文字列とでモダ

もっとみる
【論文要約:自動運転関連】SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras

【論文要約:自動運転関連】SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras

自動運転に関連する論文の要約をしています。
論文へのリンク:https://arxiv.org/abs/2403.10353

1. タイトル

原題: SimPB: A Single Model for 2D and 3D Object Detection from Multiple Cameras

和訳: SimPB: 複数のカメラから2Dおよび3Dオブジェクト検出のための単一モデル

2.

もっとみる
【論文要約:自動運転関連】HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird’s Eye View

【論文要約:自動運転関連】HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird’s Eye View

自動運転に関連する論文の要約をしています。
論文へのリンク:https://arxiv.org/abs/2307.13510

1. タイトル

原題: HeightFormer: Explicit Height Modeling without Extra Data for Camera-only 3D Object Detection in Bird’s Eye View
和訳: Height

もっとみる
Youtubeストリーミング動画をYoloV10でリアルタイム物体認識する方法

Youtubeストリーミング動画をYoloV10でリアルタイム物体認識する方法

UltralyticsでYoloV10が使えるようになりましたので、Youtubeストリーミング動画をリアルタイムで物体認識するコードを紹介していきます。

Pythonライブラリをインストールします。

pip install opencv-python yt-dlp numpy ultralytics tempfile

次に、youtubeyolov10.pyという名前で以下内容をコピーしま

もっとみる
UltralyticsのYoloV10でリアルタイムで物体認識する

UltralyticsのYoloV10でリアルタイムで物体認識する

UltralyticsでYoloV10が使えるようになりましたので、紹介していきます。

YoloV10で使えるモデルは、以下となります。

今回は、Yolov10-Sをダウンロードして使ってみます。

最初に、test.pyとして次のコードを張り付けてください。

import cv2import torchfrom ultralytics import YOLO# モデルの読み込みmodel

もっとみる