マガジンのカバー画像

CV

146
運営しているクリエイター

#画像認識

OpenAIの画像認識とGoogle検索APIでGoogle Lensを再現可能? ベトナムの観光サポートをしてもらってみた【観光×ChatGPT】

OpenAIの画像認識とGoogle検索APIでGoogle Lensを再現可能? ベトナムの観光サポートをしてもらってみた【観光×ChatGPT】

こんにちは、 バイタリフィアジアのNiheiです。
普段は、生成AIを活用したプロダクト開発のアドバイザーとしてプロジェクトのサポートを行ったり、PM / PMO をしたりしています。

解決したいこと旅行先でふらふらと街を歩いていると、有名な雰囲気を醸している建造物や、歴史的に価値がありそうな何かがあったとします。

そのときに「これってなんだろう?」と思うことはないでしょうか?

実際にそう思

もっとみる
Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

Grounded-Segment-Anything(Grounded SAM)をWindows11+WLS2+Anacondaで試す

1.Grounded-Segment-Anythingとは、テキスト入力に基づいてあらゆる物体を検出し、セグメンテーションを行うことができる視覚AIシステム。
このシステムは、Grounding DINOとSegment Anythingを組み合わせることで、オープンワールドのシナリオにおいて多様な視覚タスクを実行する能力を持っています。
ユーザーがテキストで対象物を指定すると、システムはその物体

もっとみる

画像認識 Grounding Dinoを試してみる

インストール方法注意: GrounDinoのインストールは難解かつエラーハンドリングも不十分であるため、以下のインストールステップを確実に行ってください。前後すると動作しない等の問題が発生します。

- Visual Studio with C++ support(cl)をインストールする

Visual Studio Installerをインストール、起動し、「Build Tools」インストー

もっとみる
図面読み取りに革命!生成AIが生産性を加速させる【データ利活用の道具箱 #13】

図面読み取りに革命!生成AIが生産性を加速させる【データ利活用の道具箱 #13】

はじめに最近、生成AI(生成モデルを用いた人工知能)の進化が目覚ましく、皆さんの周りでもよく話題に上がっていると思います。

特に自然言語処理や画像認識、画像生成で高い精度を出しており、多くの業界で実際に活用され始めています。
例えば多様な設備を扱う製造業や建設業では、図面に描かれた設備間の流れや関係性を読み取って追跡するのに苦労することが多いですが、まだ生成AIの導入は進んでいません。

現状図

もっとみる
YOLO-NAS物体検出モデルのonnx、Torchscript、TensorRT処理速度評価:EC2編

YOLO-NAS物体検出モデルのonnx、Torchscript、TensorRT処理速度評価:EC2編


1. はじめに 本記事では物体検出モデルYOLO-NASを用いて推論処理を行った際の「1フレーム処理速度」とそれから推定される「フレーム処理速度」の評価を行う。
 YOLO-NASはPytorchのモデル形式であるが、本記事ではOnnx、Torchscript、TensorRTのモデルに変換して上記指標を比較して、最もフレーム処理速度の速いモデル形式を明らかにした。

2. YOLO-NASYO

もっとみる
【Python】OpenCVで顔認識プログラムを作成してみた話

【Python】OpenCVで顔認識プログラムを作成してみた話

はじめにこの記事では、macOSでOpenCVを使用してWebカメラから顔を検出するアプリの作成手順を説明します。Python仮想環境の設定から、必要なライブラリのインストール、顔検出スクリプトの作成までをカバーします。

前提条件macOSがインストールされていること

Homebrewがインストールされていること

Pythonがインストールされていること

Homebrewの確認とPytho

もっとみる
Youtubeストリーミング動画をYoloV10でリアルタイム物体認識する方法

Youtubeストリーミング動画をYoloV10でリアルタイム物体認識する方法

UltralyticsでYoloV10が使えるようになりましたので、Youtubeストリーミング動画をリアルタイムで物体認識するコードを紹介していきます。

Pythonライブラリをインストールします。

pip install opencv-python yt-dlp numpy ultralytics tempfile

次に、youtubeyolov10.pyという名前で以下内容をコピーしま

もっとみる
UltralyticsのYoloV10でリアルタイムで物体認識する

UltralyticsのYoloV10でリアルタイムで物体認識する

UltralyticsでYoloV10が使えるようになりましたので、紹介していきます。

YoloV10で使えるモデルは、以下となります。

今回は、Yolov10-Sをダウンロードして使ってみます。

最初に、test.pyとして次のコードを張り付けてください。

import cv2import torchfrom ultralytics import YOLO# モデルの読み込みmodel

もっとみる
画像認識AI YOLOの歴史

画像認識AI YOLOの歴史

2024年10月更新:YOLOv11を追加しました

記事作成者について:ダンスの全国大会などで動きの分析のお仕事などをさせて頂いております。

YOLOとはAIの力で画像内の映っているものを分類し、それが何かを類推することが出来る技術です。YOLOは"You Only Look Once"を意味し、「一度見れば何が映っているか分かるよ」というメッセージの略となっています。

元々、YOLOは "

もっとみる

小さな物体の検出率UPのためにSAHIを試してみた


概要物体検出モデルが見逃しやすい小さな物体の検出力向上を目的としたライブラリSAHIを試してみました。

物体検出モデルにはYOLOv8sとYOLOv8xを使用しました。

YOLOのインスタンスセグメンテーションは未対応なようです。

SAHI (Slicing Aided Hyper Inference)入力画像を分割して物体検出モデルに入力し、その結果をマージしてくれるライブラリです。
G

もっとみる
yolov8でとroboflowでアニメキャラの顔を見分ける(後編)

yolov8でとroboflowでアニメキャラの顔を見分ける(後編)

\Programs\Python\Python310\Lib\site-packages\ultralytics\cfg\datasets 環境により場所は違うかも。にできている、coco.yaml(ココヤムルと読むらしい)をコピーして、mycoco.yamlを作る。

賢い人コメントをつけてほしい

\Python\Python310\Lib\site-packages\ultralytics\

もっとみる
最新のAIアーキテクチャ「Mamba」は画像認識に必要なのか?初心者にもわかりやすく解説!

最新のAIアーキテクチャ「Mamba」は画像認識に必要なのか?初心者にもわかりやすく解説!

はじめに近年、人工知能(AI)の分野では、Transformerと呼ばれるアーキテクチャが自然言語処理や画像認識のタスクで大活躍しています。そんな中、新たな注目株として登場したのが、RNNライクなシーケンスモデリングを可能にする「Mamba」です。

Mambaアーキテクチャとは?Mambaの特徴は、SSM(State Space Model)を用いた効率的な長いシーケンス処理と自己回帰的な生成で

もっとみる
画像認識AI YOLOの改良版「YOLO-NAS」登場

画像認識AI YOLOの改良版「YOLO-NAS」登場

YOLOの改良モデル YOLO-NASが公開されていたので、ひとまず静止画の推論をGoogleColabで試食してみました。最近LLMの開発のニュースばかり見ていましたが、画像認識AIも着々と性能向上しているようです。

なお、カスタムデータセットのファインチューニングはColab無料枠のメモリ容量では動作しないようなので、また機会があれば試してみようと思います。
https://colab.re

もっとみる
超解像OCRの実験記録② ~文字の超解像モデルの作成~

超解像OCRの実験記録② ~文字の超解像モデルの作成~

導入前回は超解像OCRのうち、文字認識部分の実験を記事にしました。今回はその続きで、文字の超解像の実験について記録していきます。

前回記事はこちら

文字の超解像超解像について

まずは一般的な超解像について軽く説明します。
低画質の画像を高解像度化させるのに有効な手段として、ルールベースの手法も存在しますが、ディープラーニングを用いた超解像がここ最近の主流です。

超解像の学習は低解像度の画像

もっとみる