マガジンのカバー画像

CV

146
運営しているクリエイター

#機械学習

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈

【お試しコード付き②】Qwen2-VLで動画内容を自動解釈


はじめにソフトウェアエンジニアのホーリーデイです。
前回の記事【お試しコード付き①】では、Qwen2-VLを使って画像を解析し、その内容を自動で解釈する手法をご紹介しました。今回はその続編として、動画データを使った解析方法に焦点を当てます。
動画の内容をモデルに理解させ、自動で解釈を行うプロセスを、Colabを使用して実際に試してみましょう!

Qwen2-VLは、動画や画像の内容を解析し、それ

もっとみる
【お試しコード付き①】Qwen2-VLで画像内容を解釈

【お試しコード付き①】Qwen2-VLで画像内容を解釈

ソフトウェアエンジニアのホーリーデイです。
今回は、Qwen2-VLを使った実際のデモコードを紹介します。Qwen2-VLは、画像から詳細な情報を抽出して説明する能力を持つビジョン言語モデルです。このデモでは、入力された画像を基に、モデルがどのように画像内容を解釈するかを実際に体験できます。

Qwen2-VLの解説については下記の記事で紹介しています。

早速、実装してきましょう!

使い方ガイ

もっとみる
YOLOv8の転移学習で漫画画像の人物検出をしてみる

YOLOv8の転移学習で漫画画像の人物検出をしてみる


概要機械学習に興味があった&私的な理由で漫画画像の人を検出する必要があったので、機械学習を使って漫画画像内の人物検出を作ってみました。
作ったアプリはこちら↓

※対応画像ファイルはjpg,png,gif

開発環境Python3
Macbook M1 MAX
Render

事前調査画像内の人物検出をするにあたり、YOLOを使うといいよという事をアドバイスいただいたのでこれを使うことに。
YO

もっとみる
Metaのセグメンテーションモデル「SAM2」の論文を読む

Metaのセグメンテーションモデル「SAM2」の論文を読む

この記事の概要Meta AIから発表されたSAM2の論文を解説しています。

SAM2とは動画に対するセグメンテーションモデルです。あるフレームでセグメントしたい物体を選択するとその物体を時間方向にセグメントしてくれます。

SAM2は自身も含むモデルでアノテーションを補助し、さらにモデルを改善していく仕組みで、動画セグメンテーション用の大規模なデーセットを構築しています。

結果、画像と動画の両

もっとみる
YOLOv9 のお勉強~何がすごいのか?なぜすごいのか?~

YOLOv9 のお勉強~何がすごいのか?なぜすごいのか?~

2024 年 2 月に,物体検出モデル YOLO のバージョン 9 が発表されました。"Learning What You Want to Learn" という論文のサブタイトルに、開発者の意気込みがうかがえます。そんな論文を読んで、YOLOv9 が達成したブレイクスルーやその要因について考えてみます。

論文はこちら

実装についてはこちらの記事で書いています。興味がある方は合わせてご覧ください

もっとみる
ResNet 以降のCNNを利用してみる

ResNet 以降のCNNを利用してみる

ResNet (2015)開発者: マイクロソフト

特徴: Skip Connection(スキップ接続)を導入し、非常に深いネットワークの訓練を可能にしました。残差ブロックでは、畳込み層とSkip Connectionの組み合わせになっています。Residual Block(残差ブロック) を導入することで、結果的に層の深度の限界を押し上げることができ、精度向上を果たすことが出来ました。

もっとみる
画像の不正利用を検知するための機械学習アプローチ

画像の不正利用を検知するための機械学習アプローチ

マクアケ開発本部MLチームの濱川です。

この記事では、アタラシイものや体験の応援購入サービス「Makuake」で公開するプロジェクトにおいて、他のプロジェクトの画像が不正に利用されていないかを検知する仕組みについて紹介します。

具体的には、機械学習を活用した物体検出の仕組みと、抽出された物体(画像)から特徴量を抽出する方法に焦点を当てています。手順も含めて紹介しますので、機械学習にこれから取り

もっとみる

現場で使える機械学習活用 ~その④説明性があるAI (XAI) とその活用~

はじめにこのブログは、「現場で使える機械学習活用」をテーマにした4部作のうち4作目です。これらの4部作では「いかにして機械学習を使って現実世界の問題を解決するか」を軸に、陥りやすいポイントやコツを解説していきます。
第4回目は説明性があるAI ( Explanable AI : XAI) とその活用を見ていきます。

機械学習プロジェクトの流れと留意すべきこと

仮想プロジェクトを題材にしたプロジ

もっとみる
Computer Vision x Trasformerの最近の動向と見解

Computer Vision x Trasformerの最近の動向と見解

この記事についてこの記事では、Vision Transformer[1]登場以降のTransformer x Computer Visionの研究で、興味深い研究や洞察について述べていきます。この記事のテーマは以下の4つです。
• Transformerの急速な拡大と、その理由
• TransformerとCNNの視野や挙動の違い
• TransformerにSelf-Attentionは必須

もっとみる
SPARF: 少ない画像、曖昧なカメラパラメータでも3次元シーンを学習可能なNeRFの紹介

SPARF: 少ない画像、曖昧なカメラパラメータでも3次元シーンを学習可能なNeRFの紹介

はじめに初めましてD2Cデータサイエンティストの吉井です。

普段はリサーチ関係の業務に携わっておりますが、データ分析で得られた知見を社外の研究会等で発表したり、社内向けに勉強会を開いたりなど、最新の研究に追いつけるよう日々努めております。

今回の寄稿の機会を受けて、最新のトレンドであるNeRFに関連する記事を執筆することに決めました。

…この続きは、エンジニアのための情報共有コミュニティ「Z

もっとみる
labelme2yoloの使い方~Segmentation編~

labelme2yoloの使い方~Segmentation編~

はじめにlabelme2yoloというpythonライブラリを発見

かなり新しいライブラリなので日本語記事が皆無

なら、私が書きましょう☆彡

動作環境Python:3.11.5

ultralytics:8.0.145

labelme:5.3.1

labelme2yolo:0.1.3 ★今回の主役!!

labelme2yoloの使い方labelme2yoloとは?

labelmeで作

もっとみる
自作データセットで物体検出モデル yolov9 を訓練する

自作データセットで物体検出モデル yolov9 を訓練する

先月末に、物体検出モデル「YOLO」のバージョン 9 が発表されたので、手元の PC (Ubuntu 22.04) で動かしてみました。
論文はこちら
Github はこちら

(2024.3.24 追記) 論文紹介を書きました。

※この投稿は 2024 年 3 月 3 日時点 (v0.1) の情報に基づいています。コードは日々更新されており、時間が経てばもう少しユーザーに親切な構成になるとは思

もっとみる
次世代のコンピュータビジョンツール: RoboFlow Supervisionの魅力を徹底解説!

次世代のコンピュータビジョンツール: RoboFlow Supervisionの魅力を徹底解説!

今回は、再利用可能なコンピュータビジョンツール「RoboFlow Supervision」をご紹介します。このツールは、データセットのロードから画像やビデオ上の検出の描画、そして特定のゾーン内の検出数のカウントまで、多岐にわたるコンピュータビジョンタスクをサポートしています。

RoboFlow Supervisionの主な特徴:シンプルなインストール: Python 3.8以上の環境で、数ステッ

もっとみる
第4号「コンピュータビジョンの深層学習ベース化」

第4号「コンピュータビジョンの深層学習ベース化」


Control Color: Multimodal Diffusion-based Interactive Image Colorization

画像に色のヒントを与えて着色するための拡散モデルです。

どんなもの?: 高度に制御可能な対話式画像着色手法であり、無条件および条件付き画像着色を支援し、色溢れや不正確な着色を解決します。

先行研究と比べてどこがすごい?: 複数の条件(テキストプロ

もっとみる