マガジンのカバー画像

CV

146
運営しているクリエイター

2024年3月の記事一覧

物体検出アルゴリズムYOLOを用いた水槽内の魚検出

物体検出アルゴリズムYOLOを用いた水槽内の魚検出


はじめにはじめまして。株式会社タスデザイングループの学生アルバイトをしております、大学4年のフセです。
大学では生物情報学を専攻しており、主に機械学習を用いたRNAの解析などを行なっております。このアルバイトでは主に、同じく機械学習を用いたタスクを扱っており、大学での知識をアルバイトで活かしたり、アルバイトで得た知識を大学の研究に活かしたり、非常に有意義な時間であります。

今までのタスクこのア

もっとみる
SD-webui-ForgeのブランチxDepth FM : paperspaceのコマンドと検証的なもの

SD-webui-ForgeのブランチxDepth FM : paperspaceのコマンドと検証的なもの

最近、Forgeのアップデートがあまりありませんよね(2024/3末時点)。
Githubページを見ると、作者の方が非常に忙しいようです。これだけ優秀なアプリをたくさん開発出来る方ですから仕方がないのかもしれません。
そういった中で、他の方が作成したいくつかのブランチがあります。
その中で、新しいDepthプリプロセッサーを入れたブランチがあり、それを試してみるコマンドを作成しました。

修正点が

もっとみる
GiT: Towards Generalist Vision Transformer through Universal Language Interface

GiT: Towards Generalist Vision Transformer through Universal Language Interface

下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

本研究の背景について、詳しく説明してください。
本研究は、機械学習において、さまざまな視覚タスクを統一的に処理することができるモデルの開発を目指しています。これまでの研究では、大規模な言語モデル(LLM)が自然言語処理のタスクにおいて成功を収めてきましたが、視覚タスクにおいては、特定のモジュールが必要

もっとみる
Depthモデルの比較:2024/3時点

Depthモデルの比較:2024/3時点

Txt2imgで、いくつかのDepthモデルを使用した際の比較をしてみたので、せっかくなので記事にしました。生成時間の比較がメインです。
参考になればと思います。
比較したDepthモデルは以下の5つです。正しい使い方ではないかもしれませんが、「diffusers_xl_depth_full」で全て行いました。これより小さいサイズだと生成時間は速くなると思います。精度が下がるかと思い(未検証)一番

もっとみる
YOLOv9 のお勉強~何がすごいのか?なぜすごいのか?~

YOLOv9 のお勉強~何がすごいのか?なぜすごいのか?~

2024 年 2 月に,物体検出モデル YOLO のバージョン 9 が発表されました。"Learning What You Want to Learn" という論文のサブタイトルに、開発者の意気込みがうかがえます。そんな論文を読んで、YOLOv9 が達成したブレイクスルーやその要因について考えてみます。

論文はこちら

実装についてはこちらの記事で書いています。興味がある方は合わせてご覧ください

もっとみる
2D-to-3Dの「TripoSR」が話題になったので試してARで召喚してみたよ🐱

2D-to-3Dの「TripoSR」が話題になったので試してARで召喚してみたよ🐱

Tripo × Stability AI が公開した3D生成AIモデル「TripoSR」。
これが精度よく単一画像からの3Dオブジェクト生成をしてくれると話題になってたので早速試してみようと思います。

詳しくはweelさんの記事がとても分かりやすかったので貼っておきます!

インストール後の画面はこんな感じでした。

それではまずStable Diffusion Web UIで黒猫ちゃんを呼んで

もっとみる
「Depth Anything」: 画像と動画に新たな次元をもたらす革命的な深度推定ツール

「Depth Anything」: 画像と動画に新たな次元をもたらす革命的な深度推定ツール

私たちの生活には、革新的な技術が息吹を吹き込んでいます。特にAI(人工知能)の進化は、私たちが世界を理解し、それと対話する方法を根本から変えています。「Depth Anything」は、この技術の波に乗じて開発された、画像や動画から深度(奥行き)情報を抽出し、二次元データに三次元の豊かさを加えるオープンソースのAIツールです。

導入の詳細解説私たちの生活は、日々の技術革新によって大きく変化してい

もっとみる
画像の不正利用を検知するための機械学習アプローチ

画像の不正利用を検知するための機械学習アプローチ

マクアケ開発本部MLチームの濱川です。

この記事では、アタラシイものや体験の応援購入サービス「Makuake」で公開するプロジェクトにおいて、他のプロジェクトの画像が不正に利用されていないかを検知する仕組みについて紹介します。

具体的には、機械学習を活用した物体検出の仕組みと、抽出された物体(画像)から特徴量を抽出する方法に焦点を当てています。手順も含めて紹介しますので、機械学習にこれから取り

もっとみる
SPARF: 少ない画像、曖昧なカメラパラメータでも3次元シーンを学習可能なNeRFの紹介

SPARF: 少ない画像、曖昧なカメラパラメータでも3次元シーンを学習可能なNeRFの紹介

はじめに初めましてD2Cデータサイエンティストの吉井です。

普段はリサーチ関係の業務に携わっておりますが、データ分析で得られた知見を社外の研究会等で発表したり、社内向けに勉強会を開いたりなど、最新の研究に追いつけるよう日々努めております。

今回の寄稿の機会を受けて、最新のトレンドであるNeRFに関連する記事を執筆することに決めました。

…この続きは、エンジニアのための情報共有コミュニティ「Z

もっとみる
Transformers.jsとDepth Anythingで2D画像を3Dへ 他 / Catch up on AI 2024.3.7

Transformers.jsとDepth Anythingで2D画像を3Dへ 他 / Catch up on AI 2024.3.7

Pick up機械学習モデルをJavaScript環境で動作させることができるTransformers.jsとDepth Anythingを利用して制作された、2D画像を3Dへ変換するフレームワーク。

これがブラウザでできるのは色々と可能性を感じます。

https://x.com/taziku_co/status/1765545934317146165?s=20

オンラインデモ
Painti

もっとみる
2枚の写真から3Dシーンを構築「DUSt3R」 他 / Catch up on AI 2024.3.3

2枚の写真から3Dシーンを構築「DUSt3R」 他 / Catch up on AI 2024.3.3

Pick up3Dシーンを生成するために今まで様々な角度からの入力画像が必要でしたが、DUSt3Rは最小2枚の画像から3Dシーンが生成できる新しいフレームワーク。

DUSt3R: Geometric 3D Vision Made Easy
Project:https://dust3r.europe.naverlabs.com
Code:https://github.com/naver/dust3

もっとみる
人間工学会で学会発表を行いました

人間工学会で学会発表を行いました

令和5年12月1日(金)日本人間工学会九州・沖縄支部会 第44回大会で学会発表を行いました。

タイトル:画像処理を活用した水波紋インタラクティブ音響システム

URL:
https://www.ergonomics.jp/local-branch/kyushu-okinawa/ErgoKO44_4.pdf

抄録:

発表用資料:

動画:

自作データセットで物体検出モデル yolov9 を訓練する

自作データセットで物体検出モデル yolov9 を訓練する

先月末に、物体検出モデル「YOLO」のバージョン 9 が発表されたので、手元の PC (Ubuntu 22.04) で動かしてみました。
論文はこちら
Github はこちら

(2024.3.24 追記) 論文紹介を書きました。

※この投稿は 2024 年 3 月 3 日時点 (v0.1) の情報に基づいています。コードは日々更新されており、時間が経てばもう少しユーザーに親切な構成になるとは思

もっとみる