![見出し画像](https://assets.st-note.com/production/uploads/images/129504424/rectangle_large_type_2_6aeb46f24aefbeacfe804ec02af21506.png?width=1200)
WSL2でYOLO-Worldを試してみる
「強力なオープンボキャブラリー検出機能とグラウンディング機能を備えた次世代の YOLO 検出器」らしいYOLO-Worldを試してみます。
V100で52.0 FPSをたたき出す性能とのこと。これは楽しみです。
(注)Hugging Faceのリポジトリで試しています。GitHubのほう、requirements.txtがまだcommitされていないようでして。
使用するPCはドスパラさんの「GALLERIA UL9C-R49」。スペックは
・CPU: Intel® Core™ i9-13900HX Processor
・Mem: 64 GB
・GPU: NVIDIA® GeForce RTX™ 4090 Laptop GPU(16GB)・GPU: NVIDIA® GeForce RTX™ 4090 (24GB)
・OS: Ubuntu22.04 on WSL2(Windows 11)
です。
1. 準備
venvを構築して、
python3 -m venv yolo-world
cd $_
source bin/activate
リポジトリをクローンして、
git lfs install
git clone https://huggingface.co/spaces/stevengrove/YOLO-World
cd YOLO-World
パッケージのインストールです。
pip install -r requirements.txt
以前、onnxruntimeがGPUを認識しないということがあったので(詳細は以下の記事を参照)、
pip uninstall onnxruntime onnxruntime-gpu
pip install onnxruntime-gpu
としておきます。
2. 試してみる
アプリの起動
以下のコマンドを実行です。
python app.py
Gradioが起動してきました。
![](https://assets.st-note.com/img/1706790272009-Ddypr5JJHB.png?width=1200)
このときのGPUメモリの使用量は1.2GB です。
![](https://assets.st-note.com/img/1706790870011-VWkPFN6k3o.png)
試してみよう
では、M2UGenのアイコンを使って、試してみましょう。ボキャブラリーも適当に入力します(「headphone, sheep, player, tape」と指定)。
で、Submitボタンを押下すると・・・
![](https://assets.st-note.com/img/1706791002607-qnuuYGNW0Y.png?width=1200)
をー、指定したボキャブラリー3つとも認識しましたよ。しかも速い。
このときのGPUメモリは 1.5 GB(+0.3GB)でした。
![](https://assets.st-note.com/img/1706790952998-VhVfFUgj8Y.png)
3. まとめ
GPUのメモリ、2GBもあればデモは動きます。