見出し画像

【ComfyUI】 商用利用可能なオープンソースの動画生成モデル「Pyramid Flow」を使ってみる

ビデオ生成AIの分野は、ここ数年で飛躍的に進化しています。クリエイターや企業が求める高品質な映像制作を、より効率的かつ低コストで実現するための技術革新が次々と登場しています。その中でも、注目を集めているのが「Pyramid Flow」です。

Pyramid Flowは、従来の技術を大幅に上回る性能を持ち、商用利用にも対応した最先端のビデオ生成AIです。この技術を利用することで、プロフェッショナルな映像制作を誰でも手軽に実現できる時代が訪れつつあります。

本記事では、ComfyUIでPyramid Flowを動作させ、実際に動画を生成してみるところまでを解説します。


1. Pyramid Flowとは?

Pyramid Flowは、Flow Matchingという技術をベースにした自己回帰型のビデオ生成AIです。従来の生成モデルと比較して、効率的なトレーニングが可能であり、高品質な10秒間のビデオを768pの解像度、24フレーム/秒で生成できます。また、このモデルは画像からビデオへの生成もサポートしており、多様なアプリケーションに対応できる柔軟性があります。

特に、オープンソースのデータセットのみを用いてトレーニングされているため、商用利用を考えている企業や個人にとっても扱いやすい点が大きな特徴です。

他モデルとの比較

以下の表は、Pyramid Flowと他のビデオ生成モデル(例えば、Gen-2CogVideoXなど)との性能比較を示しています。この評価は、VBench(Huang et al., 2024)というベンチマークを使用して行われており、各モデルの総合スコア、品質スコア、意味スコア、動きの滑らかさ、ダイナミックな度合いが計測されています。

https://pyramid-flow.github.io/

上記の結果からわかるように、Pyramid Flowは総合スコア81.72品質スコア84.74と高い評価を得ており、特に動きの滑らかさ(Motion Smoothness)では99.12という非常に優れた結果を示しています。さらに、ダイナミックな度合いも他の多くのモデルを上回り、映像の動的表現に優れた性能を発揮しています。

ユーザーの好み

定量的評価だけでなく、ユーザーの視覚的な好みや感じ方も重要な要素です。以下の図は、Pyramid Flowと他のモデルを比較した際のユーザー選好結果です。

  • Pyramid Flow vs Open-Sora Plan v1.1では、美的(Aesthetic)な面で96.4%がPyramid Flowを選択し、動きの面では92.8%が優れていると評価しています。

  • Pyramid Flow vs Open-Sora 1.2においても、動きやセマンティック面で高い支持を受けています。

その他のモデル(CogVideoXKling)との比較でも、Pyramid Flowは高評価を得ており、特に動きの滑らかさとダイナミックな表現がユーザーに強く支持されています。

主な仕様

  • 解像度: 最大768p

  • フレームレート: 24FPS

  • ビデオ長: 最大10秒

  • 生成形式: テキストからビデオ、画像からビデオ

サンプル動画

以下のプロジェクトページでPyramid Flowで生成された様々な動画を閲覧できます。

2. Pyramid Flowの特長

高品質なビデオ生成

Pyramid Flowは、従来のモデルよりも効率的にビデオを生成することが可能です。10秒間の高解像度ビデオをわずか数秒で生成でき、テキストや画像を入力として、リアルな映像を作り出すことができます。生成されたビデオは滑らかで鮮やかな色彩を持ち、シネマティックなスタイル特定の撮影技法をシミュレートすることも可能です。

柔軟な商用利用

Pyramid Flowの大きな魅力は、商用利用が許可されている点です。年間収益が100万ドル未満の企業や個人は無料でこのモデルを利用でき、ビジネス用途に活用することが可能です。また、トレーニング済みのモデルがHugging Faceから簡単にダウンロードできるため、環境をセットアップすればすぐに利用を開始できます。

トレーニング効率の向上

Flow Matchingに基づく自己回帰型アプローチにより、トレーニング時間を短縮しながらも高品質な生成が可能です。これにより、大規模なデータセットを必要とせず、コストを抑えたトレーニングが可能となっています。

3. 商用利用の可能性

Pyramid Flowは、年間収益100万ドル未満の個人や組織であれば、無料で商用利用が可能です。これにより、小規模なスタートアップやクリエイターが、低コストでビデオ生成AIを活用することができます。企業のプロモーションビデオ制作、ソーシャルメディア向けコンテンツ作成、教育コンテンツなど、多岐にわたる活用が見込まれます。

ただし、年間収益が100万ドルを超える場合は別途ライセンスを取得する必要があるため、その点は注意が必要です。

4. 環境構築

ComfyUIはインストール済みの前提で、必要なモデルやカスタムノードのインストールについて説明します。

ComfyUI-PyramidFlowWrapperのインストール

ComfyUI-PyramidFlowWrapperは、2024年10月12日現在では、ComfyUI Managerに登録されていないので、GitHubリポジトリからインストールする必要があります。

まず、「ComfyUI/custom_nodes」フォルダに移動してください。その後に以下のコマンドでComfyUI-PyramidFlowWrapperのリポジトリをクローンしてください。

git clone https://github.com/kijai/ComfyUI-PyramidFlowWrapper.git

リポジトリのクローン後、「ComfyUI-PyramidFlowWrapper」フォルダに移動し、以下のコマンドを実行し、依存関係にあるパッケージをインストールしてください。

pip install -r requirements.txt

ComfyUI-KJNodesのインストール

ComfyUI-PyramidFlowWrapperのサンプルワークフローで使用されるカスタムノードです。こちらはComfyUI Managerからインストール可能です。

ComfyUI-VideoHelperSuiteのインストール

一連の画像を動画として保存するためのノードを使用するために、こちらのカスタムノードをインストールします。こちらはComfyUI Managerからインストール可能です。

Pyramid Flowのモデルのダウンロード

まずは、「ComfyUI/models」フォルダ内に「pyramidflow」という名前でフォルダを新規作成してください。

次に、huggingfaceのリポジトリをクローンするためにgit-lfsをインストールします。

git lfs install

git-lfsのインストールが完了したら、「ComfyUI/models/pyramidflow」フォルダ内にPyramid Flowのリポジトリをクローンします。

cd ComfyUI/models/pyramidflow
git clone https://huggingface.co/rain1011/pyramid-flow-sd3

これで必要なモデルが全てダウンロードされます。

5. サンプルワークフローの実行

ComfyUI-PyramidFlowWrapperでは、text2vid(テキストから動画生成)とimage2vid(参照画像から動画生成)のサンプルワークフローが用意されています。それぞれ以下のリンクよりダウンロードしてください。

text2vid

以下がtext2vidのサンプルワークフローの全体像です。

いくつか動画を作成してみました。生成した動画とプロンプトは以下の通りです。

A high-tech drone is flying in forest.
Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls
A massive explosion on the surface of the earth

image2vid

以下がimage2vidのサンプルワークフローの全体像です。

以下のプロンプトと画像を利用しました。

A man sits at a wooden desk in a cozy, sunlit room filled with plants and books, concentrating deeply as he sketches on paper. His brow is furrowed in thought, and he occasionally glances at the drawing, tapping the pencil lightly against the page. The soft, natural light streams through the large window behind him, casting gentle shadows across the room. The leaves of the plants subtly sway as a light breeze enters through the window. He pauses for a moment, leans back slightly, and rubs his chin, contemplating his next move before resuming his sketching with a renewed focus.

以下が生成結果です。右腕が適当に動いていますが、男性は崩れが少なく、元画像の体裁を保っているように見えます。

6. まとめ

Pyramid Flowは、他の最新ビデオ生成モデルと比較しても非常に高いパフォーマンスを誇り、特に動きの滑らかさやダイナミックな表現において優れた結果を示しています。商用利用も可能であり、年収100万ドル未満の個人や企業にとっては無料で利用できるため、様々な分野での応用が期待されます。

また、テキストや画像から簡単にビデオ生成を行える柔軟性もあり、クリエイティブなコンテンツ制作をサポートします。高品質なビデオ生成AIを探している方は、ぜひPyramid Flowを試してみてください。


この記事でご紹介したAI技術の応用方法について、もっと詳しく知りたい方や、実際に自社のビジネスにAIを導入したいとお考えの方、私たちは、企業のAI導入をサポートするAIコンサルティングサービスを提供しています。以下のようなニーズにお応えします。

  • AIを使った業務効率化の実現

  • データ分析に基づくビジネス戦略の立案

  • AI技術の導入から運用・教育までの全面サポート

  • 専門家によるカスタマイズされたAIソリューションの提案

初回相談無料ですので、お気軽にご相談ください。以下のリンクからお問い合わせください。


この記事が気に入ったらサポートをしてみませんか?