日本初の日本語対応の動画生成AI基盤モデル「AIdeaLab VideoJP」を商用利用可能で無償公開

2025年1月14日 17:00

はじめに

こんにちは、AIdeaLab社の開発チームです。主にクリエイターの皆様に重要なお知らせがあります。安全で透明性の高い日本語動画生成AI、AIdeaLab VideoJP (エーアイディアラボ　ビデオ・ジェイピー) を商用利用可能で無償公開します。AIdeaLabVideo JPは学習に対する透明性が高く、著作権やライセンスに配慮して「フルスクラッチで」（０から）動画を学習していることが後の説明からもわかります。
AIdeaLab VideoJPは以下のURLにて無料で利用することができます。

AIdeaLab VideoJPは以下のURLから無料でダウンロードできます。

なお、AIdeaLab VideoJPは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（ＮＥＤＯ）が実施する、国内の生成AIの開発力強化を目的としたプロジェクト「GENIAC（Generative AI Accelerator Challenge）」の成果をもとに作成されました。

公開の背景

AI Picasso社では、クリエイターの皆様との積極的な対話を通じて、相互理解と協力のもとにAI技術を開発しています。私たちはクリエイターの皆様が直面する課題を解決し、共に成長することを目指しています。その課題の中で、動画生成を使ってみたいが使えないクリエイターやファンの方がいる課題があると考えています。これは動画に対する学習許可を得ていないためでしょう。
そこで、今回は我が社ではこの問題に対処した動画生成AI、AIdeaLab VideoJPを開発しました。

AIdeaLab VideoJPの特徴

学習に対して許諾が得られている動画を原則使用

ここでは機械学習する際に著作物の改変が発生しうると仮定します [注釈1] 。著作権者にとって勝手に改変されるのはあまりうれしいと思わないでしょう。また、勝手に改変されたものを販売されることもあまりうれしくないでしょう。そこで、本モデルでは、次の条件を満たす動画のみを機械学習に用いました。

動画は改変が許されるライセンスである
動画は改変しても商用利用可能である
動画はライセンスを変更しても良い

この３つの条件を満たすライセンスの動画は、主にCC-BY-4 .0、CC-0になります。したがって、学習用動画は原則これらのライセンスに従う動画を用いました。具体的には次の学習用データセットに含まれる動画のみを使用しました。

なお、前者に関してはPixabayの動画のみを使っています。これらのデータセットに含まれる動画のみを使っているため、学習動画に対する透明性は限りなく高いと考えております。もし問題のある動画が見つけたら、ご報告いただけると今後の開発に助かります。

日本語と英語の文章がそのまま通じるモデル

動画生成を使ってみたいが使えないクリエイターの中には、プロンプトが英語であるから、使い勝手がわるいと思っている方も少なくないと思います。実際、動画生成AIに慣れている人も時には翻訳ソフトを使って入力している方もいるようです。しかし、翻訳ソフトを間に挟むことでニュアンスが変わるという問題も従来指摘されています。
そこで、本動画生成は日本語を日本人の話す感覚と近いかたちで処理し、動画を生成できるようにしました。具体的には入力テキストを処理する技術を大規模言語モデル (LLM) であるllm-jp-3-1.8bにしました。これにより、例えば、「チューリップや菜の花、色とりどりの花が果てしなく続く畑を埋め尽くし、まるでパッチワークのようにカラフルに彩る。朝の柔らかな光が花びらを透かし、淡いグラデーションが映える。風に揺れる花々をスローモーションで捉え、花びらが優雅に舞う姿を映画のような演出で撮影。背景には遠くに連なる山並みや青い空、浮かぶ白い雲が立体感を引き立てる。」様子を生成したいと考えましょう。実際にそのまま入力して生成された動画が次のとおりです。

なお、日本語だけではなく、英語も通じます。むしろ、英語のほうが通じるので、時には英語も使ってあげてください。

モデルのライセンスは定番のApache-2.0

動画生成を使ってみたいが使えないクリエイターの中には、ライセンスがややこしくて困るからという人が結構いると思います。そこで本モデルではシンプルさを大切にするために、オープンソースソフトウェア界隈でよく使われるApache License 2.0を採用しました。Apache License 2.0 はとてもわかりやすい有名なライセンスです。たとえ、わからないことがあっても、ChatGPTなら親切丁寧に教えてくれるはずなので、ChatGPTへ気軽に質問ください。また、それでも心配があれば、末尾にある連絡先へご相談ください。

ところでApache-2.0は表現に関する条項は一切ありません。我々のチームでは表現の自由を最大に尊重します。一方で、偽情報や誤情報に使うことは犯罪につながるため、我々は一切推奨しません。法律にしたがって使ってください。

最先端の技術を利用し、ご家庭でも動く推論速度の早さを実現

AIdeaLab VideoJPでは、Rectified Flow Transformerという推論速度の早い最先端アルゴリズムであるフローマッチングを使用しています。フローマッチングは動画生成AI、メタ社のMeta Movie Gen、テンセント社のHunyuanVideoなどで利用されています。フローマッチングの中でもRectified Flow Transformerの良いところは規模によってはご家庭のGPUでも動くことです。AIdeaLab VideoJPでは最小14GBのVRAMを持つGPUで動くはずです。

AIdeaLab VideoJPの弱点

データ不足により表現能力が低い

動画生成では多くの物理法則を学ぶ必要があるため、たくさんの動画を学習に必要とします。例えば、エヌビディア社のCosmosでは2000万時間の動画を学習に使っていますが、このモデルで学習に使った動画は1200時間しかありません。このため、物理法則に従った動画が出にくかったり、そもそも物体の名前を知らなったりということもあります。

日本の知識が少ない

AIdeaLab VideoJPは日本の視覚的知識が少ないです。この理由としては、日本の視覚的知識を持った視覚言語モデルが少ないこと、学習動画があるプラットフォームが海外にあることが原因としてあげられます。特に前者の方は深刻です。日本の動画を見ても日本語で説明できるモデルがないというのはいかがでしょうか。我が社も開発に取り組んでいます。国家安全保障の観点からも他社も積極的に開発して公開してほしいと願っています。

使い勝手が悪い

現状、AIdeaLab VideoJPはデモやdiffusersでしか動かすことができません。ローカル環境と言われているComfyUIやWebUIなどにはまだ対応していません。また、Kohya氏のMusubi Tunerなどの手軽なもので改造することができません。我々チームではこのモデルをベースにさらにみなさまに発展して利用していただきたいと考えているため、これらへの対応を順次開始していきたいと思っております。

動画生成で人気がある美女とアニメがでない

AIdeaLab VideoJPでは美女とアニメを生成することは現状できません。アニメに関しては別途開発中です。今後の活躍にご期待ください。

まとめ

AIdeaLab VideoJPは、クリエイターとAIの共存を考えた、商用利用できる透明性の高い日本語動画生成AIです。今後も皆様からのフィードバックを活かしながら、より良いサービス提供を目指します。質問や懸念があれば、どうぞ以下連絡先にお知らせください。

AIdeaLab株式会社では、動画生成AIをはじめとするAI開発に関するご相談を承っております。どうぞお気軽にお問い合わせください。

注釈

[注釈1] 著作権法において、機械学習を含む情報解析に伴う改変は第30条の4により「いずれの方法によるかを問わず、利用すること」に該当するため、法的には問題ありません