建築ビジュアル CG AI 活用法⑯ 動画生成AIが切り拓く未来のコンテンツ制作 ~Hailuo AI~
こんにちは。STUDIO55技術統括の入江です。
AI開発における中国の台頭には目を見張るものがあります。
一例を挙げても、KLING AI や Vidu、Wenxin Yige(文心一格)、ZMO.AI、Meitu AI、Ernie (文心一言) といったものから、以前に紹介した Gaussian Splatting(ガウス スプラッティング)における研究論文等も、中国の復旦張ビジョングループが発表したものです。
次世代の核となるAIアーキテクチャの開発競争が世界各国で進展する中、中国 AI業界の主要プレーヤーである MiniMax(ミニマックス)が、動画生成AI『Hailuo AI(ハイルオ AI)』を 先月の9月18日 にベータ版としてリリースしました。
本日は、その話題についてお話しをします。
●Hailuo AI の特徴
MiniMax(ミニマックス)が開発した Hailuo AI(ハイルオ AI)は、特にMoE(Mixture of Experts)アーキテクチャと大規模かつマルチモーダルなAI機能の採用によって、大きな注目を集めています。
Kuaishou の Kling AI や、ShengShu Technology が開発した Vidu など、他の中国系AIシステムと比較すると、Hailuo AI は 兆単位のパラメータを持つモデルを統合した独自のプラットフォームとして際立っています。また、動きやカメラアングル、美観を巧みに制御しながら、複雑な視覚タスクを処理する能力を備えています。
その結果、短くシンプルなプロンプトでも高品質な動画を迅速に生成でき、一般ユーザーが容易に動画を作成・扱うことが可能です。
Hailuo AI(ハイルオ AI)は、誰でも簡単に使えるAIとして、従来のデジタルの壁を取り壊すことを目指した「ユーザーとのインテリジェンスの共創」を掲げています。
その大きな特徴は、テキストプロンプトをもとに 高品質な動画を自動生成でき、生成スピードが速い といった点にあります。そのため、短時間でプロトタイプやプロモーション用のコンテンツを作成するのに適しており、広告やマーケティング、SNS、教育、エンターテインメントなど、今後の幅広い分野での応用が期待される "マスマーケットアプリケーション" に重点が置かれています。
👉 MoE(Mixture of Experts)
特に Google や OpenAI などが開発している超大規模な言語モデル(LLM)に取り入れられています。このアプローチにより、膨大なデータセットを効率的に学習し、高精度の自然言語処理タスクを実現することが可能になるものです。計算コストを抑えつつ高い性能を発揮するものとして知られています。
"Hailuo"の意味
「Hailuo(ハイルオ)」は 中国語の「海螺」(hǎiluó) を指し、日本語で「巻き貝」や「ホラ貝」を意味します。
ホラ貝は伝統的に音を出す道具として使われたり、美しい形状を持つことから 芸術的なシンボル として用いられます。
「Hailuo AI(ハイルオ AI)」という名称は、おそらく自然の要素である「海螺」をモチーフにし、AIの複雑さや進化のイメージと結びつけて、独自性を持たせたものだと考えられます。
ホラ貝の形状や音の広がりのように、AI技術がさまざまな方向に発展し、広く利用されるという意図が込められているのではないでしょうか。
使用について
公式サイトに登録すると、3日間の無制限アクセス が提供されます。これはウェルカムギフトとして、期間中は無制限に試すことができるサービスです。トライアル期間の終了日も明示されているため、その間に必要な機能を確認し、有料版へのアップグレードを検討することをお勧めします。
試し放題の期間が終了すると、100クレジット の表記になります。
※1回のビデオ生成にかかるクレジットは 30クレジット です。
📝検証内容
🔶テキストからビデオ「Text-to-Video」
Discover(発見する)に掲載された作例から判断すると、このタイプのAIは自然描写や人物(キャラクター)、映画的技法に優れている印象がありますが、建築ビジュアルに関してはどのような表現が可能でしょうか?
お伝えしたように、Hailuo AI(ハイルオ AI)は、Ranway Gen-3 Alpha や Dream Machine 同様、カメラコントロール技術 がプロンプトそのものに設計されています。そこで、建築動画に必須な ”ウォークスルー” カメラワークで、モダンリビングのビジュアルを描画してみます。
テストするにあたって作成した プロンプトは以下です。
👉 Hailuo AI のプロンプト対応言語は、「多言語サポート」とされており、主に中国語を始め、日本語もサポートされています。
窓外の風景が非常にリアルな遠近感で強調されています。
かなりシンプルなインテリアデザインで、同じダイニングセットが2箇所にあったりはしますが(苦笑)、とりあえずクォリティは好感が持てます。
ゆったりとしたカメラワークも ”ウォークスルー” 描写の期待に応えてくれています。
ダイニングセットが重複した内容をどこまで改善できるか、プロンプトを打ち直して試してみます。
シーンそのものが別イメージで生成されますが、先ほどのような問題は見られなくなったようです。
次は、窓の景色を夜景にしたいので、先ほどのプロンプトの一部を "the large windows offer views of the city at night." と書き換え、再度生成します。
まるで映画でも見るような大都心のきら星の夜景が美しく表現されました。インテリアの間接照明の雰囲気も好感が持てます。
注目すべきは "窓ガラスの反射" です。
従来のAIは光の反射が苦手とされてきました。夜景設定にしたことで、外の景色だけでなく 室内の明かりがガラスに反射されるかに注目しましたが、その点も自然な形で見事に再現されているのが確認できました。
「テキストからビデオ」検証結果の感想
建築ビジュアルにおける使用感としては、インテリアの構成要素に矛盾のある点が見受けられました。例えば、ダイニングセットが2つあったり、イスの形状や数がおかしかったり(特にイスの描写が苦手なようです)等です。ただし、プロンプト内容をより細かく具体的に設定することにより、これらの問題を回避できることも検証しました。
そのため、"短くシンプルなプロンプト" で高品質な生成そのものは可能ですが、建築インテリアでは、ある程度詳細な描写を含めたテキストの方が望ましいでしょう。
無料で使用ができ、映画並みの印象的な映像を生成できる点を考慮すると、用途次第では非常に有効なツールと言えます。
また、映像のクオリティが高いため、逆に動画の長さが短く感じられますが、この "モデルの短いクリップの長さ制限" はすでに指摘されており、今後の開発で改善されることがすでに発表されています。
👉 Huilo AI のビデオ生成の長さは6秒とされています。動画リストに作成されるアイコンには「00:06」と表示されていますが、実際にダウンロードした mp4 データ は「00:05」(正確には「00:05:16」)となっています。
おそらく、ダウンロード前にビデオの冒頭か末尾が自動的にトリミングされているか、元データがエンコードの過程で時間が削られるのかといった若干のバッファがあるのかも知れません。
🔷画像からビデオ「Image-to-Video」
『画像からビデオ』をテストします。
※この機能は、2024年10月8日に追加されました。
テストに当たっては、以前の「建築ビジュアルCG AI活用法⑬~動画生成AI 8選・比較 検証~」と 同じ画像を使用します。
プロンプトに、”A Walk-through of the interior” と入力して生成します。
想像の斜め上を行き過ぎた感じです。思いがけない激しめのカメラワークと、自動生成されたダイニングルームのビジュアル には驚きです(笑)。
プロンプトを ”camera zoom & pan” と 変更して生成してみます。
自然な感じになりました。
やはり、"ウォークスルー" はプロンプト的に採用が難しいのかもしれません。カメラワークの名称で示すのが良い結果につながるということが分かりました。
元画像の破綻がなく、見えていない空間を自動で描き出す能力の高さは、前回に検証した Ranway Gen-3 Alpha と通じるレベルであることを示しています。
次に、"zoom" だけでプロンプトしたのが、下のビデオです。
"zoom" のニュアンスが少し違いますが、ダイニングに "寄っている" のは間違いありません(笑)。
日本語では、主語を明確にしない文体がよく使われますが、これによって判断があいまいになることがあるので 要注意です。この場合、何に ”zoom” するのかを明記した方がよさそうです。
これで、思い通りのズームが実現しました。
「画像からビデオ」検証結果の感想
カメラワークを具体的にプロンプトすることで、静止画から動画が生成できることが確認されました。元画像が破綻せず、形状も維持されたまま映像化できる事から、今後、「静止画を基にした動画制作」の実現が期待できそうです。
建築ビジュアルの制作においては、「テキストからビデオ」生成よりも、「画像からビデオ」生成の活用において、実用化の可能性がありそうです。
🎞建築ビジュアル 作例
その他、建築的要素で生成した内容を掲載しておきます。
参考にご覧ください。
・GIF
生成される動画は、1280×720 (mp4) 25.00 fps 6秒(00;00;05;16) です。Gif 変換(604×340)している分、掲載のクォリティが落ちている点を含めてご覧ください。
⚠ Gif動画を複数まとめて掲載していることから、ネット上で動画が重たく感じられる場合は、Wi-Fiの接続環境や場所を変更してお試しください。
・YouTube動画
念のため、生成した一連の動画を YouTube にもアップしておきました。
カクつきのない、ちゃんとした内容で見てみたいといった場合など、下記リンクからご覧ください。
ちなみに、Gif で直接掲載していない動画もつないでいます。
🏢メーカーについて
Hailuo AI(ハイルオ AI)を開発した MiniMax(ミニマックス)社 は SenseTime(センス タイム) 社 の元従業員によって設立されました。
そのため、両企業についてお伝えします。
SenseTime (商湯科技開発有限公)
SenseTime (センスタイム) は、中国(中華人民共和国香港特別行政区新界沙田区に本社を置く)を拠点とする人工知能(AI)技術のリーダーで、主にコンピュータビジョンに強みを持っています。日本のソフトバンクグループが大株主(15.99%の株式を所有)です。
2014年に設立され、比較的若い企業ながら、AI分野では急速に台頭してきました。主な研究領域としては、顔認識、画像・映像認識、拡張現実(AR)、自動運転、自然言語処理 など、多岐にわたります。
設立当初から政府や民間企業と協力し、顔認識技術 や 監視システム の開発で実績を積んできました。中国国内の監視システムで採用された顔認識技術や、自動運転技術の発展に大きく寄与した企業です。
また、国際的な AIコンペティション や カンファレンス でも高く評価されており、論文の発表数 や AI技術の特許数 でも世界的に上位にランクインしています。特にコンピュータビジョン分野におけるAI研究では、世界トップクラスの企業の1つです。
MiniMax
MiniMax は、そのような SenseTime の元社員によって 2021年に設立 された企業です。
その中には、SenseTime で副社長を務め、研究部門の重要人物であった Yan Junjie(ヤン・ジュンジエ) 氏 も含まれています。
MiniMax は、OpenAI の ChatGPT に似たAIソリューションの開発に注力しており、革新的な大規模言語モデル(LLM)の開発 により急速に注目を集めています。
同社は、Alibaba(アリババ)や Tencent(テンセント) などの大手支援者から数回の重要な資金調達ラウンドを完了しており(2024年3月時点 評価額 約25億ドル)、中国のAI業界の主要プレーヤーとして成長を続けています。
特に アリババ の広範な戦略の一環として、MiniMax は主要な AI投資(6億ドル)の1つとなっています。
●海螺AI(Conch AI)
MiniMax は 昨年(2023年)初めに「海螺AI(Conch AI)」サービスを提供しています。
👉 「海螺」は「Conch(コンチ)」と英訳されます。そのため、英語表記で “コンチ AI” と呼ばれます。
このプラットフォームでは、ChatGPT 同様のやりとりができ、ビデオ作成や音楽作成など、複数にわたるジェネレーティブ機能を搭載しています。
「海螺AI(コンチ AI)」のビデオ作成機能は、この MiniMax オープン プラットフォーム の一部として提供されていたものでしたが、現在はリブランドされ、 Hailuo AI(ハイルオ AI)として 先月リリースされました。
※ページの「ビデオを作成する」をクリックすると、Hailuo AI サイト へジャンプします。
「海螺AI(コンチ AI)」を利用登録するには、Googleなどのアカウントではなく、電話番号の登録が必要となります。
※中国国内ではGoogleは使用できません。中国政府のインターネット検閲により、Googleの検索エンジンや関連サービス(Gmail、Google Driveなど)はブロックされています。
利用規約をこちらにリンクしておきます。興味のある方は確認してください。
●LobeChat
MiniMax が開発する 大規模言語モデル(LLM)「Abab(アブアブ)」シリーズは、同社の主要な技術的基盤を構成しています。今年 (2024年) 4月にリリースされた最新モデル「Abab 6.5」は、話題のAIチャットアプリ『LobeChat』にも搭載されています。
LobeChat(ローブチャット)は LobeHub 社が提供する AI を活用した 中国製 チャットボット プラットフォーム です。いわゆる "中国版 ChatGPT" と考えれば早いですが、LobeChat には、更に柔軟性のあるカスタマイズ オプションがあり、オープンソースで拡張可能なフレームワークが特徴です。
ユーザーは独自のプライベート LLM ベースのアプリケーションを展開し、豊富なプラグイン エコシステムを通じてアシスタントをカスタマイズすることができます。
これらのプラグインにより、Web 検索、画像生成、Steam や Bilibili などの外部プラットフォームとの統合など、さまざまなタスクが可能になります。
中国ではかなりのユーザーベースがあり、複数の中国語モデルのサポートに重点を置いた開発により、Bilibili などの人気のある中国のプラットフォームとの統合も、ユーザーにとって魅力的なようです。
LobeChat は、OpenAI、Anthropic (Claude)、Google (Gemini) など、さまざまなプロバイダーのモデルを含む複数の大規模言語モデル (LLM) をサポートするように設計されており、最新の『ABAB 6.5』を含む MiniMax の「Abab」シリーズ は、LobeChat が利用できる LLM の 1 つです。
Abab 6.5 モデル
『Abab 6.5』 は、Abab 6.5 と Abab 6.5s という 2 つの主要なバージョンがあります。どちらも MoE (Mixture of Experts) アーキテクチャに基づいて構築されており、効率とパフォーマンスが向上しています。
Abab 6.5 には 兆個のパラメーター があり、コンテキスト長で最大 20 万トークン を処理できるため、GPT-4 などのモデルに匹敵します。
より効率的なバリアントである Abab 6.5s は、同様のトレーニング データを使用しますが、テキストの処理速度が速く、約 30,000 ワード/秒 を処理します。
MiniMax がこれらのモデルで目指しているのは、Claude 3 や Gemini-1.5 などの他の主要な AI モデルとのギャップを埋めることで、Abab 6.5 は、さまざまな コアコンピテンシー(核となる能力)テストで、GPT-4、Claude 3、Gemini-1.5 に近づいている能力を示しています。
「Abab」シリーズは、MiniMax の競争優位性を確立する重要なモデル群です。これらのモデルは、Hailuo AI や MiniMax オープンプラットフォーム(Conch AI)などの製品において競争力を強化するだけでなく、AI 駆動型アプリケーションの持続的な改善を支え、さらなる技術進化の基盤を築きます。
まとめ
MiniMax の動画生成AI『Hailuo AI(ハイルオ AI)』のリリースは、単に ”クォリティが良い”、”簡単に高品質な動画が作れるAI” などの表層的な感想とは別に、OpenAI や Google の Geminai などとも肩を並べる勢いの中国のスタートアップ企業が、いよいよ本格的な 一般ユーザーを巻き込む展開に乗り出してきた といった印象です。
今年(2024年)の8月から9月にかけて、大手グローバル AI および ディープラーニング 企業 からスピンオフした 一連の新たな勢力の台頭により、大幅な成長と拡大のフェーズの始まりが示されてきています。
このような「AI業界地図」が塗り替えられる中にあって、日本独自の国産AIがあまり注目されていないことは、世界経済におけるパワーバランスの将来的な変化について懸念が生じる可能性があります。
NEC の『NEC the WISE』や 富士通 の『Zinrai』、Preferred Networks などの国産AIは、特定のビジネスニーズに応えるために設計されており、マスマーケットアプリケーション とは性質が異なります。
これまで日本が『国産』を強みにしてきたように、利用者側と提供者側ではまったく異なる環境が形成されることを、今の世界的潮流の中で 常に意識する必要があると感じます。
中国やアメリカ、ヨーロッパを中心とする 次世代のAI開発の勢力図 にあって、今後、"メイド・イン・ジャパン" を顕示する コア・コンピタンス(他社に真似できない核となる能力)の国産AI開発に期待をしたいものです。