■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた・あるいは単発の備忘録を共有する連載シリーズです。
より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。
今回は、Lumaの動画生成AI「Dream Machine」について。
※本来この「気になる生成AI備忘録」はローンチ前、開発段階のものを取り上げていますが、今回は実際に触れた内容をまとめています
↑こちらLuma AIのポストから気になったのですが、Lumaの動画生成AI「Dream Machine」は開発中というものではなく、すでに利用可能だということで、早速触ってみました。
まず、「Dream Machine」の概要ですが、
・テキストまたは画像から動画生成できる
・無料利用可(無料プラン)
無料プランの制限や有料プランは以下の通りです。
無料プラン(Freeプラン)だと生成される動画は5秒尺です。
「何だよ、たった5秒の動画しか出来ないのかよ」と感じる方もいるかもしれませんが、基本的にこれまでの既存の動画生成AIはそんなものでした。(最大で4秒とか)
だからこそ、OpenAIのSoraやGoogleのVeoが”1分(ないし1分以上)”の動画が作れると発表時に触れられた際、動画生成AIはSora以前Sora以降で分かれるだろう、と個人的には思ったものです。
そして直近の動画生成AIとしては中国快手のKlingが登場し、界隈を賑わせています。
↑ポストの通り、Klingは中国の電話番号がないとウェイトリスト登録不可のため、日本では現状何もできません。
そういった直近の背景があってか、無料で利用可能だという「Dream Machine」を知り、直ぐに試す運びになったわけです。
で、最初に作ったのが、サメ動画になります。(完全に最近Netflixで『セーヌ川の水面の下に』 という映画を観たせいですw)
私自身、サメ映画はジョーズから何から、これまで全てのサメ映画を観てきています。「Dream Machine」で生成された動画を観た瞬間、「お、これは実用性が高いのでは?」と感じました。
続けて「Dream Machine」で生成したのが、OpenAI公式・Soraのアナウンスページで掲載されている動画のプロンプトから作ってみました。
↑のプロンプトで試したら、「Dream Machine」でも同じような動画は出来るのか、その検証の意味合いも込めて生成したのが↓です。
「Dream Machine」の無料プランでは5秒間の動画しか作ることが出来ませんが、その範疇ではよく出来ているかなという印象を受けました。
同じように、Soraのプロンプトを使わせてもらい、もう1本「Dream Machine」で生成してみました。
↑こちら、『複数のモニターがあり、各モニターごとに異なる映像が映し出されている』というSoraの動画用プロンプトになります。
ポストでも触れたように、私自身、これまで一般利用できる既存の動画生成AIは全て触ってきた口です。
その、これまでの既存の動画生成AIでは、”複数のモニター”までは生成されても、”各モニターごとに異なる映像が映し出される”というのはありませんでした。
どの動画生成AIで試しても、各モニターごとに異なる映像が映し出されることはなかったのです。
そのため、技術の進化は顕著で、わかりやすくいうと「Dream Machine」のプロンプトの理解力がスゴイということになります。
次に「Dream Machine」で試してみたのが、画像+プロンプトです。
良い感じにモノクロ仕上げの女性画像を生成していたこともあって、その画像と、以下のプロンプトで試してみました。
A scene of talking. Lip Sync.
このプロンプトは「喋っているシーン。リップシンク。」という意味で、リップシンクは、いわゆる”口パク”です
生成された動画を観て、「あー、こりゃもう実用できるかな」と。
すぐにAIで音声を入れて命を吹き込んでみようとも思いましたが、また別の動画を作ってみました。
またSoraのアナウンスページで掲載されている動画で、他で試したらどうなるのか気になるものだったので、そのプロンプトで生成しました↓
↑の生成動画ですが、Soraのような動画にこそならなかったものの、単純に動画としては悪くないかと。
というのも、人の動きがそれぞれ別の動きをしています。
「それが何か?」と思う方もいるかもしれませんが、これまでの動画生成AIではこのムーブは出来なかったことです。動いても途中で人が消えたり破綻したり別人になっていったり、不自然さが目立つ感じだったのが、この生成動画では動画内の各人がある程度自然に動き・所作として見れるようには感じました。
こりゃあもうアフレコしてみるしかないか、と。
たった5秒の動画ですが、命を吹き込む作業です。
AI音声(elevenlab)で英語セリフを生成し、アフレコしてみたのが↓の動画です。
既存の実際の何か映画を真似て作ったらわかりやすいとも思いましたが、なんとなくそれでは芸がないなと思い、よくありそうな映画のワンシーンとして作ってみたものです。
ハリウッド映画にアフレコが多い(だから基本聞きやすい)のは昔からですし、「Dream Machine」のリップシンク(口パク)の見栄えならそこそこ良い仕上がりになるのではと思い試みましたが、まあまあ思った通りかなと。
ちなみに、同一人物キャラで試したら、5秒内に破綻して別人になってしまった例も有りました。これは、いつか「Dream Machine」である程度の”ワンシーン長回し”が作れるようになるのではと思い、試みたのですが…上手くいかないケースもあるということでしょう。
有料プランだったら基本的に求めることは出来るのかな?
と思い、「Dream Machine」の開発元・Lumaの公式Xアカウントに「3つの有料プラン、それぞれ詳しく教えてほしい」と、英語でリプしてみたのですが返事がありませんw
ちゃんと英語で聞いたんですけどね、何でしょ、「こいつ日本人か、無視無視」みたいな感じでなめられてるんですかね。(こちらが日本のAI界隈インフルエンサー的なポジションだったらどうせすぐ答えるだろうに)
有料プランの詳細は、課金検討であれば知っておきたいところなのです。
↑これ、3つの有料プラン、それぞれクリックするといきなりもう決済画面になってしまうんです。
各有料プランそれぞれ月々に生成できる回数だけ表示されてるのみで、無料プランとの差異、有料プランによっては生成できる動画尺(それこそ1分とかそれ以上とか)も変わって来るのか等、気になる点はいくつかあります。
単純にサポート対応悪くてというか、このまま有料プランについて何もわからなかったら課金は現状見送ろうと思っています。
エンドユーザーを大切にできない、まして手前の有料サービスに関するサポートがぞんざいでは課金しても不安が付いて回ると思うので。
それでも、年間250本近く映画を観る私としては、「Dream Machine」はとてもワクワクするものであり、クリエイティブな気持ちを引き上げてくれます。(久しぶりに生成AIでワクワクしたかもです)
尤も、映画が好きで映画を撮りたい私なので、「Dream Machine」のような動画生成AIが出て、発表だけあったSoraとは違い、実際に触ることが出来る・実際に動画生成できるというのは単純に嬉しいものです。
「感慨深い」というのが率直な想いというか、今まで一般利用できる動画生成AI全て触ってきた中では、「Dream Machine」は人間の表情、所作も綺麗で一番実用性あるレベルには思えます。
動画生成AIもここまで来たかと、実感できました。
▼「Dream Machine」
※追記6/15※
5秒以上の動画が作れないと、例えばPVやMV、映画(予告編等)制作しようにも、5秒の動画を結合して1本に仕立て上げる形になります。
以下、Dream MachineのFAQとプロンプトガイドをわかりやすく日本語化したものです。
というか、このnoteを最初に書いた6/13時点では、↑のようはFAQはありませんでした。(無料・有料プランに関するページも15日にそれなりの詳細が明記となりましたし)
↑の5を見るに、5秒以上の生成に関してまだサポートされていませんとのことですが、ここは個人的に最も気になることというのもあって、公式サポートにメール問い合わせしました。
内容としては、「有料プランのいずれかで5秒以上の動画生成は可能になるか?課金を検討しているので気になっています」というスタンスの英文で問い合わせました。
各プランページ(アカウントページ)のUIを微妙に更新したり、FAQを置いたり、おそらく運営としては想定以上のアクセスと反響に泡食ってる感じも見受けられます。
良く言えば、臨機応変にUI/UXを改善(ユーザーの声を一応拾ってる?)
悪く言えば、何かとリソース不足、といったところでしょうか。
問い合わせ回答は大体24-48時間以内の返答が基本かとは思いますが、気長に待つのが良いのかなぁとは思っています。
Dream Machine、いわゆるアニメーション系動画生成AIにおいて、1回の生成で5秒以上の動画生成が可能になれば、それは革命です。
革命ではありますが、生成AI界隈は非常に動きが早いです。極論、昨日一昨日の情報はもう古いとさえ言えるほどに。
動画生成AI技術の進化のスピードを思うと、これからどんどん長尺動画は作れるようになると思います。実際、まだ一般利用できないOpenAIのSoraやGoogleのVeoなんかは1分尺の動画をサービス発表時に公開していますし。
Dream Machineに関して1つだけ穿った見方をすると、有料移行させたいがために、無料ユーザー(無料プラン)の生成キューを長くしている感はあるなと。
※追記6/18※
と、↑で書きましたが、一向にDream Machineのサポートからは応答がありません。
気長に待とうかなというスタンスではあるものの、Dream Machineがもし、「いや、FAQ内で5秒以上の動画サポートは未だしえいないと明記してるんだが?」なんて考えだったとしたら、結構お粗末だなぁと。
それは都合よく後付けで加えたものであり、当初のUIではわかりえなかったことなので、もしそのようなスタンスでしかなかったら…私個人的には、サポート対応はザル、いや、何の応答すらもないのでザル以下とさえ感じます。
あれかな、思いのほか初動良すぎて遠い日本の無料エンドユーザーなんぞは切り捨て方式なのかな?
サービスを提供する側として、「15日にFAQを取りまとめ、その中でも触れていますが、5秒以上の動画は未サポートです」の一言くらいなぜ出せないのかなーとも。
有料移行させたいがために、無料ユーザー(無料プラン)の生成キューを長くしている感はある、とも↑で書きましたが、無料ユーザーは結局ぞんざいな扱いという事なんですかね。
だとすれば残念の一言ですが、もはや動画尺・生成可能な時間的な観点でいうなら
この辺が日本でも一般利用できるようになったら、「Dream Machine?そういえばあったねぇ」となってしまいそうな気配を感じてしまいます。
それくらい、ここ日本において生成AIモノなんて移り変わりは激しい現状なので。
日本における現状のDream Machineの利用は、「無料で動画が作れるから」というのが、AIリテラシーの有無に限らず大きいところかと。
Dream Machineを使って昔の写真から動画生成している方や、面白ネタ枠で利用されている方のブームやムーブメントは一時的なものだと思われます。
生成AI市場は競争が激しく、ユーザーサポートが不十分なサービスは他の競合に取って代わられる可能性が高いです。
※追記6/23※
6/15に公式サポートに問い合わせて以来、何の返事もないまま。
「あそこの店、料理は美味いんだけど店員の態度が…」っていうのと同じような感じというか、、、とりあえずDream Machineはもう追うのも課金も利用も止めておきます。
弱者はツライものです。(インフルエンサーとかならどうせすぐ応答あるくせに)
最早普通に印象悪いし、この個人的に小ばかにされている感じ、絶対に忘れない。
生成AIサービスって基本的に海外発ですが、中には「これ使ってください」とかある開発元もあれば、エンドユーザーをぞんざいに扱う開発元もあります。
加えて、細かな日本語のニュアンスまで伝わりきらないので、それだけでストレスにもなるため、サポート対応が杜撰なところは本当に残念に思います。
※追記7/4※
未だに何の応答もサポートからはないため、Dream Machineは触っていませんでしたが、1つ検証してみたくてそれを試してみました。
ワンシーン長回しが思うように出来ない、現時点での動画生成AI技術は映画や予告編の制作にはまだ限界があります。特にワンシーンの長回しができないという点は、大きな制約となっています。
よくX等でもAI生成動画が投稿されていますが、やはり見せ方に限界があるというか。件のワンシーン長回しができない時点で2、3秒のクリップを結合の形でしか見せられないわけで、そんな2、3秒程度じゃ見せ方も限られてしまうわけで。
現在の技術の限界といえるかなと。
シーンの一貫性:動画の一貫性を保つのが難しく、人物が途中で変わってしまうことがある。
クオリティの維持:短いクリップでは高品質な生成が可能ですが、長いシーンでは品質が低下することが多い。
ポストプロセスの必要性:生成後に手動で編集する手間が増える。
改善の方向性としては
より高精度なモデル:モデルの精度と安定性を向上させることで、長回しのシーン生成が可能になる。
データセットの拡充:多様で質の高いデータセットを用いることで、モデルの学習効果を高める。
ハイブリッドアプローチ:AI生成と人間の手による編集を組み合わせることで、クオリティを維持しつつ長いシーンを生成する。
で、現状の対応策ですが
技術の進化に期待しつつ、Soraなどの新しいツールが登場すれば、これらの課題が解決される可能性があります。特に、長時間の一貫したシーンを生成する能力が向上すれば、映画や予告編の制作にも適用できるのかなと。
ちなみに
現状ですと、↑のLiber氏のように、圧倒的画力(えぢから)など、魅力的要素がない限り、せわしなく2秒程度のカットで切り替わってしまう絵面では見せ方に限界があるわけです。
短いカットの連続では視聴者に強い印象を与えるのが難しいです。特に、映画や予告編のような視覚的に魅力的でストーリーテリングが求められるメディアでは、長回しのシーンが重要な役割を果たします。(果たすと思います)
短いカットの連続では、視聴者が物語に没入するのが難しくなるというストーリーテリングの難しさがあり、シーンの切り替えが頻繁だと、視覚的な一貫性が失われ、作品全体の質が低下する可能性もあります。
Liber氏のように、圧倒的画力で魅せるのか、音楽・SE(サウンドエフェクト)で魅力を出すか等、現状は見せ方に限りがある分、工夫が必要とされます。
※後半若干Dream Machineから逸れてしまったので、以降追記せず、ここで終わりにします