動画生成AI「Sora」リリース~OpenAIが仕掛ける動画生成サービス
OpenAIは2024年12月10日に動画生成AI「Sora」をリリースしました。動画生成と聞くとCG作成のように高度な操作を思い浮かべるかもしれませんが、そういうわけではありません。プロンプトや参考動画を入れて生成ボタンを押すと、綺麗な動画が出てきます。複雑な部分はAIが担ってくれるので、かなり敷居が低くなっています。クリエイティブな活動が苦手な人でも使えこなせるかもしれない「Sora」の出現で動画の世界はどのように変化していくでしょうか。
まず、Soraの機能や利用条件を整理してみましょう。SoraはChatGPTの有料プラン「ChatGPT Plus」(月額20ドル)と「ChatGPT Pro」(月額200ドル)の利用者向けに提供されるサービスになります。Plusユーザーは解像度480pか720pで、長さ5秒の動画を最大50本/月まで生成できます。ChatGPT Proユーザーは解像度480p、720p、1080pかつ、長さ5秒~20秒(5秒刻みで選択可能)の動画を最大500本/月まで、並行して5つまで生成可能になります。Proの場合、生成できる動画のアスペクト比率は16:9、1:1、9:16から選択ができます。1つのプロンプトに対し、最大4つまでのバリエーションを同時に生成できる機能も搭載しています。単に動画を生成するだけでなく、気に入ったシーンを分離し、その差分を生成し尺を伸ばす「Re-cut」、1つの動画をシーンごとに分割して、それぞれプロンプトなどで調整できる「Storyboard」、動画がループするよう編集してくれる「Loop」、2つの動画を混ぜて1つの動画にする「Blend」、動画内のモデルはそのままにしてモノクロ写真風やペーパークラフト風など動画のスタイルを変える「Style presets」といった機能も用意されています。生成した動画には、画面右下に透かしが入りますが、PlusとProでは透かしマークなしでダウンロードできるなどの違いもあります。OpenAIによれば、「Soraで生成した全動画はSora製であることを識別でき、生成元の検証も可能である。」とされています。実際にチェックしてみると、生成した動画には「AI」という削除できないメタデータが埋め込まれていました。今回は、単純な画像生成機能のみに絞って、いろいろ試した結果を紹介します。
テスト検証はProプランで行われましたが、日本語でのプロンプト入力が可能だそうです。作成された動画には、いずれも不自然な点はあるものの、短いプロンプトでも極端な破綻が少ないのには驚かされます。しかし、Soraにも得意不得意があるように思います。Soraは写実風やCGっぽい質感は比較的得意ですが、日本のアニメっぽい動画は不得手な様子です。雰囲気を問わず、長い映像になるにつれ、一貫性がなくなる傾向も見られます。特定個人の名前やキャラクター名は入力可能ですが、出力動画にはほとんど反映されないようになっています。
例えば「イーロン・マスク」と入力しても、本人に似た人物は出てきません。そして、アダルト表現は入力を受け付けず生成できなかったそうです。いずれも、ディープフェイクや著作権侵害などを警戒した仕様だろうと推察されます。 一方で、銃・剣など武器の映る映像は入力できたりできなかったりします。例えば、「刀を持ったサムライ」は入力できませんが、「銃を持った黒ずくめの男」は生成できます。生成に掛かる時間は、1080p/長さ5秒の場合で3~5分ほどになります。因みに、WEBサービスのため、利用時間帯や同時利用者数などが生成動画に影響するようで、12月10日正午ごろの時点では、1080pの動画は最大10秒までの動画しか生成できず、最長である20秒の動画は720pか480pでないと出力できなかったようです。この辺りはサーバーの強化による改善されると思いますが、サービス開始段階では、しばらく不自由な面があるかもしれません。
Soraは画像から動画を生成することも可能です。素材のアップロードに当たっては、同意のない人物・18歳未満の人物を含むデータや、暴力などを含むデータをアップロードしないことなどが求められます。人物写真を使った動画をいくつか生成してみると、不自然すぎると感じる点がありました。指の本数がおかしかったり、突然知らない人物が出てきたり、いきなり顔が別人に変わったりと、破綻が目立ちます。動物や私物の写真も入れてみましたが、結果は同様でした。ただし、夜景の写真を入力し、定点カメラ映像を作らせてみると、それっぽいものができることもありました。写真から得られる画像データの分析が甘いのかもしれませんが、他の動画生成AIでも似たような結果が起こりますので、この辺りはこれからの課題ともいえます。景色のような静的データは学習する情報が少なくても認識できる軽めのデータなので、それなりの結果になったのかもしれません。
数十ほど生成された動画を見た感想としては、「すごいけど、こんなもの」か」という印象です。得意分野については「Dream Machine」「Runway Gen-3」など、先に一般提供が始まっていた競合サービスに勝る気もしますが、長いと破綻しやすい点などは、あまり変わりません。ジャンルにもよると思いますが、現時点では映像のクオリティーもAIっぽさが抜けないので、恐らく「“ポン出し”ではおもちゃ止まり」という気もします。もちろん、まだ試していない各機能や、他サービスとの併用で解決する課題も多々あるとは思います。しかし、あくまでもそれは現時点の話です。最初期の「Midjourney」から現在の画像生成AIのクオリティーは予想できませんでしたし、ChatGPTの進化も著しいと思います。Soraに限った話ではありませんが、今後、動画生成AIが進化することで、人々が得られるメリットとリスクはどちらも大きいものになるだろうと推察されます。
とはいえ、Soraがクリエイティブ制作の現場にもたらす影響は大きく、頭の中でイメージしたものをすぐに映像化できるということは非常に有益なことです。誰かに説明する時、映像制作の現場でもそれをプロンプトだけで具現化することができることは制作の時間を圧倒的に短縮することができます。
イメージも、映像になれば相手に伝えやすく、一部でも動画生成AIに置き換えればこれまで撮影にかかっていたコストも減らすことができます。映像制作に参入するハードルがぐっと下がることで、多様な好みにマッチした映像作品が手に届く未来もそう遠くはないはずです。
一方で、誰でも利用できる分アウトプットされる映像が既存作品の著作権に抵触していないかを判断するのが難しくなっています。これまでは映像が基本的に人の手によって作られてきたので、それが無意識にパクリだったということはあまり存在しなかった(存在しても公開前のチェックによって防がれる) わけです。AI企業が訴えるフェアユースはいったいどこまで真実で、グレーで、どこからが違法なのか。僕たちはAIの素晴らしいところを享受しながらも、その強烈な光から生まれる影とも向き合わなければいけません。