OpenAI Sora の発表まとめ

2024年12月10日 05:00

tl;dr

OpenAI の動画生成 AI Sora が正式リリース（Sora Turbo）
テキスト、画像、動画を入力、解像度 1080p、最大 20 秒まで動画を生成可能
アスペクト比は 16:9、1:1、9:16 から選択可能
ChatGPT Plus ユーザは月 50 本、Pro ユーザは月 500 本まで生成可能
すべての生成動画には C2PA メタデータと透かしを付与
有害なコンテンツの生成をブロック、現時点で人物画像のアップロードに制限
モデルは Transformer アーキテクチャを採用し、DALL·E と GPT の知見を利用
DALL·E 3 のリキャプショニング技術を採用し、指示追従性を向上
物理世界とインタラクション可能なモデル開発に向けた基盤技術としての位置づけ

公開された一次情報のそれぞれをまとめていきます。

若干の正確性が欠けることがありますが、それはきっと眠いのが理由です。眠すぎるので System Card の途中で力尽きました。あとで書きます。そこまではわかりやすくかけたはずです。おやすみなさい。

公式 X の情報。内容は記事の抜粋だけど実際の動画があったりするので Sora の生成動画の雰囲気はわかるかなと。

Our holiday gift to you: Sora is here. https://t.co/UhdmYuGHtT pic.twitter.com/ljoruQsfO0
— OpenAI (@OpenAI) December 9, 2024

we are launching sora today, and we made a new product to go with it.

if you have an openai plus or pro account, you can generate videos. anyone can view them.

it will take some time to roll out, but by the end of the day it should be available at https://t.co/VZBcJFqChS
— Sam Altman (@sama) December 9, 2024

Sora is here

https://openai.com/index/sora-is-here/

研究用プレビュー段階にあった Sora を下記の URL にて正式リリース。

https://sora.com

テキストからリアルな動画を作成できるモデル Sora が発表されたのは今年の 2 月。World Simulation に関する初期の研究成果を発表しました。Sora は現実世界を理解し、シミュレートすることのできる AI の基盤技術として機能し、物理世界とインタラクションのできるモデルの開発に向けた重要な一歩となります。

2 月にプレビューを公開していたモデルよりもかなり高速化された Sora Turbo を開発しました。本日より、ChatGPT Plus / Pro ユーザ向けに提供。

Sora の専用インターフェース

2 月のテクニカルレポートで紹介したさまざまな機能をリリース。

動画の生成には、解像度 1080p、最大 20 秒まで、アスペクト比は 16:9、1:1、9:16 から選べます。自前のアセットを拡張、リミックス、ブレンドしたり、テキストからまったく新しいコンテンツを生成したりすることもできます。

また、テキスト、画像、動画を入力として Sora を簡単に操作できる新しいインターフェースを開発。Storyboard を使うことで各フレームの入力を正確に指定することができます。

また、コミュニティからの動画作品が更新されるおすすめフィードや最新フィードも用意しています。

Sora はどうすれば使えるか？

ChatGPT Plus / Pro のサブスク（それぞれ月 20 ドル/ 月 200 ドル）を契約していれば追加料金は不要で Sora を使うことができます。480p の解像度で毎月 50 本まで生成可能です。720p の解像度でも動画を生成することは可能ですが、制限回数は少なくなります。

ChatGPT Pro を契約すると Plus の 10 倍の生成回数（毎月 500 本まで）が得られ、より高解像度、より長時間の動画を生成することができます。年明けにはユーザに応じた料金体系も考えています。

公開にあたって

現状公開している Sora には多くの制限があることにご注意ください。非現実的な現象を生成したり、長時間の複雑な動作の処理に失敗したりします。また、今回発表する Sora Turbo は 2 月の研究プレビュー版の Sora よりもかなり高速にはなっているものの、誰もが利用できる金額ではないため、そうなるよう取り組んでいるところです。

動画生成の技術が進展する中で、可能性を探り、責任ある利用を行なうための規範や保護措置などの共同開発のため、いまのタイミングで発表することにしました。

Sora で生成されるすべての動画には、出所を確認できる C2PA メタデータが付与されます。完璧とはいきませんが、デフォルトで見える透かしを追加、Sora によって生成されたコンテンツかどうかを確認できる内部用の検索ツールを開発しました。

現在、児童に対する性的虐待動画や性的なディープフェイク動画など、特に有害と考えられる悪用をブロックしています。人物の画像のアップロードは現時点では制限されていますが、ディープフェイクへの対策を改善しながら、より多くのユーザに機能を展開していきます。安全性とモニタリングへのアプローチ、レッドチーミングの取り組みの詳細については、システムカードをご覧ください。

私たちは、この初期バージョンの Sora が、世界中の人々に新しい形の創造性を探求するのに役に立ち、自分たちのストーリーを語り、動画によるストーリーテリングの可能性の限界を押し広げることを可能にすることを期待しています。世界中の人々が Sora を使って何を生み出すのか、私たちは大変楽しみにしています。

Sora System Card

https://openai.com/index/sora-system-card/

Sora の概要

Sora は、OpenAI の動画生成モデルで、テキスト、画像、動画を入力として受け付け、動画を出力として生成するように設計されています。1080p の解像度（最大 20 秒）の動画を作成したり、テキストから新しいコンテンツを生成したり、自前のアセットを拡張、リミックス、ブレンドしたりすることができます。また、コミュニティからの動画作品が更新されるおすすめフィードや最新フィードも用意しています。Sora は DALL·E と GPT モデルから得られた知見をベースに構築され、ストーリーテリングと創造的な表現のためのツールとしての拡張を目的としています。

Sora は拡散モデルで、静的ノイズのようなベースの動画から始めて、多くのステップを経てノイズを徐々に除去することで動画を生成する仕組みです。モデルに多くのフレームを予測させることで、物体が一時的に画面から消えても同じものとして保持されるという課題を解決しました。GPT モデルと同様に、Sora は Transformer アーキテクチャを採用し、高いスケーリング性能を実現しています。

Sora は DALL·E 3 における知見から得られたリキャプショニングという技術を採用しており、これは視覚的なトレーニングデータに対して詳細な説明文を生成することを含む技術です。これにより、動画の生成時にユーザの指示により追従させることが可能となります。