OpenAI SORAの真相：本当は何が起きているのか！

2024年12月11日 21:47

4,697 文字

OpenAIが新しいテキスト動画生成AIツール「Sora」をリリースしました。インターネットが盛り上がっている中、私にはすでに目にした華やかな発表動画から何かが抜け落ちているように感じます。今日は基本的な内容を超えて、「Soraがリリースされて、クールな映像を生成できる」というような見出しの先にある、OpenAIが大々的に宣伝していない部分に踏み込んでいきたいと思います。
様々な議論、隠された制限、地域的な問題、アーティストからの反発、そして舞台裏で何が起きているのかという噂があります。事前にプレビューを体験したMarquez Brownleyのような評価者たちでさえ、同時に「恐ろしくて、刺激的」と評していて、これは通常期待される安全なPR的表現とは言えません。
まず公式に分かっている事実から始めましょう。OpenAIは2024年12月9日にSoraを米国や多くの国でリリースしました。月額20ドルのChatGPT Plusか月額200ドルのChatGPT Proに加入していれば利用できます。Plusユーザーは月に約50本の720pまでの5秒間の動画を生成でき、Proユーザーは月に最大500本の優先動画を生成可能で、1080pの解像度、20秒の長さまで対応し、最大5つの同時生成もできます。Proユーザーはサービスが混雑している時に待つ必要がありますが、クレジットを消費しない制限なしの「リラックスモード」での動画生成も可能です。
しかし、ここから興味深い部分が始まります。Soraは世界中どこでも利用できるわけではありません。具体的には、イギリス、スイス、欧州経済領域では、少なくとも現時点では利用できません。過去24時間でオンラインに登場した複数の報告や噂によると、OpenAIはデータ保護法やデジタルサービス法に関連する複雑なコンプライアンス上の課題に直面しているようです。リークされた社内メモによると、OpenAIの内部コンプライアンスチームはSoraが規制基準を満たすよう奔走しているとのことです。
これは単にスイッチを入れれば済む問題ではありません。特にディープフェイクやデマの可能性を考えると、法的・倫理的な地雷原といえます。OpenAIは性的なディープフェイクや児童への性的虐待コンテンツなど、特に有害な形態の乱用をブロックすると述べています。また、C2Pメタデータと目に見えるウォーターマークを挿入して、動画がAIによって生成されたものであることを確認できるようにしています。
これは正しい方向への一歩ですが、批評家たちはこれでは不十分かもしれないと主張しています。デジタルフォレンジックの専門家たちは、これらの保護策が公開されるやいなや、人々はそれを回避する方法を見つけるだろうと懸念しています。AIの動向を追っている人なら、これは決して的外れな懸念ではないことがわかるでしょう。
次に品質と制限について話しましょう。Marquez Brownley（MKBHD）はSoraをテストし、出力を「恐ろしくて、刺激的」と表現しました。一方では、信じられないほど豊かな映画的な風景、ストップモーションやカードボードクラフトの世界を思わせる様式化されたシーン、そしてあらゆる種類の芸術的な効果を得ることができます。他方で、物理法則は奇妙で一貫性がなく、物体が変形したり、人々が不自然にちらついたり、重力が論理を無視したり、全体的に不気味の谷的な雰囲気があります。
Soraは夢のような超現実的な映像を生み出すのは得意ですが、より長い時間にわたる一貫したリアリズムとなると躓くようです。この一貫性の欠如は技術的な基盤と関連しています。Soraはノイズから始まり、フレームごとに洗練していく拡散ベースのモデルを使用しています。計算負荷が高く、エネルギー集約的です。大規模なテキストモデルと同様に、これらの動画生成をスケールで実行すると、莫大なエネルギーを消費する可能性があるため、オンラインでは環境への影響について疑問の声が上がっています。
しかし、おそらく最大の議論は解像度や物理法則についてではありません。それはアーティストに関するものです。Soraは今日の大規模リリース以前から存在していました。選ばれたアーティストやクリエイターのグループが早期アクセスを得ていたのです。OpenAIは彼らがSoraの改良を支援するために自主的に参加したと主張していますが、約2週間前、「PRの操り人形」と自称するこれらのアーティストのグループが、公式発表前にSoraツールを公開してしまいました。
なぜでしょうか？彼らはOpenAIが無報酬の労働力を使ってツールを改良し、イメージを磨いていると非難したのです。OpenAIが適切な報酬や帰属表示なしに、モデルのトレーニングと改良のために彼らの創造性を利用していたと主張しています。これは小規模な論争を引き起こしました。アーティストたちは、自分たちは単なる無料のR&D部門ではないと主張し、有意義な再投資と透明性を求めています。
彼らはOpenAIが協力者として歓迎するという物語を作り出しながら、トレーニングの素材として彼らの作品が使用されることについての本質的な懸念を無視していると批判しています。OpenAIの回答は、数百人のアーティストがSoraの開発に関わり、参加は自発的なものだったというものでしたが、これは反発を収めることはできませんでした。実際、ここ1日の間に「デジタル複製の檻の中のアート」と題された新しいエッセイ集がオンラインに登場し、これらのアーティストたちは実質的な報酬と、将来のAIモデルのトレーニングに彼らの作品やスタイルがどのように使用されるかについての発言権を求めて議論を前進させています。
また、すべてが表面上見えているほどオープンではありません。最近のRedditのスレッドやDiscordでの議論によると、OpenAIはクレジットの消費について完全に透明ではないようです。確かに公式ドキュメントでは内訳が提供されています。例えば、5秒の4K動画は約20クレジット、20秒の1080p動画は2,000クレジットかかるといった具合です。しかし、ユーザーたちは複数のバリエーション、ループ、複雑なアニメーションを試す際に、これらの数字が実際のクレジットの消失速度を反映していないと不満を訴えています。予想以上に早くクレジットが消えていくという指摘があり、隠れた乗数があるか、クレジットの計算方法についてのコミュニケーションが不十分である可能性が示唆されています。
複雑さといえば、Soraのモデレーションポリシーもまた曖昧な領域です。公式な方針は厳格で、有害なコンテンツや誤解を招く可能性のある公人の現実的な描写は禁止されています。しかし、このモデレーションは実際にどのように機能しているのでしょうか？噂によると、特に有名人や政治家に言及するプロンプトは、自動的に拒否されるか、重い見えない制限を示唆する奇妙な一般的な出力を生成するとのことです。一部のプロンプトはSoraの内部ロジックを破綻させることさえあり、OpenAIが発展途上の、まだ完璧ではないモデレーションの枠組みに依存していることを示唆しています。
これらの潜在的な問題や議論にもかかわらず、OpenAIは全速力で前進しています。2月の初期バージョンのSoraから、大幅に高速化された新しいSora Turboにアップグレードしました。来年初めにはよりカスタマイズされた価格設定を計画しており、これは異なるユーザーセグメント、おそらくエージェンシー、制作会社、あるいは大手スタジオまでを視野に入れていることを示唆しています。
業界関係者の推測によると、Sora UltraやSora Studioといった高度な機能が登場し、マルチシーン編集、タイムライン、より良いトレーニングフィルター、カードボードやペーパークラフトの美学を超えた専用のテーマプリセットなどが提供される可能性があります。
プリセットについて言えば、Soraは明らかにリアリズムだけを目指しているわけではありません。ムーディーなフィルムノワール、土着的なアーカイブルック、あるいはカードボードやペーパークラフトのテクスチャーなど、様々なスタイルを選択できます。特集や最近の作品を紹介するコミュニティフィードは、すでに超現実的な実験作品で溢れています。
しかし、ここで考えてみてください。これらのコミュニティの例が増えるにつれ、Soraのトレーニングデータは公開される生成物ごとに拡大していく可能性があります。モデルは学習し、洗練されていくかもしれません。一部の人々は、あなたの個人的な作品でさえも、あなたの意見を聞くことなく、モデルのパイプラインにフィードバックされ、他のユーザーのために改良されていくことを懸念しています。
Marquez Brownleyが言及した「恐ろしい」側面について、Soraは時として夢のようなシーンと非現実的な動きを融合させ、人間のカメラでは決して捉えることのできない結果を生み出します。これはAI動画の美しさと醜さの両面です。存在しない世界へと私たちを運んでくれますが、同時にAIの現実理解がいかに異質なものであるかを思い出させます。
おそらくSoraの欠点は、それが魅力的である理由の一部なのかもしれません。将来的には一本の長編映画全体を即座に作り出すかもしれないAI技術の、最初の一歩を目撃している過渡期のアーティファクトとして。
最後に、OpenAIがSoraについて私たちに語っていないことは何でしょうか？彼らはコンプライアンスの障壁が巨大であるため、現在ヨーロッパで利用できないことを大々的に宣伝していません。これらのプロセスがいかに高価でエネルギー集約的であるかについての議論には踏み込んでいません。クレジットの混乱や、モデレーションフィルターが特定の表現形態をどのように制限する可能性があるかについても積極的に対応していません。
そして、いくつかの安全対策について言及はしているものの、モデルの急速に向上する能力と、それを追いかけ（そして多くの場合失敗する）ポリシーや保護措置との間の時間との戦いのように感じられます。
言い換えれば、Soraは登場しましたが、その全容はまだ明らかになっていないのです。したがって、あなた自身の60秒の映画的クリップを生成したり、ジャングルを月面風景に混ぜ合わせたりする前に、私たちは全員が大規模な実験の一部であることを覚えておく必要があります。クリエイターと消費者、協力者とテスト対象の境界線は曖昧になっています。
OpenAI Soraは現時点で最先端かもしれませんが、この最先端が何をできるのか、そして私たちが気づく前に何を切り裂いてしまうかについては、まだ解明中なのです。
以上です。コメントで皆さんの考えを聞かせてください。興奮していますか？心配ですか？興味をそそられていますか？それとも全部でしょうか？すでに試してみましたか？それともアクセス集中でサインアップページで立ち往生していますか？OpenAIは私たちに、あるいはこれらのモデルにインスピレーションを与えた作品を生み出したアーティストたちに、もっと透明性を提供する必要があると思いますか？この会話を続けましょう。ご視聴ありがとうございました。また次回お会いしましょう。

OpenAI SORAの真相：本当は何が起きているのか！

いいなと思ったら応援しよう！