見出し画像

OpenAIが衝撃!Sora 2.0が流出!

4,150 文字

最近のOpenAIといえばドラマが絶えませんな。つい先日、OpenAIのプログラムの初期テスターのグループから、Soraモデルがハギングフェイスにリークされたんです。今回の動画では、この出来事について詳しく掘り下げていきたいと思います。というのも、かなり不思議な状況やったと思うからです。
今日、Twitterで大々的に発表されたんですけど、要するにOpenAIのアーリーアクセス研究プログラムに参加してた人たちが、新しい動画生成モデルSoraへのアクセスを流出させたんです。ハギングフェイスのリンクを提供して、短い動画を生成できるようにしたわけです。これはめっちゃ衝撃的な出来事でした。というのも、現在のSoraはチャットGPTみたいにまだ一般公開されてへん、プライベート利用限定のモデルやからです。
このリンクでは、OpenAIに対する不満を説明する長文が投稿されてました。その内容をご紹介して、実際の問題点について考えていきましょう。
まず冒頭にはこう書かれてます。「親愛なる企業AIの支配者たちへ。私たちは初期テスター、レッドチーマー、クリエイティブパートナーとしてSoraへのアクセスを与えられました。しかし、実際には私たちはアートウォッシングに利用されているだけだと考えています。Soraがアーティストにとって有用なツールだと世界に宣伝するために。」
そして続けて「アーティストはあなた方の無給の研究開発要員ではありません。無料のバグテスター、PRの操り人形、トレーニングデータの検証トークンでもありません。何百人ものアーティストが1500億ドルの価値を持つ企業のために、バグテスト、フィードバック、実験的な作品を通じて無償労働を提供しています。何百人もが無料で貢献する一方で、コンペティションを通じて選ばれた一部の人だけが、Soraで制作した作品の上映機会を得られます。その報酬も、OpenAIが得るPRやマーケティング効果に比べれば微々たるものです。」
アーティストたちがかなり怒ってはるのは分かりますが、私は彼らの言い分に完全には同意できへん部分もあります。でも、まずは彼らの主張を全て紹介させてもらいます。
「巨大企業がアーティストを無給の研究開発やPRに利用することを正常化するのはやめるべきです。」それに「全ての出力はOpenAIチームの承認が必要です。このアーリーアクセスプログラムは、クリエイティブな表現や批評よりも、PRと宣伝が目的のように見えます。」
「私たちは300人のアーティストに提供された無料で無制限のアクセスを、誰もが実験できるように公開します。私たちはアートのためのテクノロジーの使用に反対しているわけではありません。もしそうなら、このプログラムに参加することもなかったでしょう。私たちが同意できないのは、このアーティストプログラムの展開方法と、一般公開に向けてツールが形作られていく様子です。私たちは、OpenAIがよりオープンに、よりアーティストフレンドリーになり、PRスタント以上のアートサポートを提供することを期待してこれを世界に共有します。」
そして彼らは、Cog video-x、mocky-1、LTX video、pyramid flowなどのオープンソースツールへのリンクを共有し、「これらのオープンソースツールは、ゲートキーピングや商業的利害、企業のPRに縛られることなく、アーティストが実験できる環境を提供します」と述べています。
ここで私の意見を言わせてもらいたいんですが、これは人気のない意見かもしれません。アーリーアクセスプログラムに参加している人が、なぜそのプログラムに不満を持つんでしょうか?このプログラムに招待された時点で、強制されたわけではないはずです。もし不快に感じたなら、「これは私にとって適切ではない」と言って辞退することもできたはずです。
「アートウォッシングに利用された」という主張も、完全に正直とは思えません。確かに「アーティストを無給のバグテスターとして扱うな」という意見は分かります。でも、アーリーアクセスプログラムの一部として、フィードバックやバグ報告を提供するのは普通のことです。私も何度かアーリーアクセスプログラムに参加したことがありますが、これは一般的です。仕事のように感じるかもしれませんが、それは無料でコンテンツにアクセスできる見返りなんです。
Soraのコンペティションの詳細は把握してませんが、「何百人もが無料で貢献する中、選ばれた一部の人だけが作品を上映できる」という部分について。要するに、アーティストが素晴らしい作品を作り、OpenAIがその中から最高のものを選んで宣伝に使う、ということに不満があるようです。アーティストが多大な努力を払い、OpenAIがマーケティング効果を得るという構図は理解できます。でも、アーティストにとってもOpenAIのような大企業との仕事を通じて認知度を得られるメリットがあると思います。
また、「全ての出力はOpenAIチームの承認が必要」という点について。これは実は理にかなってます。企業が自社のブランドに関する投稿を管理したいのは当然です。このツールはまだ一般公開されてないので、質の悪い出力が公開されると企業の評判を損なう可能性があります。動画生成の分野は競争が激しく、物理法則に違反するような変な動画が出回ると、ツールの性能が低いと思われかねません。
「ツールを誰もが使えるように公開する」という彼らの行為について。これは本来の意味での公開とは違います。モデルの重みにアクセスできたわけではなく、単にOpenAIから与えられたAPIキーを共有して、ハギングフェイスのスペースを作っただけです。
面白いことに、OpenAIは公式Discordサーバーで、このSoraリークに関する話題を投稿禁止にしてます。でも、もっと興味深いのは、このリークが逆効果だったかもしれないということです。コミュニティの反応を見てると、多くの人がSoraの品質の高さと、現存する他のツールとの差に驚いてるんです。
今年初めのOpenAIのAMAセッションで、Kevin Will(OpenAIのチーフプロダクトオフィサー)がSoraについて言及しました。モデルの完成度を高め、安全性やなりすまし対策などの問題を解決し、計算能力を確保する必要があるため、公開を控えているとのことでした。
Twitterで共有された例を見ると、オリジナルに似てはいますが、他のツールと比べてかなり高品質です。Soraは間違いなく、他の動画モデルより数段上を行ってると思います。
Soraについて知っておくべき重要な詳細もあります。Oracus AIが興味深い発見を共有してました。Soraには独自のシーン遷移メカニズムがあるようです。プロンプト生成機能を見ると、最初の入力プロンプトに加えて3つの追加プロンプトが生成されています。
例えば、最初のプロンプトは「夜の賑やかなソウルの通りを自信を持って歩く女性」。そこから「特に明るいネオンサインの下でサングラスを調整する」「一時的に立ち止まり、路上の水たまりに映る街の明かりを見る」というように展開していきます。これらの動画を生成する際、一貫性を保つために追加のプロンプトを生成しているようです。仕組みの詳細は分かりませんが、かなり賢い手法に見えます。
また、現在公開されているのは「ターボ」モデルで、異なるバージョンが存在することも分かってきました。今見ている例は完全版ではなく、スピード重視の軽量版です。Tiabloによると、リクエストのペイロードから複数のモデルの存在が示唆されており、ターボモデルや異なるスタイル(ハギングフェイスで使用されている「ナチュラル」スタイルなど)があるようです。
また、シンプル、コンポーズ、インペイントなど、異なる操作モードもあるようです。APIリクエストではバリエーションやフレーム数を調整でき、画像生成機能の存在も示唆されています。「video_gen」というタイプが指定されているので、将来的に画像生成も追加される可能性があります。バリエーション数やフレーム数も設定可能で、「model_turbo」というパラメータの存在から、速度と引き換えにより高品質で一貫性のある別バージョンが存在する可能性があります。
今年初め、The Informationは、OpenAIが新バージョンのSoraを開発中と報じました。これは、初期デモより高品質で長い動画をより速く生成することを目指したものです。当初、Soraは1分程度の短いクリップの生成に10分以上かかっていたため、これが初期の課題の一つだったようです。
また、同じ記事によると、Soraには同じスタイルを動画全体で維持することが難しいという課題もありました。さらに、異なるクリップ間でオブジェクトやキャラクターの一貫性を保つのも困難だったとのことです。これはAIによる生成という性質を考えれば当然かもしれません。
実際のクリップを見てみると、AI生成のフォートナイトクリップがかなり興味深いです。私もフォートナイトをプレイしたことがありますが、キャラクターの動きや一貫性はかなり良好です。AMのゲームプレイも見ましたが、右下にOpenAIのロゴがあることから、確かにSoraの生成物だと分かります。
この一貫性は本当に驚くべきものです。このような世界モデルを持ち、次のフレームを正確に予測できるモデルは他にないと思います。以前見たAI生成のマインクラフトは、シーンごとに全く異なる印象でした。
タージマハルの前の馬のシーンでは、ランダムに人が出現したりしてますが、総じて面白い結果だと思います。
この出来事についてどう思われますか?個人的には、OpenAIにとってはそれほど大きな問題ではないと思います。研究プレビューアクセスのAPIキーを共有した程度です。「もうこれ以上やりたくない」と言ってプログラムを去ることもできたはずですし、他にもこのツールを使いたがってるアーティストは大勢いたはずです。

いいなと思ったら応援しよう!