見出し画像

OpenAIの極秘プロジェクト『Sora』が流出!

5,640 文字

おっと、OpenAIのテキスト生成ビデオモデルのSoraが流出してもうたみたいですわ。今わかってることと、新しいビデオの例をいくつかお見せしたいと思います。
まず最初に、このリークについては我々のチャンネルの友人であるチャビーから知りました。彼によると、OpenAIのSoraが流出して、レジットルーマーズが最初に見つけたようです。リーカーがリークと一緒に公開したメモのスクリーンショットと、PR puppet Soraというハギングフェイスのレポへのリンクも共有されてました。
ちょっと振り返って、Soraについて説明させてもらいます。このチャンネルをご覧の方はもうご存知やと思いますが、簡単におさらいしときましょか。2月に、このテキストからビデオへの投稿と、OpenAIの新しいモデルがありました。この品質でテキストからビデオを生成できるのを初めて見た時は、一貫した要素や物理法則もあって、これは世界シミュレーターちゃうかという噂もありました。めっちゃ期待が高まったんですが、それから1年近く経っても、まだモデルは公開されてません。アーティストたちにプライベートアクセスを与えてフィードバックを集めてるところやったんですが、この点が後で重要になってきます。
思い出してもらうと、日本の通りを歩く女性の有名な動画とか、雪の中を走るマンモスとか、宇宙飛行士の映像とか、すべてがめっちゃリアルで素晴らしかったですよね。今日では似たようなオープンソースのテキスト・トゥ・ビデオモデルもありますが、まだこの品質には及ばへんのです。
ブログ投稿の重要な部分では、「今日、Soraは危害やリスクの重要な領域を評価するためにレッドチーマーが利用できるようになっています。また、クリエイティブな専門家にとって最も役立つようにモデルを進化させるため、多くのビジュアルアーティスト、デザイナー、映画製作者にアクセスを許可して、フィードバックを得ています」と書かれてました。
これが彼らの足を引っ張ることになったんです。リークに含まれてたものを見せましょか。PR puppet Soraのページの一番上には「3時間後、OpenAIはすべてのアーティストに対してSoraの早期アクセスを一時的に停止しました」と書かれてます。残念ながら今はもう何も動きませんが、少なくとも数時間は機能してたみたいです。
ページを下にスクロールすると「ツールが使用可能な間に生成された動画」という部分があります。これらの動画も削除されてしまいましたが、Twitterで削除される前にダウンロードした人がいて、その動画をいくつか見つけました。
でも興味深いのは、なぜこのリークが起こったのかということです。「公開書簡:なぜ我々はこれを行うのか」というところをクリックすると、ハッカー集団Anonymousがリリースしそうなマニフェストが出てきます。
「親愛なる企業AIの支配者たちへ」というかなり不穏な書き出しです。「我々は早期テスター、レッドチーマー、クリエイティブパートナーとしてSoraへのアクセスを約束されました。しかし、実際にはアートウォッシングに利用されていると考えています。Soraがアーティストにとって有用なツールだと世界に伝えるために」
アートウォッシングって面白い言葉ですね。ちょっと考えてみたんですが、要はOpenAIがSoraを単なるアーティストのツールとして世界に売り込もうとしているけど、実際には将来的にアーティストを置き換えることができるものやと彼らは見てるわけです。しかもアーティストには報酬も払われへん。
続きを読んでみましょう。「アーティストはあなたたちの無給のR&Dではありません。無料のバグテスター、PRの操り人形、トレーニングデータの検証トークンでもありません。数百人のアーティストが1500億ドルの価値を持つ企業のために、バグテスト、フィードバック、実験的な作業を通じて無償労働を提供しています。何百人もが無料で貢献する一方で、コンペを通じて選ばれた一部の人だけが、Soraで制作した映画の上映機会を得られます。その報酬は、OpenAIが得るPRやマーケティング価値に比べればわずかなものです」
正直、これの多くに同意せざるを得ません。これはコンテンツクリエイターがモデルのトレーニングデータとして使用された場合、報酬を受け取るべきかという問題に戻ります。このチャンネルを見てる方の多くは私の意見に賛成してくれへんかもしれませんが、私はアーティストは報酬を受け取るべきやと思います。少なくとも、報酬がなくてもトレーニングに作品を提供するかどうかを選択できる権利はあるべきです。
反論としては、人がウェブを閲覧して何かのコンテンツを見て学ぶのと、大規模言語モデルやこの場合のビデオモデルが学習するのは本質的に同じプロセスやという意見があります。でも私の考えでは、それは完全に同じというわけにはいきません。これらは非人間的な存在で、膨大なデータを取り込み、多くの場合、オリジナルのアーティストが作成したものを正確に複製することができます。そしてアーティストは全く報酬を得られへんのです。特にSoraは1500億ドルの評価額を持つ企業が所有する無料でオープンソースでもないモデルです。
Soraが初めてこういう問題に直面したわけではありません。Midjourney V6が出た時を思い出してください。多くの人がマーベル映画やその他のIPと完全に一致する画像をショット・バイ・ショットで再現できました。ディズニーからIPの許可は得てませんでした。
例えばモナリザ、映画ジョーカーのワンシーン、そしてMidjourneyで作られたバージョンがあります。他にも有名なIPがMidjourneyで複製できる例がたくさんあります。
マイクさんのように「これはフェアユースで保護されている」と考える人も多いです。その議論には深入りしませんが、私はアーティストが少なくとも作品を提供するかどうかを選択できる権利を持つべきという立場です。
リークの投稿に戻りましょう。「アーティストを無給のR&DとPRに利用する数十億ドル企業を非正常化せよ。さらに、すべての出力はOpenAIチームによる承認が必要です。このアーリーアクセスプログラムは、クリエイティブな表現や批評というよりも、PRと宣伝に重点を置いているように見えます。企業のアートウォッシングが検出されました」
「我々は300人のアーティストに無料で無制限のアクセスが提供されたこのツールを、誰もが実験できるように公開します。もし我々がAI技術をアートのツールとして使用することに反対していたなら、このプログラムに招待されることもなかったでしょう。我々が同意できないのは、このアーティストプログラムの展開方法と、一般公開に向けてツールが形作られている方向性です」
Soraが一般公開される時期についてはまだ何も情報がありません。このリークによって公開が早まる可能性もありますね。
「我々はOpenAIがより開放的に、よりアーティストフレンドリーになり、PRスタント以上にアートをサポートすることを期待して、これを世界に共有します。アーティストに対して、独占的なものを超えて、オープンソースのビデオ生成ツールを使用することを呼びかけます。ゲートキーピングや商業的利益から解放され、企業のPRに奉仕することなく、アーティストが最先端の実験ができるようにします」
「また、アーティストが自分のデータセットで独自のモデルをトレーニングすることを推奨します」これはめっちゃクールなアイデアですね。
そして、オープンソースのビデオツールとしてVideoX、Mochi-1、LTX、Video Pyramid Flowを挙げています。Pyramid Flowだけ聞いたことなかったので、試してみる必要がありそうです。
「ただし、誰もがオープンソースツールやモデルを実行するためのハードウェアや技術的能力を持っているわけではないことは承知しています。ツールメーカーがアーティストの声を聞き、アーティストに対する公正な報酬とともに、真のアーティスト表現への道を提供することを歓迎します」
「Soraアルファテスターからいくつかお楽しみください」として、名前が列挙されています。そして、Borg Maximalistさんがツイッターで「分散型AI以外は妥協するな」と7分前に投稿して、そのメッセージを再投稿しています。匿名を保つのではなく、実際に誰なのかを明かしているようです。
有名なスパゲッティを食べる動画がこちらです。まだちょっと違和感はありますが、これが流出したSoraの動画とされています。
セルシェーディングのカートゥーン調の動画もあります。木々の一貫性やキャラクターの背後の動きを見てください。本当に印象的です。
あの有名な、ネオンが輝く通りを歩く女性の別バージョンもあります。ドレスの動き、手の表現、本当に完璧に見えます。最後に顔を上げた時、真っ黒な目がちょっと不気味ですが、全体的にはめっちゃ良く見えます。
森の中を歩く男性の動画もあります。彼が入っていく不思議なポータルのような物体があって、OpenAIのSoraのロゴやウォーターマークも見えます。
OpenAIはリークを可能な限り抑えようとしているようです。チャビーは「OpenAIはSoraのリークを抑えようとしているけど、もう手遅れや。なんて一日や。Soraは本当にリークされた」と言っています。
OpenAIのDiscordでは「あなたはミュートされました。理由:Soraリークの話題」となっています。今は誰にも話させたくないようですね。
コカコーラのCMみたいな動画もあります。あの有名なシロクマとコーラの缶です。めっちゃ素晴らしく見えます。
パリのエッフェル塔の動画もあります。観光客がたくさんいて、雨が降っています。本当に素晴らしい出来です。
オフィスビルや工場での火災シーンもあります。火の表現は良く、煙の表現は信じられないほど素晴らしいです。工場自体は角度や影、反射が若干おかしいですが、全体的にはめっちゃ素晴らしいです。
アニメの女の子が通りを歩く動画もあります。めっちゃ素敵で、かっこいいですね。
テディベアと風船がたくさんある動画もあります。以前見たことがあるような気もしますが、違うかもしれません。
街並みと走る車の動画では、白い車が別のレーンに変形してしまうような問題が見られます。本の動画ではフラッシュのような現象が見られ、鉛筆が2本に見える不思議な現象も確認できます。でも全体的にはめっちゃ良く見えます。
回転する銀河の映像もあります。めっちゃクールですが、ちょっと目が回りそうです。
風船に乗った猫の映像は、アングルは変ですが、良く見えます。フィッシュアイレンズみたいな感じです。猫の表現も良いですね。
人々が最高の品質だと言っているのがこの映像です。鳥の動き、羽毛、目の表現、すべてが完璧です。これがAIで生成されたとは知らずにオンラインで見たら、絶対に区別がつかへんと思います。間違いなく最高の出来です。
このリークからは他にも情報が得られています。実際の生成を行うためにモデルに送られるペイロードについての情報があります。フレーム数、バリアントの数、プロンプト、ビデオ生成のタイプ、動画の高さと幅、スタイルを指定できます。インペイントアイテムとモデルターボがあることから、Soraの高速生成バージョンがあることもわかりました。
ペイロードの例もあります。本当にすべてがリークされたみたいですね。
2匹の子犬が遊ぶ映像もありますが、これはあまり良くありません。子犬がジャンプ中に変形してしまって、めっちゃ不自然です。頭から尾に変わる様子がわかります。変な感じですが、面白いですね。
コーラの缶で遊ぶ女の子の映像もあります。ちょっと不自然ですが、クールに見えます。
火の前で本を書いている人の映像では、顔への光の反射は悪くないですが、完璧ではありません。部屋の残りの部分はもっと明るく照らされるべきでしょう。
カメラの前でダンスしたりポーズを取ったりする女性の映像もあります。横に変な文字があって、ロシア語っぽいですが確信はありません。でも動きの一貫性は素晴らしく、髪の毛も良く見えます。手が見えへんのが残念ですけどね。
海賊の猫が変身して、ルンバみたいなものに乗って跳ね回る映像もあります。
パズルやルービックキューブみたいなもので遊ぶ猿の映像もあります。
これらの例の多くを投稿してくれたコールに感謝します。今フォローさせてもらいますわ。
今のところわかっているのはこれだけです。新しい情報が出てきたらまた更新します。Soraはリークされましたが、誰かが実際の生のモデルを手に入れたかどうかはまだわかりません。ハギングフェイスでホストされていて、APIの背後にあると思うので、多分そうではないでしょう。
でも、もし誰かがウェイトをリークしたら(まだされてないと思いますが)、すぐに広まって、実行方法を見つけるだけになるでしょうね。
アーティストたちがSoraをリークしたのは正しかったと思いますか?ハギングフェイスのページの裏にあるなら、長くは続かなかったでしょうけど。
やっとSoraについてもっと情報が得られて良かったと思います。これによってSoraの公開が早まる可能性もありますし、OpenAIにちょっとプレッシャーをかけることになりそうです。アーティストの主張にはある程度同意できますが、フェアユースという反対側の意見も理解しようとしています。
この動画を楽しんでいただけたなら、いいねとチャンネル登録をよろしくお願いします。また次回お会いしましょう。

いいなと思ったら応援しよう!