Soraが持つ心の世界：OpenAIの特許技術に迫る

2025年1月24日 00:56

OpenAIのSoraは、プロンプトの意味や文脈を深く理解し、一貫性を持った映像を表現できる動画生成AIです。

その文脈を保った状態で映像を編集できる点も大きな魅力の一つでしょう。

実は、このSoraの特徴はOpenAIの米国特許「階層的なテキスト条件画像生成のためのシステムと方法」（US20240331237A1）と深く関連していると考えられます。

今回は、このSoraの魅力を支える特許技術について解説したいと思います。

https://openai.com/sora/

今回のポイント

Soraが持つ心の世界とは？
意味や文脈に一貫性を持った映像を表現できる理由
一貫性を持った編集が可能な仕組み

Soraの魅力とは？

ゆう：ねえ、りょう、OpenAIのSoraって使ったことある？文字でイメージを伝えるだけで、すごい映像が作れるんだって。

りょう：ああ、Soraいいよね。プロンプトでイメージ伝えると、ちゃんと理解して動画作ってくれる。意味や文脈に一貫した映像を作ってくれるのがいいよね。

ゆう：なにか作った映像見せてよ。

りょう：じゃあ、例えばこれね。こんな風にイメージ伝えてみた。

夕暮れのビーチで、穏やかな波が打ち寄せるシーン。
ビーチを散歩する数名の人々と、頭上を舞うカモメが映っている。
空はオレンジから紫への美しいグラデーションに染まり、
映画のようなシネマティックな視点で撮影した動画にしてください。

生成された動画を見る
https://sora.com/g/gen_01jj6j7h4zfw88wdh0bc20tev3

ゆう：綺麗、ほんとに映画のシーンみたい。イメージ通りだね。

りょう：次に、「Remix」っていう機能で、この人たちを砂の城に置き換えてみるね。

人々を砂の城たちに置き換えてください。

編集後の動画を見る
https://sora.com/g/gen_01jj7evarjfapa39ptse7zv6vd

ゆう：すごーい、ほんとに砂のお城になっちゃった。でも雰囲気は変わってないね。

りょう：そうそう、言葉で伝えたことが前の映像と調和して、なおかつ、イメージは保たれてる。

ゆう：イメージ残したまま、編集できるんだね。

OpenAIが取得した画像生成特許

りょう：OpenAIはいくつか特許を取っているんだけど、Soraに使われていそうな特許がこれ。

「階層的なテキスト条件画像生成のためのシステムと方法」（US20240331237A1）

ゆう：へえ、特許とっているんだ。

りょう：この特許を見ると、Soraがなぜ伝えた文脈にそって一貫性のある映像を作れるのかが分かるよ。

ゆう：特許にSoraの秘密があるわけだね。

りょう：そう、この特許の概要はこんな感じ。

①階層的な画像生成
・まずサブモデル138で、言葉の概念136を画像の概念140に変換
・次にサブモデル142で、画像の概念140を画像144に変換

② 共同学習
・言葉の概念136と画像の概念140を共同で学習

③ 段階的な画像生成
・サブモデル142で、画像の概念140を高解像度画像144に段階的に変換

④ 心の世界での画像編集
・画像も言葉も一旦概念にしてから編集

ゆう：うーん、どうしてこれでイメージ通りの映像が作れるの？

りょう：一つずつ説明するよ。

①階層的な画像生成

りょう：まず、言葉から画像を直接生成するんじゃないんだ。

ゆう：どういうこと？

りょう：まずサブモデル138では、「夕暮れのビーチ」みたいな言葉から変換された言葉の概念136を、さらに画像の概念140に変換しているんだ。

ゆう：概念？心みたいな感じ？

りょう：そうそう、僕らも「夕暮れのビーチ」って言葉を聞くと、そのイメージが心に浮かぶよね。それが言葉の概念136。

ゆう：うんうん、分かる。

りょう：同じように、実際に夕暮れのビーチを見ると、そのイメージが心に残るよね。それが画像の概念140。

ゆう：Soraにも心があるってこと？

りょう：似たようなものだね。実際には「ベクトル」っていう数字の列。つまり、Soraの心はベクトルで表現される。「埋め込み」とか「潜在空間」って言ったりする。

ゆう：Soraにも心があるから、イメージ通りの映像が作れるってこと？

りょう：だね、一旦心の世界で考えるから、イメージ通りの映像が作りやすいんだ。その概念を画像にするのがサブモデル142。

ゆう：心で考えた後に、描くって感じだね。

りょう：うん、こんな風にサブモデル138とサブモデル142とに分けると、それぞれの学習や仕事に集中できる。その方が思い通りのいい映像が作れるんだ。

ゆう：あれもこれもいっぺんにやると、中途半端になっちゃうのと同じだね。

②共同学習

りょう：言葉の概念136と画像の概念140を同時に学習しているのも特徴だよ。心の中で、「夕暮れのビーチ」って言葉の概念と、実際に見た夕暮れのビーチの概念とを結び付けるって感じ。

ゆう：「夕暮れのビーチ」っていう言葉と、夕暮れのビーチの思い出を心にしまい込むって感じかな。

りょう：そう、心の財産が増えてく感じ。

ゆう：Soraの学習って思い出作りなんだね。

③画像の概念140を高解像度画像144に段階的に変換

りょう：次に、「夕暮れのビーチ」の画像の概念140が作れても、それをいきなり細かい画像144にするって難しいんだ。

ゆう：たしかに、分かる気がする。

りょう：最初から細かいところにこだわりすぎると、全体のイメージとか文脈とかが壊れちゃう。かといって、ラフなまんまだと綺麗な画像144にはならない。

ゆう：絵を描くときもラフなスケッチからはいるからね。

りょう：だから、サブモデル142は、イメージを保ったまま、まず画像の概念140からラフが画像を生成し、段階的に画像の解像度をあげていく。

ゆう：だんだん細かく綺麗に描いていく感じだね。

りょう：実際には「段階的アップサンプリング」や「ディフュージョンモデル」っていう技術を使うんだ。だから、文脈にそって一貫性のある綺麗な映像が作れるってわけ。

ゆう：なるほどね。

④心の世界での画像編集

りょう：Remixみたいな編集機能もSoraの心の世界で行うんだ。

ゆう：その方が、イメージ通りに編集できそうだね。

りょう：うん、まず、編集しようとする画像140を概念に変換し、さらに「人々を砂の城たちに置き換えてください」みたいな編集の言葉も概念に変換する。心の世界だと、これらを一緒に扱うことができるからね。

ゆう：心の中なら、同じようなもんなんだね。

りょう：そうそう、だから元の夕暮れのビーチのイメージを残したまま、人々を砂の城たちに置き換えるってこともできるんだ。

ゆう：Soraに心の世界があるのがポイントだね。

今回のまとめ

OpenAIの特許の特徴をまとめると以下のようになります。

①階層的な画像生成
・サブモデル138:言葉の概念136を画像の概念140に変換。
・サブモデル142:画像の概念140を高解像度画像144に変換。

②共同学習
・言葉の概念136と画像の概念140を共同で学習し、同一の潜在空間で関連付け。
・テキストの概念と画像の概念を統合し、意味的一貫性を強化。

③段階的な画像生成
・一貫性を保ったまま、サブモデル142が画像解像度を段階的に上げ、高品質な画像を生成。

④心の世界での画像編集
・画像144の編集を潜在空間内で行い、テキストプロンプトに基づいた柔軟な編集を実現。

このようにOpenAIは、人間の心とSoraの心をつなぎ、高品質で一貫性のある映像を生成・編集できる能力を持っています。今後もさらなる進化と共に、Soraの新たな世界が広がっていくでしょう。

今回も最後までお読みいただき、ありがとうございました。

弁理士　中村幸雄
お問い合わせはこちら