
新しいAIビデオモデル、X線用AI、AIによる眼の生成、GPT 5、iPhoneでのSora、新しい音楽生成器
16,084 文字
AIは休むことなく稼働し続け、今週は実に驚くべき出来事が多くありました。写真のライティングを変更できる新しいAI、2つの最新鋭のビデオ生成器、X線画像の分析に優れたAI、そして眼球をデザインするAIまで登場しました。新しいオープンソースの音楽生成器、スマートフォンでオフラインでビデオを生成できるAI、GPT 4、そしてGPT 5に関する新情報など、盛りだくさんの内容をお届けしましょう。
まず最初に紹介するのは、Light of Videoというツールです。これは、ビデオを再撮影することなく、ビデオの照明や背景を変更できるものです。上の方にある元のビデオに、このツールを使って照明を変更すると、それに応じて元のビデオの色調が調整されます。例えば、夕暮れに変更したい場合は、まさにそのとおりの効果が得られます。
注目すべき点は、前景と背景を分離して、全く異なる背景を追加することもできることです。これは商品のCMなどに非常に適していると言えます。
簡単に仕組みを説明すると、まずビデオを個々のフレームに分解し、各フレームにノイズを追加します。その後、ビデオ拡散モデルを通して処理が行われます。その過程で、「ネオンライトの中を走る車」といったプロンプトを入力すると、Realistic Vision 5.1というStable DiffusionモデルとIC Lightというリライティングモデルを使用します。これらはどちらも無料でオープンソースのモデルです。
コードはすでに公開されており、GitHubリポジトリには、ローカルコンピュータでインストールして実行するための手順が全て記載されています。これは完全に無料でオフラインで使用できます。また、視覚的なインターフェースであるGradioデモのリリースも予定されています。
次に紹介するのは、Magic 141という新しいツールです。これは1分以内に最大1分間の動画を作成できる、非常に高速なビデオ生成器です。生成された動画は非常に詳細で、プロンプトに忠実に従い、全ての要素が一貫性を保っています。人物の動きもリアルに扱え、タイムラプス動画のような特殊効果も処理できます。
アニメーションも生成でき、自然な発話も可能です。ディズニーピクサー風のアニメーションスタイルも扱え、動物の動きも自然に表現できます。野生動物のシーンでは、ラプターの詳細な表現が非常に鮮明です。
サイバーパンクな終末世界のシーンなど、複雑なシーンも生成可能です。多くの人物が歩き回り、背景に建物が立ち並ぶ複雑なシーンでも、歪みなく一貫性を保っています。
このMagic 141は、Hun Yenという無料でオープンソースのビデオ生成器をベースモデルとして使用していますが、Step Distillationと呼ばれる特別な技術を採用しています。これにより、他の最新のビデオ生成器よりもはるかに少ないステップで動画を生成できます。
その仕組みは、まずテキストの説明から画像を作成し、その画像を開始フレームとして動画を生成するという2段階のプロセスを採用しています。テキストから画像を生成する方が、テキストから直接動画を生成するよりもはるかに高速だからです。また、画像があれば、それをベースに動画を生成するのも容易になります。
さらに、生成プロセスを加速する敵対的ステップ蒸留や、メモリ使用量と必要な計算量を削減するパラメータ仕様化などの技術も採用しています。これらの新技術を組み合わせることで、わずか数秒で動画を生成することが可能になりました。
画像生成を経験したことがある人なら、特に無料のオープンソースモデルをローカルコンピュータで実行する場合、動画生成に要する時間の長さに苦労した経験があるでしょう。十分なGPUがない場合は特に時間がかかります。最高級の商用モデルでさえ、動画生成には少なくとも数分を要します。しかし、この新しいMagic 141アーキテクチャにより、動画生成時間が大幅に短縮される可能性が出てきました。
コードはすでに公開されており、GitHubリポジトリにはダウンロードと実行に必要な全ての手順が記載されています。
次に紹介するのは、Med RXという非常に興味深いAIです。これは胸部X線画像の分析を支援するAIアシスタントです。チャットボットのように対話形式で使用でき、視覚認識機能を備えています。X線スキャンの写真を1枚または複数枚アップロードして、専門的な質問をすることができます。これはX線スキャンを理解・分析するように微調整されています。
明らかに、これは医師の診断や医学研究を支援する非常に有用なツールとなるでしょう。このアシスタントの開発に加えて、彼らはChest Agent Benchというベンチマークも導入しました。これは、胸部X線画像の分析におけるAIの性能を測定するテストです。
このMed RXを他のAIビジョンモデルと比較すると、ほぼ全てのカテゴリーで他のモデルを上回っていることがわかります。ただし、最高の無料オープンソースビジョンモデルの1つであるQwen 2.5 VLが比較対象に含まれていないのは残念です。他のモデルと比較した場合のQwenの性能が気になるところです。
コードとデータセットはすでに公開されており、Apache 2ライセンスの下で自由に使用できます。ローカルコンピュータでのインストールと実行に関する全ての手順が記載されています。非常に強力で有用なツールと言えるでしょう。
他のニュースでは、Perplexityが今週、Deep Researchという機能をリリースしました。OpenAIの同名の製品や、同じく同名のGoogleの製品と混同しないように注意が必要ですが、Perplexityは独自にこの名前を思いついたのでしょう。これは基本的にAIエージェントで、質問を投げかけると、関連する情報をウェブから収集してレポートにまとめてくれます。
最も良い点は、無料ユーザーでもアクセスできることです。Proサブスクライバーは無制限のDeep Researchクエリを利用できる一方、非サブスクライバーは1日あたり限られた数の回答にアクセスできます。
試してみましょう。現在、私は無料プランを使用していますが、ドロップダウンメニューからDeep Researchを選択できます。「2030年までの自動運転の状態を予測する論文を書いて」というプロンプトを試してみましょう。Deep Researchでは数分かかります。ウェブを検索して関連情報を探し、全てのステップを順を追って処理していく様子を確認できます。
まず「自動運転2030年予測」の検索を開始します。「これらの洞察は広い文脈を理解する上で価値がありますが、論文を書くためにはより学術的な視点を探る必要があります。理論的枠組み、倫理的考察、社会的影響、将来的な意味合いについて深く掘り下げる必要があります。学術的または研究ベースの議論を検索します」とのことです。
その後、「しかし、自動運転技術の倫理的・社会的影響についての理解にはまだギャップがある」と述べています。このツールがいかに包括的であるかがわかります。私の質問の全ての側面を理解し、適切な情報源を見つけて、バランスの取れた論文を書こうとしています。
最終的に「十分な情報を収集しました。これらの知見を基に、2030年までの自動運転の状態を予測する充実した論文を作成します」と述べ、論文の執筆を開始します。様々な情報源からの引用が多く含まれており、非常に技術的な内容となっています。
論文は最初に自律システムの技術的進化を分析し、多くの情報源からの引用を含むタイムラインを提示します。次に経済的・市場的な変革を分析し、さらに規制・法的な側面、倫理的AI、公衆の信頼について検討します。また、北米、中国、欧州を含む世界各地での採用パターンも分析し、現在の自動運転の状況と2030年の予測を行います。最後に環境的・社会的影響を検討して結論を導き出します。非常に包括的で情報満載の論文となっています。
しかも、これは完全に無料で使用できます。ぜひ活用してください。
ベンチマーク比較も見てみましょう。Perplexity Deep Researchの性能がわかります。Humanity's Last Examというベンチマークがありますが、これは誤解を招く名前です。AGIの測定や、AIが世界を支配する時期を示すものではなく、非常に専門的で知名度の低い科学分野における難しい質問のセットです。
Perplexityは2位ですが、OpenAI Deep Researchに次ぐ順位で、有料モデルのOpenAI o3 miniや、DeepSeek R1、OpenAI o1よりも優れています。ただし、これはHumanity's Last Examのみの結果であり、おそらく一般ユーザーにとってはあまり関連性がないでしょう。
Perplexity Deep Researchの驚異的な性能を示す別のベンチマークを見てみましょう。Simple QAベンチマークには、事実性をテストする数千の質問が含まれています。AIモデルを多く使用している人なら、それらが幻覚を起こしやすく、しばしば誤った情報を提供したり、情報を作り出したりすることを知っているでしょう。
Simple QAは、AIモデルの出力が事実に基づいているかどうかをテストします。Perplexity Deep Researchは、このベンチマークで他の全てのモデルを圧倒しています。もし正確性が主な関心事であり、幻覚の少ないAIモデルを求めているなら、Perplexity Deep Researchが最適な選択肢となります。
このビデオはMonicaの提供でお送りしています。Monicaは、最高のAIツールに一か所でアクセスできるAIアシスタントです。GPT、DeepSeek、Geminiなどの最高級AIモデル、Flux、Stable Diffusionなどの最高級画像生成器、Cling、Hi-laなどの最高級ビデオ生成器を含みます。
これらを個別に使用するよりもはるかに安価に、1つのプラットフォームで全てを利用できる素晴らしい取引です。デスクトップのブラウザ拡張機能として、またはモバイルデバイスで使用できます。ブラウザ拡張機能はコンテキストを認識するので、閲覧中のウェブページと直接やり取りできます。
メールへの返信や記事の要約も簡単にできます。例えば、このページを閲覧中に、ワンクリックでMonicaに技術的な記事を要約させることができます。さらに素晴らしいのは、コンテンツからマインドマップを生成できることです。これはアイデアをより視覚的に理解するのに役立ちます。
全てをコピーしてChatGPTに貼り付けて要約を依頼するよりも、はるかに便利です。YouTubeビデオの要約にもMonicaを使用できます。例えば、このYouTubeビデオを視聴中に、ワンクリックで要約やポッドキャストを生成できます。
正確なタイムスタンプ付きのハイライトリストも提供されます。さらにもう一度クリックすると、より視覚的に理解できるようにマインドマップを生成します。Monicaを使えば、全てがわずか数クリックで実現できます。
私の言葉を信じる必要はありません。世界中で1000万人以上のユーザーが使用しており、Chrome Storeでは4.9星の評価を得ています。説明欄のリンクから無料で試してみてください。アップグレードの準備ができたら、私のコードAI search 10を使用して素敵な割引を受けられます。詳細は説明欄をご確認ください。
次に、ByteDanceが今週リリースした新しいビデオモデル、Gokuを紹介します。印象的な例をいくつか見てみましょう。「中年の悲しそうなハゲ頭の男性が、巻き毛のかつらとサングラスが突然頭に落ちてきて幸せになる」というプロンプトに対して、まさにその通りの動画が生成されます。かつらとサングラスが頭に落ちてくると、彼は実際に幸せそうな表情になります。このように複雑なプロンプトでも理解して生成できます。
食事のシーンはどうでしょうか。「男性がテーブルに座って箸で麺を食べる」というプロンプトでは、非常にうまく処理されています。おいしそうな麺の丼が映っています。
より複雑なシーンや複数のオブジェクトはどうでしょうか。例えば「ゴールデンレトリバーの子犬たちが雪の中で遊ぶ」というプロンプトでも、うまく処理できています。カオスで複雑なシーンにもかかわらず、全ての子犬が一貫性を保っています。
興味深い例として、「満開の果樹園が静かに広がり、木々には花が重そうに咲き、蜂が花から花へと飛び回っている」というプロンプトがあります。確かに花々と、その周りを飛び回る多くの蜂が超リアルに生成されています。
もう1つの複雑なシーンとして、「夕暮れの浜辺で笑いながら遊ぶ友人たちを追いかけるハンドヘルドショット」があります。全員が走り回る難しいシーンにもかかわらず、顔や手足を含め、全ての人物が一貫性を保っています。
素晴らしいのは、プロンプトでカメラの動きを制御できることです。例えば「アリが巣から出てくる超クローズアップショットから、カメラが後退して丘の向こうの住宅地が見える」というプロンプトでは、まずアリの超クローズアップから始まり、その後カメラがズームアウトして背景の住宅地に焦点を当てています。非常にクールです。
もう1つの印象的な例として、「モダンで高級なホテルスイートで、カメラはリビングルームの中心から始まり、明るい色のソファや床から天井までの大きな窓などが特徴的な部屋」があります。これは完全に不動産のCMとして使用できるほどリアルです。
「明るい部屋で、白い机、ラップトップ、背景には様々なアイテムが並ぶ棚があり、女性と少年がスマートフォンを操作している」というプロンプトでは、全ての指が5本ずつあり、顔も非常に一貫性があります。これがAIによって生成されたとは判別が難しいほどです。
現在、多くのビデオ生成器が苦手とするアクションシーンもこなすことができます。「道場で武道家が素早い蹴りとパンチを繰り出す」というプロンプトでは、動きが非常に一貫しており、歪みは見られません。
風景のビデオだけでなく、縦向きのアスペクト比でビデオを生成することもできます。これはTikTokやYouTubeショーツの作成に最適です。もちろん、このツールでソーシャルメディア用の偽のインフルエンサーを簡単に生成することもできます。これはマーケティング、販売、教育に最適です。
「Goku plusへようこそ。Goku plusは、Gokuの上に構築された新しいビデオ基盤モデルファミリーで、人間と製品を含む広告シナリオを最適化して広告パフォーマンスを最大化するように特別に設計されています」
これらがAIによって生成されたとは判別不可能です。ただし、実際の人間にしては完璧すぎる外見をしているという点を除けば。
もう1つの素晴らしい点は、製品の画像をアップロードし、テキストプロンプトと組み合わせることで、その製品のビデオを生成できることです。これは、製品のビデオを作成したい企業にとって最適です。広告代理店に多額の費用を支払って撮影・制作する必要はありません。AIにプロンプトを与えるだけで、数分で製品ビデオを作成できます。
より多くの例を見てみましょう。ミニーマウス製品のような複雑なアイテムでも機能します。非常に複雑でユニークなデザインを持つ製品ですが、ビデオに非常に正確に追加できています。これらの製品も同様で、特定のテキストを含む複雑なデザインですが、シームレスにビデオに追加できています。
非常に有用なツールです。インフルエンサーの例もさらにあります。トレーニングデータをどこから入手したのか気になりますが、このツールがあれば、TikTokやYouTubeショーツ用に実際の人物を撮影する必要はありません。AIにプロンプトを与えるだけで、望むインフルエンサーに望むアクションをさせることができます。これらは全て非常にリアルです。
GitHubページでは、RunwayのGen 3、Cling、Luma、Hunenなど、他の主要なビデオ生成器とGokuを比較しています。背景の一貫性、時間的なちらつき、動きの滑らかさ、被写体の品質など、様々な指標で比較しており、Gokuは全モデルの中で最高の総合スコアを達成しています。非常に印象的です。
GitHubリポジトリがあり、「on the way」と記載されているため、オープンソース化される可能性が高いですが、現時点では使用できません。より多くの例を確認できるページにリンクを貼っておきます。アクセス可能になり次第、必ず更新をお知らせします。
他のニュースでは、私の好きなロボット企業の1つであるUnitreeが、彼らのG1ヒューマノイドロボットの新しいデモを公開しました。Unitreeは、非常に柔軟で機動性の高いロボットで知られています。現在最速で走行できるヒューマノイドロボットであるH1や、非常にアクロバティックなG1など、様々なロボットを開発しています。
今回彼らは、G1の新しいデモを公開しました。バック転や走行ではなく、今回はダンスを教えました。アルゴリズムをアップグレードしたことで、ダンスを学習できるようになったとのことです。体の動きがいかに流動的で自然であるかを見てください。これは、ゆっくりとしか歩けないFigureやTesla Optimusなど、他のロボットよりもはるかに柔軟です。これらのロボットはまだ走ることもできません。このアップグレードされたアルゴリズムによるG1の印象的なデモでした。
次に、新しい無料のオープンソース音楽生成AIを紹介します。今回はアリババのInspire Musicです。テキストプロンプトまたはオーディオプロンプトで完全な音楽を生成できます。後者については後ほど説明します。
いくつかの例を見てみましょう。イントロ、バース、コーラス、アウトロなど、音楽の構造や生成したい部分を指定できます。インストゥルメンタル、R&B、ジャズ、ロックなどのジャンルを選択し、生成したい内容を説明するプロンプトを入力するだけです。
実際にはいくつかのモデルを使用できます。後ほど詳しく説明しますが、条件付きフロー・マッチングを使用するモデルがあります。これは、生成されたオーディオを洗練して、より良い高品質な出力を生成する技術です。
このページには多くのデモがありますが、時間の都合上、理論的により良い品質を提供する条件付きフロー・マッチングを使用したモデルのみを再生します。
ジャズのバースを聴いてみましょう。プロンプトは「ボサノバのタッチが効いた、落ち着いた官能的なインストゥルメンタルジャズを体験してください。リラックスできるレストランやスパの雰囲気に最適です」です。
メタルのイントロもあります。プロンプトは「原始的なリズミカルなインストゥルメンタルをバックに、シンフォニックメタルを融合させた楽曲です。力強く、没入感のある聴覚体験を生み出します」です。
別の例として、エレクトロニックのアウトロがあります。「プログレッシブハウスの雰囲気を醸し出す電子的な要素を含む楽器」というプロンプトです。
非常に興味深い例として、ニューエイジミュージックがあります。「チャクラのバランスを整え、幸福感を高め、落ち着きを保つように設計されたインストゥルメンタル。ヨガセッションやリラクゼーションに最適です」というプロンプトです。とても素敵な曲です。
ゲーム音楽もあります。「ダイナミックなインストゥルメンタルを特徴とする、アニメとゲーム音楽のエネルギッシュなブレンド」というプロンプトです。まるで日本のアーケードにいるような雰囲気です。
先ほど言及したように、オーディオを入力として使用することもできます。まずサンプルクリップをアップロードすると、そのオリジナルサンプルから続きを生成します。後ほど説明する異なるモデルがありますが、このロングモデルは5分以上のオーディオを生成できます。これは完全な1曲を生成するのに十分な長さです。
オリジナルのオーディオプロンプトを聴いてみましょう。そして、その続きがこちらです。元のトラックの雰囲気と楽器を非常によく保持しています。
別の例も見てみましょう。これが入力オーディオで、こちらが続きです。やはり元のトラックの雰囲気をとてもよく保持しています。
素晴らしいのは、これが完全に無料でオープンソースであることです。コードはすでに公開されており、インストール手順と全てのモデルが用意されています。GitHubリポジトリをクリックすると、ローカルでのインストールと実行に関する全ての手順が記載されています。
今まで再生した例は全てインストゥルメンタルです。これは現在、テキストから音楽への生成のみをサポートしているためです。ただし、テキストから歌への機能を追加する予定があり、これによって歌詞を追加して声で歌わせることができるようになるでしょう。
スクロールすると、使用できる全てのモデルが表示されます。特に注目すべきは、5分以上の音楽を生成できるロングモデルです。これはビデオやレストランのバックグラウンドミュージックの生成に最適です。また、まだリリースされていませんが、ステレオサンプルを生成できるInspire Songモデルもあります。
歌詞のある完全な歌を生成できる無料のオープンソース音楽生成器が必要な場合、すでにその選択肢があります。Yeahと呼ばれるツールで、プロンプトでジャンルを指定できるだけでなく、歌詞を入力して誰かに歌わせることもできます。例えば、プロンプトの説明は「インスパイアリングな女性のアップリフティングボーカル」で、ここに歌詞を入力します。最初の10秒だけ再生してみましょう。これは完全に無料でオープンソースです。インストール方法の完全なチュートリアルをすでに公開していますので、まだ見ていない方はぜひチェックしてください。
Inspire Musicに戻りましょう。まだ完全な歌を生成することはできませんが、インストゥルメンタルやバックグラウンドミュージックを生成するための素晴らしい無料ツールです。
次に、非常に変わった興味深いプロジェクトを紹介します。What if Iと呼ばれるもので、基本的に仮想の眼が一から進化するコンピュータシミュレーションです。実際の動物の眼が何百万年もかけて進化してきた過程をシミュレートしようとしています。
これらの眼を様々な環境に配置し、赤色で示されているのがAIがその眼を通して見ている視界です。もちろん、AIは見えるものに応じて移動することができます。これらの環境は、科学者が眼の発達と適応を研究できる仮想のペトリ皿のようなものと考えてください。
シミュレーションは、1つの光を検知する細胞から始まります。これが最初の眼の起源だと考えられています。これらのデジタル生物は、何百万年にわたって実際の眼を形作ってきた課題に直面します。例えば、世界を航行すること、食べ物と毒物を見分けること、捕食者から逃れることなどです。彼らはこれらすべてのシナリオを作成し、多数のシミュレーションを実行しました。時間の経過とともに、AIはこれらのタスクをより上手くこなせるように学習、つまり進化していきました。
例えば、第1世代では、壁に頻繁にぶつかるなど、あまり上手くいきませんでした。しかし50世代後には、眼は航行や報酬の発見がはるかに上手くなっています。これらの眼は生存のニーズに応じて異なる発達を遂げます。例えば、ある生物は航行のために複眼を発達させ、他の生物は食べ物を見つけ毒物を避けるためにカメラ型の眼を発達させるかもしれません。
プロジェクトからのいくつかの重要な発見を紹介します。迷路内の航行のような方向付けタスクは、ハエのような複数のレンズを持つ分散型の複眼を発達させることがわかりました。これは、航行や探索を主な目的とする自動運転車やエージェントを設計する際には、この分散型の複眼が理にかなっているかもしれないことを示唆しています。
しかし、食べ物を見つけて毒物を避けたり、混沌とした環境に隠れている獲物を追跡したりするように、物体を識別する必要がある場合は、高精度のカメラ型の眼の発達につながりました。これは人間やファルコン、大型ネコなどの上位捕食者に見られる眼です。
トレードオフがあることがわかりました。生物の主な目的が環境の航行や探索である場合、複眼型を発達させますが、これは精密さには向いていません。物体の区別には適していません。対照的に、高精度のカメラ型の眼は物体の区別に優れていますが、航行や探索には複眼ほど適していません。
もう1つの興味深い発見は、視覚力と脳力が密接に結びついているということです。脳が大きくなればなるほど、少なくともある程度まで視覚は良くなります。これはAIシステムで見られるスケーリング則に類似しています。AIでは、システムにより多くの計算能力を投入すると、AIモデルはより性能が良く、つまり「知的」になります。同様に、より大きな脳、より多くの計算能力があれば、眼もより性能が良くなります。
タスクが難しくなるにつれて、視覚システムはより良くなる必要があり、視覚情報を処理するためには脳もより強力になる必要があります。珍しいけれど興味深いプロジェクトです。このプロジェクトの最も有望な成果は、自動運転車やロボットで使用できるより性能の良いAIビジョンシステムの設計に役立つ可能性があることです。
次に、ビデオを強化するための新しい無料のオープンソースツールを紹介します。Enhance a videoと適切に名付けられたこのツールは、基本的に生成されたビデオの品質を改善することができます。
これは既存のAIビデオ生成器に追加できるツールです。例えば、ここではベースモデルとしてHunenを使用しており、左側が元の生成物です。Enhanceモデルを追加すると、ビデオの詳細を追加し、修正することが非常に得意です。例えば、ハイライトされた領域では、背景がより鮮明になり、彼女の顔もより鮮明になっています。また、Hunenのビデオでは6本の指があるのに対し、ここでは5本の指になっています。
別の例では、左側の元のビデオでは、車が後ろ向きに走っており、車内に人がいません。Enhance a videoに通すと、より正確になります。車内に人がいるようで、車もまっすぐに走っています。
もう1つの例では、元のビデオはひどい状態で、彼の頭が完全に分離して下にスライドしているように見えます。一方、強化されたビデオでは、少なくとも全てが繋がっているように見えます。
前述のように、これは既存のビデオ生成器に追加できるツールです。必ずしもHunenである必要はありません。これはCog video xという別のオープンソースビデオ生成器を使用した例です。プロンプトは「極端なスローモーションで水が入った風船が破裂する」です。元のCog videoでは風船さえありませんが、この強化されたビデオはずっと正確です。
簡単に仕組みを説明すると、特別なEnhanceブロックコンポーネントを使用してビデオの品質を改善します。フレームの一貫性と詳細さを確保し、フレーム間の相互作用、つまりクロスフレーム強度を測定することでこれを実現します。この測定後、特別な温度設定を使用してこの相互作用を強化することができ、最終的にこれによってビデオがよりスムーズで一貫性のあるものになります。
素晴らしいのは、すでに無料で使用できることです。上部にGitHubリポジトリがあり、下部までスクロールすると、ローカルコンピュータでのダウンロードと実行に関する全ての手順が記載されています。
次に、さらに別のビデオ生成器を紹介しますが、こちらには多くの新機能があります。Cinemasterと呼ばれ、従来の2Dビデオ生成器とは異なり、このシステムは3D空間を理解し、それを扱うことができます。
これはどういう意味かというと、3D空間でオブジェクトを制御し、その動きを生成するビデオに適用できるということです。例えば、このオブジェクトを外側に引っ張り、ビデオ生成器にこれらのプロンプトを与えると、オブジェクトが外側に飛んでいくようなビデオが得られます。
1つのオブジェクトだけでなく、3D空間で複数のオブジェクトを操作し、それらの動きをビデオに適用することもできます。車を持った男性でも、ボートを持った男性でも、月を見つめる男性でも、3Dオブジェクトの動きを最終的なビデオに完璧にマッピングできます。
別の素晴らしい例として、左側では車が後ろから別の車を追い越すシーンがあり、3Dモデルで指定した通りの結果が得られています。または、2つの3Dモデルを重ねて配置し、「街の中でパンダがバイクを運転する」というプロンプトを与えると、このような結果になります。
また、「猫がテーブルから飛び降りる」というようなこともできます。追加の例もあります。3D空間で3Dオブジェクトを操作することで、ビデオ内でのオブジェクトの動きを制御する上で大きな柔軟性が得られます。
もちろん、このツールで3D空間を制御できるということは、カメラの動きも制御できるということです。それがどのようなものか見てみましょう。これらの例のように、カメラを最初に上に動かしてからズームインさせることができます。追加の例もあります。このツールでは、単純なパンやズームだけでなく、非常に複雑なカメラの動きを指定できることに注目してください。
簡単に仕組みを説明しましょう。まず、プロンプトは識別可能なオブジェクトに分解されます。例えば、「緑豊かな野原を赤い自転車に乗って走る女性」というプロンプトがあった場合、このAIは人物と自転車があることを検出します。
そして、3Dモデルのアニメーションも入力し、このアーキテクチャにはSemantic Layout Control Control Netと呼ばれるコアコンポーネントがあり、2つの主要な部分から構成されています。
最初の部分は、Semantic Injectorで、3Dオブジェクトの位置と関連するラベルを組み合わせます。この場合、これらのオブジェクトの1つを人物として、もう1つを自転車としてマッピングします。
その後、Diffusion Transformer Control Netを通して、この情報を処理し、メインモデルと統合します。さらに、Camera Adapterコンポーネントがあり、これはオブジェクトとカメラの動きを一緒に制御して、正確でスムーズなビデオ生成を実現します。
また今週、GPTの次のバージョンに関する新しい情報が明らかになりました。GPT 4.5とGPT 5に関するSam Altmanからの最新情報です。
「社内でOrionと呼んでいたGPT 4.5を、私たちの最後の非Chain of Thoughtモデルとしてリリースする予定です」とのことです。これは基本的に、GPT 4oのような非思考モデルで、o1やo3、DeepSeek R1のような、回答する前に考えを巡らせるモデルとは異なります。
GPT 4.5をリリースした後の重要な目標は、非思考モデルであるGPTシリーズと、思考モデルであるOシリーズを統合することです。長時間考える必要があるかどうかを判断し、一般的に幅広いタスクに役立つシステムを作ることを目指しています。これはChatGPTとAPIの両方で実現される予定です。
GPT 5は、o3を含む多くの技術を統合したシステムとしてリリースされます。o3は単独のモデルとしてはリリースされなくなります。
では、これを整理してみましょう。まず、GPT 4.5がリリースされ、これが最高かつ最後の非思考モデルとなります。その後、非思考モデルであるGPTシリーズと、思考モデルであるo1とo3を統合するシステムを作成します。
これらのシステムは、どのモデルを使用するかを自動的に判断するようです。常に長時間の思考が必要なわけではないからです。GPT 5はこれらのシステムの1つとなり、従来の非思考GPTモデルでも、OシリーズのようCな思考モデルでもなく、両者のブレンドとなります。
さらに、o3は単独のモデルとしてはリリースされなくなります。これは残念です。なぜなら、o3は少なくともこのARK AGIベンチマークにおいて、o1モデルと比べて信じられないほど強力、あるいは危険とも言えるからです。ただし、o3はGPT 5を通して使用できるようになります。
そして、ここが本当に素晴らしい部分です。ChatGPTの無料ティアでは、標準の知能設定でGPT 5に無制限にアクセスできるようになります。PlusとProのユーザーは、より高いレベルの知能を利用できます。
これらの機能がいつリリースされるかは明記されていませんが、近い将来に何が登場するのかについて、より明確な理解が得られたことと思います。
次に、On-device Soraという非常にクールなAIを紹介します。これはスマートフォンでローカルにビデオを生成できるようにするものです。ただし、あまり期待しないでください。まず、これは非常に誤解を招く名前です。
OpenAIのSoraを使用するのではなく、Op Soraと呼ばれる無料のオープンソースの代替品を使用します。これは最高の品質のモデルではありません。Op Soraが作成できる例をいくつか見てみましょう。全てのビデオでまだ歪みや不一貫性が多く見られます。
On-device Soraの動作デモをご覧ください。また、生成できる最大解像度は256x256のみであることにも注意してください。実際にビデオを生成するためにこれを使用することはお勧めしません。生成されるビデオは使用に耐える品質ではありません。
しかし、これは誰もがスマートフォンでローカルに良質なビデオを作成できる未来に向けた重要なステップだと考えています。これは疑問を投げかけます。なぜ私たちはすでにこれを実現できていないのでしょうか?なぜHunenを私のスマートフォンで実行できないのでしょうか?
問題はこうです。ローカルでビデオを生成するには、これらのモデルは全て大量のVRAMを持つGPUを必要とします。しかし、iPhone 15 Proのメモリ容量は3.3GBしかありません。これが赤い線で示されています。
OpenAIのSoraを実行したい場合でも、要件である青い棒グラフはiPhoneが扱える範囲をはるかに超えています。では、iPhoneで使用できるようにこのモデルを詰め込むにはどうすればよいのでしょうか?基本的に、モデルを小さなチャンクに分割しました。「モデルをより小さなブロックに分割し、モデル推論のために順次メモリにロードします」とのことです。
つまり、モデル全体を一度にロードするのではなく、ブロックごとにロードします。このAIシステムのアーキテクチャでは、生成をより高速で効率的にするためのかなり賢い工夫も使用しています。
例えば、Linear Proportional Leapコンポーネントを使用して、中間ステップの一部をスキップすることでビデオをより速く生成します。また、Concurrent InferenceとDynamic Loadingを使用して、複数の処理ユニットを同時に使用することでAIがより効率的にビデオを生成できるようにしています。
さらに、Temporal Dimension Token Mergingコンポーネントを使用して、より一貫性のあるスムーズなビデオを生成するのに役立てています。もちろん、チャンクに分割してiPhoneで実行できるように効率化しようとすると、品質は犠牲になります。
しかし、素晴らしいことに、品質の低下は実際には非常に最小限です。上部は、コンピュータ上でOpenAI Soraを使用したサンプル生成のフレームで、これはOpenAI Soraのフルバージョンです。下部は、iPhoneで実行されたこの新しいOn-device Soraを使用した生成です。
特に火の例では、品質の低下がかなり見られます。このキツネザルの例でも同様ですが、全体的にはこの赤い線の範囲内に全てを詰め込もうとしていることを考えると、悪くありません。
これは共有する価値のある興味深いツールだと考えました。近い将来、誰もがスマートフォンで直接良質なビデオを生成できるようになると思います。これはその最初のステップに過ぎません。
次に、1080pのビデオを作成できる非常に高速なビデオ生成器を紹介します。Flash videoと呼ばれ、実際にコンセプトは非常にシンプルです。最も単純な意味では、プロンプトを受け取って270pの低解像度ビデオを生成し、それを1080pにアップスケールします。
このプロセスにより、プロンプトから直接1080pビデオを生成する場合と比較して、生成時間が大幅に短縮されます。最終結果は非常に高精細です。例えば、「居心地の良いカフェにいるふわふわのラマ」というプロンプトでは、左側が270pの低解像度ビデオで、右側が1080pにアップスケールされたバージョンです。ラマの毛並みの信じられないほどの細部に注目してください。
別のドローンショットの例では、プロンプトが上部にあり、左側が初期の低解像度ビデオ、アップスケールして細部を強化した後の最終的な1080pバージョンが右側です。再び、全てがいかに詳細であるかに注目してください。
「明るい目を持つ猫」というプロンプトの別の例では、最終的なビデオで猫の毛並みと目の信じられないほどの品質に注目してください。非常に印象的です。
「新聞を読む知的な見た目のウサギ」という例も、最終的なビデオは非常に鮮明で詳細です。ロボット掃除機に乗った海賊の衣装を着た子猫という可愛らしい例もあり、やはり全てが非常に鮮明で詳細です。
このページには多くの例がありますので、時間の都合上、全ては紹介しません。ページの上部には、すでにコードを含むGitHubリポジトリがリリースされています。スクロールすると、ローカルコンピュータでのインストールと実行に関する全ての手順が記載されています。
いつものように、トップAIニュースとツールを見つけて皆さんと共有し続けます。このビデオを楽しんでいただけたなら、いいね、シェア、購読をお願いします。また、次のコンテンツもお楽しみに。
また、毎週AIの世界で本当に多くのことが起こっているため、YouTubeチャンネルで全てを取り上げることはできません。AIで起こっていることを本当に最新の状態に保つために、私の無料の週刊ニュースレターを購読することをお勧めします。リンクは説明欄にあります。ご視聴ありがとうございました。次回お会いしましょう。