【AIの新時代】OpenAIの「Sora」とGoogleの「Gemini 1.5 Pro」革命OpenAIがSoraを紹介

2024年2月17日 10:17

この記事は、以下の方に特にお勧めです

AI技術に関心がある方
最新のテックトレンドに敏感な開発者や研究者
ビジネスでAIを活用したい企業経営者
教育や創造的業務にAIの可能性を探求したい方
AIの倫理的な使用について学びたい方

要約

OpenAIがテキストからビデオを生成する「Sora」を発表し、Googleは高性能AI「Gemini 1.5 Pro」をリリースしました。Metaの新AIはビデオ視聴から学習し、AppleはGitHub Copilotに対抗するツールを準備中。これらの進化はAI技術の新たな境界を押し広げ、創造性と効率の向上を約束します。

OpenAIがSoraを紹介、そのテキストからビデオへのAIモデル🤯 GoogleはGemini 1.5 Proをリリース

サイード・エザティ 2024年2月16日記事の翻訳

本日のメールで： 👀 Metaの新しいAIモデルは、ビデオを見ることで学習します

🤔 サム・オルトマンは、現在のChatGPTを「かろうじて役に立つ携帯電話」に例えています

🧑‍💻 Appleは、MicrosoftのGitHub Copilotに対抗するAIツールを準備中

🧰 11の新しいAIパワードツールとリソース。ツールの完全なリストについては、オンラインバージョンを確認してください。

サインアップ | 広告掲載 | ChatGPT | オンラインで読む

主要ニュース

OpenAIがSoraを紹介、そのテキストからビデオへのAIモデル

OpenAIは、テキストプロンプトを最大1分間の写真リアリズムの動画に変換する新しいビデオ生成モデル「Sora」を発表しました。Soraは、複数のキャラクター、特定の種類の動き、および非常に詳細な背景を特徴とする複雑なシーンを生成する能力で際立っています。物体が物理的な世界でどのように相互作用するかを理解するように設計されており、魅力的なキャラクターと生き生きとした感情を含むビデオを作成します。この革新は、以前のテキストから画像へのモデルからの顕著な前進を示し、AI生成コンテンツの境界を押し広げることへのOpenAIのコミットメントを示しています。

進んだ機能を持っているにもかかわらず、Soraは複雑なシーンの物理をシミュレートしたり、原因と結果を正確に解釈したりすることに関連する課題があります。OpenAIの紹介資料は、シーン内で時々非現実的な動きが発生する可能性のあるモデルの潜在的な癖を強調しています。それでも、ゴールドラッシュ中のカリフォルニアの空中視点や東京の電車内からの視点を含む提供された例は、没入型で想像力豊かなビデオを作成するSoraの印象的な能力を示しています。

現在、Soraは限定リリースフェーズにあり、評価とフィードバックの目的で選択されたテスターとクリエイターのみがアクセスできます。この慎重なアプローチは、写真リアリズムのAIビデオを生成することに関連する潜在的なリスクと倫理的配慮に対するOpenAIの認識を反映しています。AI生成コンテンツの悪用に関する懸念を受けて、OpenAIは公衆の認識と信頼に対する偽のAI生成イメージの影響を軽減するための安全対策、例えばウォーターマーキングを探求し続けています。

Metaの新しいAIモデルは、動画を見ることで学習します

ビジュアルを基盤としたビジネスとテクノロジーのニュースレター最新のビジネス、ファイナンス、テクノロジーのニュースをビジュアルとデータで解説します。📊
読むのに5分未満の無料ニュースレター。🗞
時間を節約し、今日からより情報通になりましょう。👇
サインアップ
Metaの新しいAIモデルはビデオを見ることで学習します

MetaのAI研究者たちは、書かれた言葉ではなくビデオから学習するよう設計された「Video Joint Embedding Predictive Architecture (V-JEPA)」と呼ばれる新しいモデルを開発しました。マスクされた文を用いて大規模言語モデル（LLM）を訓練する技術に触発され、V-JEPAはビデオ映像に同様のアプローチを適用し、画面の一部をマスキングして視覚的コンテキストを通じて世界について学びます。この生成型ではないモデルは、オブジェクト間の複雑な相互作用を理解することに優れた、世界の内部モデルを構築することを目指しています。MetaのFAIRグループを率いるヤン・ルカンは、内部モデルを形成して効率的にタスクを完了する、人間のように学習し適応する機械知能を作ることを目標として強調しています。
V-JEPAの影響はMetaを超えて広がり、より広いAIエコシステムを変革する可能性があります。これはMetaの拡張現実（AR）グラスのビジョンと一致し、すでに存在する音声・視覚に基づく世界の理解を持つAIアシスタントを提供し、ユーザーの独自の環境に迅速に適応できます。さらに、V-JEPAはより効率的なAIトレーニング方法につながる可能性があり、基礎モデルを開発する際の時間、コスト、生態学的影響を削減します。このアプローチはAI開発を民主化し、小規模な開発者がより能力の高いモデルを訓練できるようになり、Metaのオープンソース研究の戦略を反映します。
Metaは、音声を統合することでV-JEPAを強化し、モデルが学習するための別のデータ層を追加する予定です。これは、無声テレビを見ることから音声とともにコンテキストを理解する子どもの学習進行に似ています。同社は、研究者がその能力を探求し拡大することを奨励し、視覚と音声の両方から学習するモデルを可能にすることで、人工一般知能に向けた進歩を加速させる可能性があるV-JEPAをクリエイティブ・コモンズの非商用ライセンスの下でリリースすることを目指しています。

GoogleはGemini 1.5 Proをリリースしました - 10Mトークンのコンテキスト長を持つ高度に能力のあるマルチモーダルモデル

Googleは最近、AIモデルシリーズの次世代であるGemini 1.5の発売を発表し、パフォーマンスと効率性の顕著な進歩を示しました。安全性と革新性を核として開発されたGemini 1.5は、中サイズのマルチモーダルモデル1.5 Proを含み、処理能力に劇的な改善をもたらし、最大100万トークンのコンテキストウィンドウを誇ります。この強化により、モデルは様々なモダリティを通じて大量の情報を処理し理解する能力を持ち、開発者や企業顧客にとってより有用になります。エキスパートの混合アーキテクチャの導入により、そのトレーニングと提供の効率がさらに向上しました。

Gemini 1.5 Proが広範なデータセットを扱える能力により、複雑な推論タスクの実行、大量のコンテンツの分析と要約、テキスト、コード、画像、オーディオ、ビデオを含む異なるモダリティを横断したより関連性の高い問題解決に取り組むことができます。この能力は、1時間に及ぶビデオ、大規模なコードベース、歴史的イベントの詳細なトランスクリプトなどのコンテンツを処理し、その内容について推論する能力を通じて示されます。ユーザー体験と計算効率の向上に焦点を当て、Googleは100万トークンのコンテキストウィンドウへの完全なアクセスを展開する計画であり、遅延と計算要件を削減するための最適化に取り組んでいます。

責任ある展開を確実にするため、Gemini 1.5は広範な倫理と安全性のテストを受けており、GoogleのAI原則に沿っています。モデルの開発は、潜在的な害に対する厳格なテストを通じてAIシステムの継続的な改善と、モデルのガバナンスプロセスに安全対策を統合することを強調しています。Googleは、Gemini 1.5 Proの限定プレビューを開発者と企業顧客に提供しており、価格設定の層を導入しモデルの能力をさらに向上させる計画を持っています。このステップはAIの顕著な進歩を示しており、責任を持って効率的にAI技術を使用して創造、発見、構築するための新たな可能性を開きます。