Amazon Nova の概要

2024年12月4日 07:31

以下の記事が面白かったので、簡単にまとめました。

・Introducing Amazon Nova, our new generation of foundation models

1. Amazon Nova

「Amazon Nova」は、テキスト・画像・動画をプロンプトとして処理する機能により、動画・グラフ・ドキュメントを理解したり、動画やその他のマルチメディアコンテンツを生成したりできるモデルです。

「Amazon Bedrock 」で利用できるモデルは、次のとおりです。

・Amazon Nova Micro
非常に低コストで最低のレイテンシー応答を提供するテキストのみのモデル
・Amazon Nova Lite
画像・動画・テキスト入力を超高速で処理する、非常に低コストのマルチモーダルモデル
・Amazon Nova Pro
幅広いタスクに対応する精度、速度、コストの最適な組み合わせを備えた、高性能なマルチモーダルモデル
・Amazon Nova Premier
複雑な推論タスクに対応し、カスタムモデルを抽出するための最適な教師として使用できる、Amazonのマルチモーダルモデルの中で最も優れた機能を備えているモデル (2025年第1四半期に利用可能)
・Amazon Nova Canvas
最先端の画像生成モデル
・Amazon Nova Reel
最先端の動画生成モデル

「Amazon Nova Reel」は、単一画像入力を「dolly forward」というプロンプト付きの短い動画に変換します。

2. Amazon Novaモデルが顧客にもたらすメリット

「Amazon Nova」は、非常に高性能で、高速、コスト効率に優れ、顧客のシステムやデータで簡単に使用できるように設計されています。200の言語と複数のモダリティにわたる幅広いタスクをサポートしています。

「Amazon Nova Micro」「Amazon Nova Lite」「Amazon Nova Pro」は、「Amazon Bedrock」のそれぞれのインテリジェンスクラスで最高のパフォーマンスを発揮するモデルよりも少なくとも75%安価です。また、「Amazon Bedrock」のそれぞれのインテリジェンスクラスで最速でもあります。

「Amazon Nova」は、大手AI企業や Amazon の高性能FMを単一のAPIを通じて利用できるようにするフルマネージドサービスであるAmazon Bedrockと統合されています。「Amazon Bedrock」を使用すると、ユーザーは「Amazon Nova」やその他のFMを簡単に試して評価し、アプリケーションに最適なモデルを決定できます。

「Amazon Nova」は、ファインチューニングもサポートしています。ユーザー独自のデータ (テキスト、画像、動画を含む) から何が最も重要であるかを学習し、その後、「Amazon Bedrock」は、カスタマイズされた応答を提供するプライベートなモデルを学習します。

「Amazon Nova」は、蒸留もサポートしています。蒸留により、より大規模で高性能な「教師モデル」から、精度が高く、実行速度とコストも低い、より小規模で効率的なモデルに特定の知識を転送できます。

「Amazon Nova」は、Amazon Bedrockナレッジベースと統合されており、RAGに優れているため、ユーザーは組織独自のデータに基づいて応答を基盤とすることで最高の精度を確保できます。

「Amazon Nova」は、複数のAPIを介して組織の独自のシステムやデータとやり取りし、複数のステップのタスクを実行する必要があるエージェントアプリケーションで使いやすく効果的になるように最適化されています。

3. コンテンツ生成

「Amazon Nova Canvas」と「Amazon Nova Reel」は、Amazon広告で出品者と広告主の障壁を取り除き、初めての動画広告の使用、カタログ内のより多くの商品を対象としたディスプレイキャンペーンや動画キャンペーンの作成、キーワードレベルのクリエイティブなどの新しい戦略の実験など、新しいレベルの創造性とイノベーションにつながるよう支援しています。

平均して、これらのツールを使用するブランドは、広告する商品ごとに5倍の商品と2倍の画像の広告を行い、最良の結果をもたらすものに予算をシフトしています。

この例では、Amazon広告は「Amazon Nova Reel」を使用して、架空の箱入りパスタブランドの動画広告を作成しました。風変わりな「パスタシティ」では、建物は高くそびえるカネロニヌードルのチューブで彫刻され、近隣にはイタリアンスパイスの景観が散りばめられ、通りには風味豊かなマリナラソース、フジッリヌードル、柔らかいミートボールが並んでいます。この広告は、広告主が「Amazon Nova」を使用して自社の製品に命を吹き込み、高品質のコンテンツを作成できる方法の例です。

4. 動画理解

「Amazon Nova Pro」の動画理解をテストするために、モデルに12 秒間の無音のフットボールの動画をレビューして説明してもらいました。結果は、チームのジャージ、ヘルメット、フォーメーション、フィールドでの動き、パスやタックルで実際に何が起こったかなど、フットボールのプレーの詳細な説明を提供しました。

・プロンプト
動画について説明してください。

・出力
この動画は、2つのチームが緑のフィールドで試合中のフットボールの試合を描いています。最初、両チームは古典的なフォーメーションで配置され、両チームの選手が互いに向き合ってプレーの準備ができています。選手はヘルメットとジャージを身に着けており、正式な試合であることを示しています。動画が進むにつれて、攻撃チームがパスを実行し、防御チームがタックルするプレーが始まります。アクションは激しく、フットボールに固有の肉体と戦略を示しています。カメラは空中からの視点でプレーを捉え、フィールドと選手の動きをはっきりと見ることができます。

5. 素材生成

視覚的な理解は、顧客が追加のクリエイティブな素材を生み出すのにも役立ちます。たとえば、「Amazon Nova Pro」は、フットボールの試合の同じ動画に対して、以下のようなソーシャルメディアのキャプションをいくつか提案しました。

6. 今後の展開

2025年には、speech-to-speechモデル と any-to-any モデルを含む、2つの「Amazon Nova」モデルを導入する予定です。speech-to-speechモデルは、自然言語でのストリーミング音声入力を理解し、言語的および非言語的な手がかり (トーンやリズムなど) を解釈し、人間のような自然な対話を実現します。一方、any-to-anyモデルは、テキスト、画像、オーディオ、動画を入力と出力の両方で処理できます。これにより、同じモデルを使用して、あるモダリティから別のモダリティへのコンテンツの翻訳、コンテンツの編集、すべてのモダリティを理解して生成できる AIエージェントの強化など、さまざまなタスクを実行できるアプリケーションの開発が簡素化されます。

7. 責任あるAI

「Amazon Nova」は、統合された安全対策と保護機能を備えて構築されています。「Amazon Nova」用のAWS AIサービスカードを開始し、ユースケース、制限、責任ある AI の実践に関する透明な情報を提供しています。