見出し画像

【生成AIニュース+】『FreePikでVeo2』『Operator』『NVIDIA Isaac Sim』『Pikaswaps』『WanX 2.1』『SmolVLM2』『Set-and-Sequence』『AlphaMaze』『Open Source Week』『Helix』『Magma』

まいどです。
本日の生成AIニュース+テクノロジー情報。


■FreePikでVeo2

GoogleとFreePikが提携し、話題のGoogleの最新の動画生成AIモデルであるVeo2が搭載されました。
なんと、ここでVeo2が使えるようになるとは思っていませんでした。
FreePikを選ぶのにとても有力なモデルです。

https://www.freepik.com/ai


■Operator

ChatGPTのAIエージェント「Operator」が日本で利用可能になりました。
これまではUS限定で、その性能がありつつも日本では使えなかったOperatorですが、日本のProユーザー向けに提供を開始しました。
SNSの自動投稿や、ネットショッピング、営業メール自動送信や自動メール対応などが可能になります。


■NVIDIA Isaac Sim

NVIDIA Isaac Simは、NVIDIAが開発したリファレンスアプリケーションで、NVIDIA Omniverse(3Dコラボレーションとシミュレーションプラットフォーム)を基盤に構築されています。
このツールは、物理的に正確な仮想環境でロボットやAIシステムをシミュレートし、テストできるように設計されています。
これにより、開発者は現実世界でのテスト前に、ロボットの動作やAIアルゴリズムを仮想空間で検証・最適化できます。


■Pikaswaps

Pikaswapsは、Pika Labsが開発したAIを活用した動画編集ツールの新機能で、動画内の特定の要素(オブジェクト、人物、背景など)を、アップロードした写真やテキストによる説明(プロンプト)を使って簡単に交換・置換できるものです。
このツールは、動画編集やビジュアルエフェクトの分野に革命をもたらす可能性があり、特に広告やコンテンツ作成での利用が注目されています。


■WanX 2.1

WanX(Tongyi Wanxiang)は、Alibaba Cloudが開発するマルチモーダルAIモデルで、テキストから高品質な画像や動画を生成する能力を持つものです。
最新バージョン「WanX 2.1」は、リアルな動画生成、テキスト効果のサポート、オープンソース化という特徴を持ち、クリエイティブ産業や研究者に大きな影響を与える可能性があります。
このツールは、Alibaba CloudのModel Studioを通じて無料で利用可能であり、近日中にオープンソースとして公開される予定です。
VBench のビデオ モデル ランキングでSoraを上回っているそうです。


■SmolVLM2

SmolVLM2 は、動画理解AI をどんなデバイスでも使えるようにすることを目指して開発された、非常に軽量で高性能な新しいAIモデルです。
2.2B , 500M, 256M という 非常に小さいサイズ のモデルが用意されています。
特に 500M と 256M モデルは、これまでリリースされた中で最も小さい動画言語モデル です。
サイズは小さいにもかかわらず、既存のモデルと比較して、メモリ消費量あたりの性能が非常に高いです。
動画理解のベンチマーク Video-MME では、20億パラメータ規模の既存モデルに匹敵する性能を発揮し、さらに小さいモデル群では トップの性能を誇ります。


■Set-and-Sequence

Set-and-Sequenceは、動画生成AIモデルをパーソナライズ(特定の対象やスタイルを学習させること)するための新しいフレームワークです。特に、動きのある概念(例:炎、波、煙など)を学習させることに特化しています。
Set-and-Sequenceは、2段階で「動きのある概念」を学習させます。
動画から抽出したバラバラの静止画像を使って、LoRAで外見の特徴を学習します。
動きの情報がない静止画像を使うことで、AIは外見だけに集中して学習できます。
次に、外見の学習で得られたLoRAを固定し、動画全体のシーケンスを使って、動きの特徴を学習します。
そうして「動きのある概念」をより自然に、そして編集しやすい形で表現します。


■AlphaMaze

AlphaMaze は、大規模言語モデル (LLM) に 「視覚的な思考能力」 を教えるための新しい手法と、その手法で訓練されたAIモデルの名前です。
従来、LLMはテキスト処理に特化していましたが、AlphaMaze は、LLMがまるで目で見ているかのように空間を理解し、推論する能力を高めることを目指しています。
AlphaMaze の最大の特徴は、画像を使わず、すべてテキストだけで表現された迷路 を解かせるというユニークなアプローチです。
オープンソースでモデルとデータセットが公開されているため、研究者や開発者が容易に試したり、研究に活用したりできます。


■Open Source Week

DeepSeekが「Open Source Week」を開始し、次週に5つのコードリポジトリをオープンソース化することを発表しています。
DeepSeekは小さなチームながらAG(人工一般知能)の探索に取り組み、実運用でテストされたコードを透明性高く共有することで、AIコミュニティ全体のイノベーションを加速させようとしています。


■Helix

Helixは、Figureが自社開発した「Vision-Language-Action(VLA)」モデルと呼ばれるAIで、人間のように推論(reasoning)し、家庭環境での多様なタスクを遂行する能力を持っています。
ロボティクスを家庭に導入するためには、従来の限定的な能力を超える「飛躍的な進歩(step change in capabilities)」が必要だとし、Helixはその実現を担います。
家庭用ロボットが人間のように推論し、未知のタスクやオブジェクトに対応できるAIで、Figureの次世代ロボティクスを牽引する技術です。


■Magma

Magmaは、Microsoft Researchが発表した自律的に行動できる新しいAIエージェントで、ウェブブラウザ操作やロボット制御など、ソフトウェアとロボットを制御できるという、非常に興味深い能力を持つAIです。
視覚情報処理と言語処理を高度に統合した、新しいタイプのAIモデルで、テキスト、画像、動画などのマルチモーダルデータ を処理し、空間を認識するように計画的に行動する「空間的知能」を兼ね備えています。
UI操作やロボット制御といった複雑なタスクをこなすことが期待され、今後来週にもコードがGitHubで公開される予定とのことです。


本日は以上となります。

SeaArtAI

それでは、また。

いいなと思ったら応援しよう!

この記事が参加している募集