【生成AIニュース+】『FreePikでVeo2』『Operator』『NVIDIA Isaac Sim』『Pikaswaps』『WanX 2.1』『SmolVLM2』『Set-and-Sequence』『AlphaMaze』『Open Source Week』『Helix』『Magma』

2025年2月21日 22:17

まいどです。
本日の生成AIニュース+テクノロジー情報。

■FreePikでVeo2

GoogleとFreePikが提携し、話題のGoogleの最新の動画生成AIモデルであるVeo2が搭載されました。
なんと、ここでVeo2が使えるようになるとは思っていませんでした。
FreePikを選ぶのにとても有力なモデルです。

Veo 2 is here, first on Freepik worldwide

Google partners with us to debut the most advanced AI video model.
Unmatched realism, precision, and smooth animations.

Run! The first 10K users will get 2 free generations. pic.twitter.com/9VaR4pOEQ3
— Freepik (@freepik) February 21, 2025

https://www.freepik.com/ai

■Operator

ChatGPTのAIエージェント「Operator」が日本で利用可能になりました。
これまではUS限定で、その性能がありつつも日本では使えなかったOperatorですが、日本のProユーザー向けに提供を開始しました。
SNSの自動投稿や、ネットショッピング、営業メール自動送信や自動メール対応などが可能になります。

【朗報】OpenAIのAIエージェント『Operator』、日本で提供開始！

OpenAIは、これまでUS限定だったWebタスクを自動化するAIエージェント「Operator」の提供範囲を拡大し、日本のProユーザー向けに提供を開始しました。

楽天市場や食べログが選択肢に追加され日本向けにローカライズされています！ pic.twitter.com/sdxRuIQfW2
— ChatGPT研究所 (@ctgptlb) February 21, 2025

■NVIDIA Isaac Sim

NVIDIA Isaac Simは、NVIDIAが開発したリファレンスアプリケーションで、NVIDIA Omniverse（3Dコラボレーションとシミュレーションプラットフォーム）を基盤に構築されています。
このツールは、物理的に正確な仮想環境でロボットやAIシステムをシミュレートし、テストできるように設計されています。
これにより、開発者は現実世界でのテスト前に、ロボットの動作やAIアルゴリズムを仮想空間で検証・最適化できます。

Building AI robots costs millions of dollars.

Most engineers spend years just to build basic prototypes.

Today, we launched NVIDIA Isaac Sim on Open GRID - making advanced robotics possible from your laptop.

Here's how we're transforming a $200B industry: pic.twitter.com/O4s4Xy6t5F
— Ashish Kapoor (@akapoor_av8r) February 19, 2025

■Pikaswaps

Pikaswapsは、Pika Labsが開発したAIを活用した動画編集ツールの新機能で、動画内の特定の要素（オブジェクト、人物、背景など）を、アップロードした写真やテキストによる説明（プロンプト）を使って簡単に交換・置換できるものです。
このツールは、動画編集やビジュアルエフェクトの分野に革命をもたらす可能性があり、特に広告やコンテンツ作成での利用が注目されています。

Pika strikes again with Pikaswaps...

You can now replace literally anything in your videos.

This is a game changer for advertising.

Just check by yourself. pic.twitter.com/4Z7yAT5pTz
— Quentin Peccoux (@qpcx220) February 20, 2025

🚀 HUGE: Pika just dropped Pikaswaps - their insane new AI magic wand! 🪄

Got early access as a Pika creative partner and it's MIND-BLOWING! 🤯

Simply use prompts or brush to select any object/area/background - swap & edit ANYTHING you want! Point & transform! ✨@pika_labs pic.twitter.com/8yTY5m3UJV
— padphone (@lepadphone) February 20, 2025

■WanX 2.1

WanX（Tongyi Wanxiang）は、Alibaba Cloudが開発するマルチモーダルAIモデルで、テキストから高品質な画像や動画を生成する能力を持つものです。
最新バージョン「WanX 2.1」は、リアルな動画生成、テキスト効果のサポート、オープンソース化という特徴を持ち、クリエイティブ産業や研究者に大きな影響を与える可能性があります。
このツールは、Alibaba CloudのModel Studioを通じて無料で利用可能であり、近日中にオープンソースとして公開される予定です。
VBench のビデオモデルランキングでSoraを上回っているそうです。

🌟 Big News from @alibaba_cloud! 🌟
Meet WanX - our next-gen AI model redefining video generation !

🚀 Presenting mind-blowing demos from WanX 2.1！

🔥 Even more exciting:
WanX 2.1 will be OPEN-SOURCE !
Coming soon …#AIart #OpenSource pic.twitter.com/R1laOyJYAL
— WanX (@Alibaba_WanX) February 20, 2025

■SmolVLM2

SmolVLM2 は、動画理解AI をどんなデバイスでも使えるようにすることを目指して開発された、非常に軽量で高性能な新しいAIモデルです。
2.2B , 500M, 256M という非常に小さいサイズのモデルが用意されています。
特に 500M と 256M モデルは、これまでリリースされた中で最も小さい動画言語モデルです。
サイズは小さいにもかかわらず、既存のモデルと比較して、メモリ消費量あたりの性能が非常に高いです。
動画理解のベンチマーク Video-MME では、20億パラメータ規模の既存モデルに匹敵する性能を発揮し、さらに小さいモデル群ではトップの性能を誇ります。

Holy shit! Did we just open-source the smallest video-LM in the world? SmolVLM2 is runnning natively on your iPhone 🚀 https://t.co/UtRJFw3DHv pic.twitter.com/rGtGVcRpwn
— Miquel Farré (@micuelll) February 20, 2025

■Set-and-Sequence

Set-and-Sequenceは、動画生成AIモデルをパーソナライズ（特定の対象やスタイルを学習させること）するための新しいフレームワークです。特に、動きのある概念（例：炎、波、煙など）を学習させることに特化しています。
Set-and-Sequenceは、2段階で「動きのある概念」を学習させます。
動画から抽出したバラバラの静止画像を使って、LoRAで外見の特徴を学習します。
動きの情報がない静止画像を使うことで、AIは外見だけに集中して学習できます。
次に、外見の学習で得られたLoRAを固定し、動画全体のシーケンスを使って、動きの特徴を学習します。
そうして「動きのある概念」をより自然に、そして編集しやすい形で表現します。

this looks insane, snapchat just dropped Dynamic Concepts Personalization from Single Videos

propose a new technique for personalizing text-to-video models, enabling them to capture, manipulate and combine Dynamic Concepts. pic.twitter.com/zgDRPsCqe4
— AK (@_akhaliq) February 21, 2025

■AlphaMaze

AlphaMaze は、大規模言語モデル (LLM) に「視覚的な思考能力」を教えるための新しい手法と、その手法で訓練されたAIモデルの名前です。
従来、LLMはテキスト処理に特化していましたが、AlphaMaze は、LLMがまるで目で見ているかのように空間を理解し、推論する能力を高めることを目指しています。
AlphaMaze の最大の特徴は、画像を使わず、すべてテキストだけで表現された迷路を解かせるというユニークなアプローチです。
オープンソースでモデルとデータセットが公開されているため、研究者や開発者が容易に試したり、研究に活用したりできます。

■Open Source Week

DeepSeekが「Open Source Week」を開始し、次週に5つのコードリポジトリをオープンソース化することを発表しています。
DeepSeekは小さなチームながらAG（人工一般知能）の探索に取り組み、実運用でテストされたコードを透明性高く共有することで、AIコミュニティ全体のイノベーションを加速させようとしています。

🚀 Day 0: Warming up for #OpenSourceWeek!

We're a tiny team @deepseek_ai exploring AGI. Starting next week, we'll be open-sourcing 5 repos, sharing our small but sincere progress with full transparency.

These humble building blocks in our online service have been documented,…
— DeepSeek (@deepseek_ai) February 21, 2025

■Helix

Helixは、Figureが自社開発した「Vision-Language-Action（VLA）」モデルと呼ばれるAIで、人間のように推論（reasoning）し、家庭環境での多様なタスクを遂行する能力を持っています。
ロボティクスを家庭に導入するためには、従来の限定的な能力を超える「飛躍的な進歩（step change in capabilities）」が必要だとし、Helixはその実現を担います。
家庭用ロボットが人間のように推論し、未知のタスクやオブジェクトに対応できるAIで、Figureの次世代ロボティクスを牽引する技術です。

Meet Helix, our in-house AI that reasons like a human

Robotics won't get to the home without a step change in capabilities

Our robots can now handle virtually any household item: pic.twitter.com/Wsx5s8Qelc
— Figure (@Figure_robot) February 20, 2025

■Magma

Magmaは、Microsoft Researchが発表した自律的に行動できる新しいAIエージェントで、ウェブブラウザ操作やロボット制御など、ソフトウェアとロボットを制御できるという、非常に興味深い能力を持つAIです。
視覚情報処理と言語処理を高度に統合した、新しいタイプのAIモデルで、テキスト、画像、動画などのマルチモーダルデータを処理し、空間を認識するように計画的に行動する「空間的知能」を兼ね備えています。
UI操作やロボット制御といった複雑なタスクをこなすことが期待され、今後来週にもコードがGitHubで公開される予定とのことです。

本日は以上となります。

それでは、また。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

48,039件