
【生成AIニュース+】『Grok3続報2』『SwiftSketch』『WHAM』『VMS』『Hyper』『Project Starlight』『Rodin API』『Qwen2.5-VL-Instruct』『PaliGemma 2 Mix』『DeepSeek の NSA 技術』『OpenAI Operator』『laion2b-23ish-woman-solo』『Protoclone』
まいどです。
本日の生成AIニュース+テクノロジー情報です。
■Grok3続報2
Grok3の続報です。
Grok3が無料ユーザーでも利用可能になりました。
但し、無料版はβ版であり、DeepSearchもThinkも使えますが制限があります。
無料だとDeepSearchは、2時間で5回程度で、Thinkも制限ありです。
X Premium+およびSuperGrokユーザーは、音声モードなどの高度な機能への早期アクセスに加えて、Grok 3へのアクセスが拡大するそうです。
This is it: The world’s smartest AI, Grok 3, now available for free (until our servers melt).
— xAI (@xai) February 20, 2025
Try Grok 3 now: https://t.co/Tj0afLoxEz
X Premium+ and SuperGrok users will have increased access to Grok 3, in addition to early access to advanced features like Voice Mode pic.twitter.com/YgKavSCiWr
■SwiftSketch
SwiftSketch は、写真やイラストなどの画像を渡すだけで、まるでプロのアーティストが描いたような、線画のスケッチをあっという間に作り出すことができる、非常に便利なAI技術です。
しかも、1秒以内 という驚異的な速さで生成できる点が大きな特徴です。
画像からベクター形式のスケッチを、高速かつ高品質に生成する、非常に革新的なAIモデルです。
SwiftSketch can generate high-quality vector sketches from images in under a second pic.twitter.com/xLHzR6pdyF
— Dreaming Tulpa 🥓👑 (@dreamingtulpa) February 20, 2025
■WHAM
WHAM (World and Human Action Model) は、ゲームプレイ (ゲームの映像と操作) を生成するための生成モデルです。
Microsoft Research の Game Intelligence グループによって、Ninja Theory および TaiX との協力で開発されました。
簡単に言うと、WHAM は 「ゲームの映像とプレイヤーの操作をAIで生成する」 モデルです。
特に、Xbox のゲーム「Bleeding Edge」 のプレイデータを学習し、一貫性、多様性、持続性 を備えたゲームプレイ動画を生成できる点が特徴です。
If you thought AI-generated text, images, and video were cool, just imagine entire interactive environments like games! pic.twitter.com/20XV1rwjrr
— Satya Nadella (@satyanadella) February 19, 2025
■VMS
Video Model Studio (VMS) は、AIビデオモデルのトレーニングを簡単に行うためのツール です。
簡単に言うと、VMS は、Gradio というWeb UIフレームワークを使って作られたアプリケーションで、Finetrainers というAIモデルの学習ツールを使いやすくラップしたものです。
Hugging Face というAIプラットフォーム上で動作し、AIビデオモデルを学習させるための、オールインワンのスタジオ のような環境を提供します。
I'm building a web UI around Finetrainers using Gradio, to train an AI video model LoRA in a few clicks (and running inside a HF Space 🤗)
— Julian Bilcke (@flngr) February 19, 2025
Here is a shortened demo (in real-life you would use more training steps etc.. but you get the gist) pic.twitter.com/JQRPsGFxy3
■Hyper
Hyper は、GPSが使えない屋内でも、まるでGPSのように、自分の位置を正確に特定し、ナビゲーションしてくれるシステム です。
しかも、特別な機器の設置や複雑な設定は不要で、すぐに使い始められる という点が大きな魅力です。
■Project Starlight
Project Starlightは、拡散モデル(diffusion model)というAI技術を使用し、古い動画を高品質に復元するツールです。
ノイズ除去や解像度向上、シャープ化などを行い、特に歴史的な映像の復元に優れています。例えば、NASAのロケット発射映像や家庭の古い動画も対象です。
🚀 Big launch: Project Starlight 🌟 is now available!
— Topaz Labs (@topazlabs) February 19, 2025
Here are 7 iconic moments restored with Starlight 🧵👇
What will you restore?
🔗👉 https://t.co/2WIcdnL9Wc
1/7 🧵 Wright Brothers' First Flight, 1903 pic.twitter.com/9r1tOCj2cw
■Rodin API
Rodin API が ComfyUI、Unity、Unreal をサポートするようになりました。
AI を活用した 3D コンテンツをゲーム内に直接作成し、プレイヤー向けにリアルタイム生成を可能にします。
Rodin Tips #11 🔧
— Deemos (@DeemosTech) February 18, 2025
🚀 Rodin API now supports ComfyUI, Unity & Unreal!
Create AI-powered 3D content directly in your games - enabling real-time generation for your players.
Build immersive experiences with our seamless runtime integration.
#GameDev #AI3D #CG pic.twitter.com/2QtKhlqYnT
■Qwen2.5-VL-Instruct
Qwen2.5-VL-Instructは、画像も理解できるAIモデル Qwen の最新版で、画像認識能力や動画理解能力、さらに実用的な機能が大幅に向上したモデルです。
それぞれ 30億、70億、720億 のパラメータを持つモデルがリリースされており、パラメータ数が大きいほど、一般的にモデルの性能が高くなりますが、計算資源も多く必要になります。 用途や環境に合わせてモデルサイズを選択できます。
■PaliGemma 2 Mix
PaliGemma 2 Mix は、Googleが開発した画像とテキストの両方を理解できるAIモデル「PaliGemma 2」 を、様々なタスクでより高い性能を発揮できるようにfine-tuning (微調整) したバージョン です
pretrained モデルである PaliGemma 2 を基盤としつつ、より実用的なタスクに対応できるようにチューニングされており、画像認識、文書理解、テキスト認識、位置情報関連タスクなど、幅広い応用が期待されます。
■DeepSeek の NSA 技術
DeepSeek の NSA 技術は、長文テキスト処理における計算効率と速度を大幅に向上させる、画期的なブレークスルーです。
NSA技術 とは、DeepSeek という企業が開発した 「Native Sparse Attention (ネイティブ・スパース・アテンション)」 という、大規模言語モデル(LLM) が 長文テキスト を処理する際の効率性と速度を大幅に向上させる ための新しいAI技術 です。
フルアテンションに匹敵する精度を維持しながら、計算コストを大幅に削減できるため、今後の大規模言語モデル (LLM) の発展に大きく貢献する可能性を秘めています。
■OpenAI Operator
これは、OpenAI が提供する技術 (GPTモデルなど) を活用して、自律的にタスクを実行するAIエージェント のようなものです。
OpenAI Operator は、画像生成ワークフローを構築する役割を担っています。
OpenAI の技術とビジュアルプログラミングツール Flux Pro を組み合わせ、LLM でプロンプトを強化することで、画像生成AIのワークフローをAI自身が自動構築する様子を紹介する、興味深いデモンストレーションです。
■laion2b-23ish-woman-solo
このデータセットビューアは、ファッション (特にドレス) 画像の学習用データセットの内容を表示するもので、画像URL、画像サイズ、関連テキスト情報、美的スコア、安全性スコアなど、様々な情報が含まれています。
このデータセットは、画像認識・画像生成AIモデルの学習や、データセット自体の分析・評価に活用されることが想定されます。
■Protoclone
Protocloneは、Clone Roboticsが開発した世界初の二足歩行(bipedal)、筋骨格系(musculoskeletal)アンドロイド(人型ロボット)です。
このアンドロイドは、顔のない解剖学的正確な合成人間で、200以上の自由度(degrees of freedom)、1,000以上の合成筋肉(Myofibers)、500のセンサーを持つ設計です。
とうとう下半身が出来て来ましたね。
Protoclone, the world's first bipedal, musculoskeletal android. pic.twitter.com/oIV1yaMSyE
— Clone (@clonerobotics) February 19, 2025
本日は以上となります。

それでは、また。