【生成AIニュース+】『Grok3続報2』『SwiftSketch』『WHAM』『VMS』『Hyper』『Project Starlight』『Rodin API』『Qwen2.5-VL-Instruct』『PaliGemma 2 Mix』『DeepSeek の NSA 技術』『OpenAI Operator』『laion2b-23ish-woman-solo』『Protoclone』

2025年2月20日 23:06

まいどです。
本日の生成AIニュース+テクノロジー情報です。

■Grok3続報2

Grok3の続報です。
Grok3が無料ユーザーでも利用可能になりました。
但し、無料版はβ版であり、DeepSearchもThinkも使えますが制限があります。
無料だとDeepSearchは、2時間で5回程度で、Thinkも制限ありです。
X Premium+およびSuperGrokユーザーは、音声モードなどの高度な機能への早期アクセスに加えて、Grok 3へのアクセスが拡大するそうです。

This is it: The world’s smartest AI, Grok 3, now available for free (until our servers melt).

Try Grok 3 now: https://t.co/Tj0afLoxEz

X Premium+ and SuperGrok users will have increased access to Grok 3, in addition to early access to advanced features like Voice Mode pic.twitter.com/YgKavSCiWr
— xAI (@xai) February 20, 2025

■SwiftSketch

SwiftSketch は、写真やイラストなどの画像を渡すだけで、まるでプロのアーティストが描いたような、線画のスケッチをあっという間に作り出すことができる、非常に便利なAI技術です。
しかも、1秒以内という驚異的な速さで生成できる点が大きな特徴です。
画像からベクター形式のスケッチを、高速かつ高品質に生成する、非常に革新的なAIモデルです。

SwiftSketch can generate high-quality vector sketches from images in under a second pic.twitter.com/xLHzR6pdyF
— Dreaming Tulpa 🥓👑 (@dreamingtulpa) February 20, 2025

■WHAM

WHAM (World and Human Action Model) は、ゲームプレイ (ゲームの映像と操作) を生成するための生成モデルです。
Microsoft Research の Game Intelligence グループによって、Ninja Theory および TaiX との協力で開発されました。
簡単に言うと、WHAM は「ゲームの映像とプレイヤーの操作をAIで生成する」モデルです。
特に、Xbox のゲーム「Bleeding Edge」のプレイデータを学習し、一貫性、多様性、持続性を備えたゲームプレイ動画を生成できる点が特徴です。

If you thought AI-generated text, images, and video were cool, just imagine entire interactive environments like games! pic.twitter.com/20XV1rwjrr
— Satya Nadella (@satyanadella) February 19, 2025

■VMS

Video Model Studio (VMS) は、AIビデオモデルのトレーニングを簡単に行うためのツールです。
簡単に言うと、VMS は、Gradio というWeb UIフレームワークを使って作られたアプリケーションで、Finetrainers というAIモデルの学習ツールを使いやすくラップしたものです。
Hugging Face というAIプラットフォーム上で動作し、AIビデオモデルを学習させるための、オールインワンのスタジオのような環境を提供します。

I'm building a web UI around Finetrainers using Gradio, to train an AI video model LoRA in a few clicks (and running inside a HF Space 🤗)

Here is a shortened demo (in real-life you would use more training steps etc.. but you get the gist) pic.twitter.com/JQRPsGFxy3
— Julian Bilcke (@flngr) February 19, 2025

■Hyper

Hyper は、GPSが使えない屋内でも、まるでGPSのように、自分の位置を正確に特定し、ナビゲーションしてくれるシステムです。
しかも、特別な機器の設置や複雑な設定は不要で、すぐに使い始められるという点が大きな魅力です。

■Project Starlight

Project Starlightは、拡散モデル（diffusion model）というAI技術を使用し、古い動画を高品質に復元するツールです。
ノイズ除去や解像度向上、シャープ化などを行い、特に歴史的な映像の復元に優れています。例えば、NASAのロケット発射映像や家庭の古い動画も対象です。

🚀 Big launch: Project Starlight 🌟 is now available!
Here are 7 iconic moments restored with Starlight 🧵👇
What will you restore?
🔗👉 https://t.co/2WIcdnL9Wc

1/7 🧵 Wright Brothers' First Flight, 1903 pic.twitter.com/9r1tOCj2cw
— Topaz Labs (@topazlabs) February 19, 2025

■Rodin API

Rodin API が ComfyUI、Unity、Unreal をサポートするようになりました。
AI を活用した 3D コンテンツをゲーム内に直接作成し、プレイヤー向けにリアルタイム生成を可能にします。

Rodin Tips #11 🔧
🚀 Rodin API now supports ComfyUI, Unity & Unreal!

Create AI-powered 3D content directly in your games - enabling real-time generation for your players.

Build immersive experiences with our seamless runtime integration.
#GameDev #AI3D #CG pic.twitter.com/2QtKhlqYnT
— Deemos (@DeemosTech) February 18, 2025

■Qwen2.5-VL-Instruct

Qwen2.5-VL-Instructは、画像も理解できるAIモデル Qwen の最新版で、画像認識能力や動画理解能力、さらに実用的な機能が大幅に向上したモデルです。
それぞれ 30億、70億、720億のパラメータを持つモデルがリリースされており、パラメータ数が大きいほど、一般的にモデルの性能が高くなりますが、計算資源も多く必要になります。用途や環境に合わせてモデルサイズを選択できます。

■PaliGemma 2 Mix

PaliGemma 2 Mix は、Googleが開発した画像とテキストの両方を理解できるAIモデル「PaliGemma 2」を、様々なタスクでより高い性能を発揮できるようにfine-tuning (微調整) したバージョンです
pretrained モデルである PaliGemma 2 を基盤としつつ、より実用的なタスクに対応できるようにチューニングされており、画像認識、文書理解、テキスト認識、位置情報関連タスクなど、幅広い応用が期待されます。

■DeepSeek の NSA 技術

DeepSeek の NSA 技術は、長文テキスト処理における計算効率と速度を大幅に向上させる、画期的なブレークスルーです。
NSA技術とは、DeepSeek という企業が開発した「Native Sparse Attention (ネイティブ・スパース・アテンション)」という、大規模言語モデル（LLM）が長文テキストを処理する際の効率性と速度を大幅に向上させるための新しいAI技術です。
フルアテンションに匹敵する精度を維持しながら、計算コストを大幅に削減できるため、今後の大規模言語モデル (LLM) の発展に大きく貢献する可能性を秘めています。

■OpenAI Operator

これは、OpenAI が提供する技術 (GPTモデルなど) を活用して、自律的にタスクを実行するAIエージェントのようなものです。
OpenAI Operator は、画像生成ワークフローを構築する役割を担っています。
OpenAI の技術とビジュアルプログラミングツール Flux Pro を組み合わせ、LLM でプロンプトを強化することで、画像生成AIのワークフローをAI自身が自動構築する様子を紹介する、興味深いデモンストレーションです。

■laion2b-23ish-woman-solo

このデータセットビューアは、ファッション (特にドレス) 画像の学習用データセットの内容を表示するもので、画像URL、画像サイズ、関連テキスト情報、美的スコア、安全性スコアなど、様々な情報が含まれています。
このデータセットは、画像認識・画像生成AIモデルの学習や、データセット自体の分析・評価に活用されることが想定されます。

■Protoclone

Protocloneは、Clone Roboticsが開発した世界初の二足歩行（bipedal）、筋骨格系（musculoskeletal）アンドロイド（人型ロボット）です。
このアンドロイドは、顔のない解剖学的正確な合成人間で、200以上の自由度（degrees of freedom）、1,000以上の合成筋肉（Myofibers）、500のセンサーを持つ設計です。
とうとう下半身が出来て来ましたね。

Protoclone, the world's first bipedal, musculoskeletal android. pic.twitter.com/oIV1yaMSyE
— Clone (@clonerobotics) February 19, 2025

本日は以上となります。

それでは、また。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

47,844件