見出し画像

【生成AIニュース+】『Grok3続報2』『SwiftSketch』『WHAM』『VMS』『Hyper』『Project Starlight』『Rodin API』『Qwen2.5-VL-Instruct』『PaliGemma 2 Mix』『DeepSeek の NSA 技術』『OpenAI Operator』『laion2b-23ish-woman-solo』『Protoclone』

まいどです。
本日の生成AIニュース+テクノロジー情報です。


■Grok3続報2

Grok3の続報です。
Grok3が無料ユーザーでも利用可能になりました。
但し、無料版はβ版であり、DeepSearchもThinkも使えますが制限があります。
無料だとDeepSearchは、2時間で5回程度で、Thinkも制限ありです。
X Premium+およびSuperGrokユーザーは、音声モードなどの高度な機能への早期アクセスに加えて、Grok 3へのアクセスが拡大するそうです。


■SwiftSketch

SwiftSketch は、写真やイラストなどの画像を渡すだけで、まるでプロのアーティストが描いたような、線画のスケッチをあっという間に作り出すことができる、非常に便利なAI技術です。
しかも、1秒以内 という驚異的な速さで生成できる点が大きな特徴です。
画像からベクター形式のスケッチを、高速かつ高品質に生成する、非常に革新的なAIモデルです。


■WHAM

WHAM (World and Human Action Model) は、ゲームプレイ (ゲームの映像と操作) を生成するための生成モデルです。
Microsoft Research の Game Intelligence グループによって、Ninja Theory および TaiX との協力で開発されました。
簡単に言うと、WHAM は 「ゲームの映像とプレイヤーの操作をAIで生成する」 モデルです。
特に、Xbox のゲーム「Bleeding Edge」 のプレイデータを学習し、一貫性、多様性、持続性 を備えたゲームプレイ動画を生成できる点が特徴です。


■VMS

Video Model Studio (VMS) は、AIビデオモデルのトレーニングを簡単に行うためのツール です。
簡単に言うと、VMS は、Gradio というWeb UIフレームワークを使って作られたアプリケーションで、Finetrainers というAIモデルの学習ツールを使いやすくラップしたものです。
Hugging Face というAIプラットフォーム上で動作し、AIビデオモデルを学習させるための、オールインワンのスタジオ のような環境を提供します。


■Hyper

Hyper は、GPSが使えない屋内でも、まるでGPSのように、自分の位置を正確に特定し、ナビゲーションしてくれるシステム です。
しかも、特別な機器の設置や複雑な設定は不要で、すぐに使い始められる という点が大きな魅力です。


■Project Starlight

Project Starlightは、拡散モデル(diffusion model)というAI技術を使用し、古い動画を高品質に復元するツールです。
ノイズ除去や解像度向上、シャープ化などを行い、特に歴史的な映像の復元に優れています。例えば、NASAのロケット発射映像や家庭の古い動画も対象です。


■Rodin API

Rodin API が ComfyUI、Unity、Unreal をサポートするようになりました。
AI を活用した 3D コンテンツをゲーム内に直接作成し、プレイヤー向けにリアルタイム生成を可能にします。


■Qwen2.5-VL-Instruct

Qwen2.5-VL-Instructは、画像も理解できるAIモデル Qwen の最新版で、画像認識能力や動画理解能力、さらに実用的な機能が大幅に向上したモデルです。
それぞれ 30億、70億、720億 のパラメータを持つモデルがリリースされており、パラメータ数が大きいほど、一般的にモデルの性能が高くなりますが、計算資源も多く必要になります。 用途や環境に合わせてモデルサイズを選択できます。


■PaliGemma 2 Mix

PaliGemma 2 Mix は、Googleが開発した画像とテキストの両方を理解できるAIモデル「PaliGemma 2」 を、様々なタスクでより高い性能を発揮できるようにfine-tuning (微調整) したバージョン です
pretrained モデルである PaliGemma 2 を基盤としつつ、より実用的なタスクに対応できるようにチューニングされており、画像認識、文書理解、テキスト認識、位置情報関連タスクなど、幅広い応用が期待されます。


■DeepSeek の NSA 技術

DeepSeek の NSA 技術は、長文テキスト処理における計算効率と速度を大幅に向上させる、画期的なブレークスルーです。
NSA技術 とは、DeepSeek という企業が開発した 「Native Sparse Attention (ネイティブ・スパース・アテンション)」 という、大規模言語モデル(LLM) が 長文テキスト を処理する際の効率性と速度を大幅に向上させる ための新しいAI技術 です。
フルアテンションに匹敵する精度を維持しながら、計算コストを大幅に削減できるため、今後の大規模言語モデル (LLM) の発展に大きく貢献する可能性を秘めています。


■OpenAI Operator

これは、OpenAI が提供する技術 (GPTモデルなど) を活用して、自律的にタスクを実行するAIエージェント のようなものです。
OpenAI Operator は、画像生成ワークフローを構築する役割を担っています。
OpenAI の技術とビジュアルプログラミングツール Flux Pro を組み合わせ、LLM でプロンプトを強化することで、画像生成AIのワークフローをAI自身が自動構築する様子を紹介する、興味深いデモンストレーションです。


■laion2b-23ish-woman-solo

このデータセットビューアは、ファッション (特にドレス) 画像の学習用データセットの内容を表示するもので、画像URL、画像サイズ、関連テキスト情報、美的スコア、安全性スコアなど、様々な情報が含まれています。
このデータセットは、画像認識・画像生成AIモデルの学習や、データセット自体の分析・評価に活用されることが想定されます。


■Protoclone

Protocloneは、Clone Roboticsが開発した世界初の二足歩行(bipedal)、筋骨格系(musculoskeletal)アンドロイド(人型ロボット)です。
このアンドロイドは、顔のない解剖学的正確な合成人間で、200以上の自由度(degrees of freedom)、1,000以上の合成筋肉(Myofibers)、500のセンサーを持つ設計です。
とうとう下半身が出来て来ましたね。


本日は以上となります。

SeaArtAI

それでは、また。

いいなと思ったら応援しよう!

この記事が参加している募集