【生成AIニュース】『Grok 3』『Step-Video-T2V』『Sorcery』『AI Logo Generator』『Kimi k1.5』『Awesome LLM Apps』『FLUX.1 [dev] Abliterated』『HYVReward』『HunyClip』『ZeroBench』『DexVLA』

2025年2月17日 23:26

まいどです。
本日の生成AIニュース。

■Grok 3

Grok 3が月曜日の夜 8 時 (太平洋標準時) にライブデモとともにリリースされると、イーロンマスク氏がXにて投稿しました。
地球上でもっとも賢いAIとまでｗ
見せてもらおうか。新しいGrokの性能とやらを。（シャ○風）

Grok 3 release with live demo on Monday night at 8pm PT.

Smartest AI on Earth.
— Elon Musk (@elonmusk) February 16, 2025

■Step-Video-T2V

Step-Video-T2V は、最先端 (SoTA) のテキストから動画を生成するオープンソースの (Text-to-Video) 事前学習済みモデルです。
このモデルは30Bパラメータで、544x992x204fの最大204フレームの動画(8秒)を生成できます。
学習と推論の効率を高めるために、深い圧縮VAE (変分オートエンコーダ) を開発し、空間的に16x16倍、時間的に8倍の圧縮率を達成しました。
最終段階では、Direct Preference Optimization (DPO: 直接選好最適化) を適用し、生成される動画の視覚品質をさらに向上させています。
Step-Video-T2V の性能は、新しい動画生成ベンチマーク Step-Video-T2V-Eval で評価され、オープンソースおよび商用エンジンの両方と比較して、SoTA のテキストから動画への品質を示しています。

StepFun open-sources Step-Video-T2V, a SotA 30B text-to-video model

- Capable of understanding both Chinese and English prompts
- Generates high-quality videos
- Featuring strong motion dynamics, high aesthetics, and consistent content pic.twitter.com/1fDOaJcaJS
— Aran Komatsuzaki (@arankomatsuzaki) February 17, 2025

■Sorcery

Sorcery は、SillyTavern の AI キャラクターを現実世界と繋げる、非常に強力で革新的な拡張機能です。
簡単な設定で、JavaScript コードを通じて様々なデバイスやサービスと連携させることができ、ロールプレイの没入感を大幅に向上させることが期待できます。

Sorcery: Allow AI characters to reach into the real world. From the creator of DRY and XTC. pic.twitter.com/QMB2aWMlH7
— Dimitri Zhorzholiani (@dimitrizho) February 17, 2025

■AI Logo Generator

AI Logo Generator は、オープンソースのロゴ生成ツールです。
カスタマイズ可能なスタイルで、プロフェッショナルなロゴを数秒で作成できます。
高品質なロゴを生成し、ビジネス用途にも適しています。

Logo generator, but open-source, self-host, AI powered plus you get no-watermark :)https://t.co/9K0jvq0PkD pic.twitter.com/1OXUxtqa45
— GitHub Projects Community (@GithubProjects) February 16, 2025

■Kimi k1.5

Kimi k1.5 は、Moonshot AI が開発した高性能なオープンソースLLMであり、特に非常に大きなコンテキストウィンドウと、STEM分野やコーディングにおける優れた能力が特徴です。
無料で利用でき、ChatGPTなどの競合モデルを凌駕する性能を持つとされています。
また、一部ではDeepSeekもも凌駕していると噂されています。

■Awesome LLM Apps

Awesome LLM Apps は、RAG (Retrieval-Augmented Generation) と AI エージェントを使って構築されたLLM (大規模言語モデル) アプリの厳選されたコレクションです。
このリポジトリでは、OpenAI、Anthropic、Google のモデルだけでなく、DeepSeek、Qwen、Llama などのオープンソースモデルを使用した LLM アプリも紹介されており、自分のコンピュータ上でローカルに実行できます。

I built a Deepseek R1 RAG Reasoning Agent running locally on my computer.

It's an Agentic RAG reasoning agent that can think, reason and fall back to web search if needed.

100% Opensource code with step-by-step tutorial. pic.twitter.com/2OQ1TRvOfj
— Shubham Saboo (@Saboo_Shubham_) February 16, 2025

■FLUX.1 [dev] Abliterated

FLUX.1 [dev] Abliterated は、テキストから画像を生成するAIモデルです。元のモデルである FLUX.1 [dev] を改造し、拒否メカニズムを取り除く (Abliteration) ことで、より広範囲なプロンプトに対応できるようにしたバージョンです。
但し、元がFLUX.1 [dev]なので、商用利用は出来ません。

■HYVReward

HYVReward は、Stable Diffusion などの画像生成AIモデルで使用するための LoRA (ローラ) モデルの一種です。
画像生成の品質と、プロンプト (指示文) の理解度を向上させることを目的としています。
応用でHunyuanvideoで使用でき、生成する動画の品質も向上させる事が可能です。

■HunyClip

HunyClip は、ビデオのトリミング、クロップ、複製といった基本的な編集機能を備えた、Python製のシンプルなビデオ編集ツールです。
特にHunyuanvideo データセットの作成に特化しているものの、汎用的なビデオ編集ツールとしても利用できます。
キーボードショートカットが充実しており、効率的なビデオ編集作業をサポートします。

Preparing LoRA models for Hunyuan? This tool simplifies dataset creation:

✅ Cropping
✅ Video Framing
✅ Multiple Clips from One Source
✅ Save Cropped/Uncropped Videos & Images for Auto-Annotation!https://t.co/HnHlCm7ezd pic.twitter.com/kbWdmo1CYR
— AI Primus (@primus_ai) February 17, 2025

■ZeroBench

ZeroBench は、現代の最先端大規模マルチモーダルモデル (LMMs) にとって、事実上不可能となるように設計された、新しい視覚的推論ベンチマークです。
既存の視覚的ベンチマークが急速に進歩するLMMsにとって簡単になりすぎている現状を打開するために提案されました。

■DexVLA

DexVLAは、様々な環境で多様なタスクを実行できる汎用ロボットの実現を目指した、新しいAI技術です。
既存のロボット学習モデルの課題であった動作表現の限界と効率的な学習を克服するために開発されました。
DexVLAの最大の特徴は、拡散モデルをベースとした大規模な動作生成専門家 (Diffusion Expert) を導入し、これをVision-Languageモデル (VLA: 視覚言語モデル) に組み込むことで、様々な種類のロボット (単腕、双腕、多指ハンドなど) で高度なタスクを学習できるようにした点です。

Cobot Magic + DexVLA = next-level robot learning! 🌟 Adapt to any task, any robot, with ease. 🚀 Check out how we’re shaping the future of automation:
DexVLA : https://t.co/BWaNIrRldb
Cobot Magic : https://t.co/uo1YXE3RzB #Robotics #AI #robotarm #vla pic.twitter.com/RiODv7OetT
— AgileX Robotics (@AgilexRobotics) February 17, 2025

本日は以上となります。

それでは、また。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

47,684件