【生成AIニュース】『Riffusion』『Copilot』『Yueのライセンス更新』『IdeogramText Tool』『LuminaImage2.0』『SdForgeBlockcache』『DeepSeek R1 Multilingual』『MistralSmall24BBase2501』『QWEN』『ToolCalling』『Deepseek から3Dへ』『PerplexityAIにDeepSeek R1』『OpenBlocks』『VideoModel Comparison』

2025年1月31日 21:37

まいどです。
本日の生成AIニュース。

■Riffusion

Riffusionは、Stable Diffusionを使用してリアルタイムで音楽を生成するアプリケーションです。
テキスト入力からスペクトログラム画像を生成し、それを音声クリップに変換できます。
こちらは、Stable Diffusion v1.5モデルをファインチューニングして作成されています。
Hugging Faceで公開されており、モデルファイル、diffusersフォーマットのライブラリ、コンパイルされたチェックポイントファイルなどが含まれています。

Introducing FUZZ — a generative music model like no other.

Personalized, full-length, high-quality, and infinite. We’re making this instrument free for as long as our GPUs survive.

The best of FUZZ in thread. pic.twitter.com/GHtKphYHV5
— Riffusion (@riffusionai) January 30, 2025

■Copilot

MicrosoftのCopilotは、「Think Deeper」を使用して、愛犬の写真を撮って病気診断が可能です。
と言うか、Copilotが実はひっそりと進化し続けていて、無料ながら深い思考や画像解析、画像生成、音声会話、ウェブ検索などまでが可能になっています。
Windowsを持っている人は普通に使えるので、試してみる価値ありです。
そうでない人でも、モバイルアプリもあります。

In just 30 seconds Copilot can help you "almost" understand your dog with 'Think Deeper.' Starting today, Think Deeper is free and available for all Copilot users https://t.co/gK99DAjX0r pic.twitter.com/vBmzIb77c3
— Microsoft Copilot (@MSFTCopilot) January 30, 2025

■Yueのライセンス更新

何度かご紹介している、オープンソースの音楽生成AIのYueですが、この度ライセンスの更新がありました。
ライセンスがApache 2.0に更新され、ソフトウェアの利用、改変、配布において多くの自由を許容するようになりました。

■Ideogram Text Tool

Ideogramに、Ideogram Text Tool がリリースされ、生成したイメージに、テキストを追加し、フォントを選択し、色をカスタマイズすることが可能になりました。
すべて Ideogram Canvas 内で行えます。

The Ideogram Text Tool is here. Add text, choose fonts, and customize colors. All within Ideogram Canvas. Premium graphic design made easy! pic.twitter.com/AJt7N4KvWG
— Ideogram (@ideogram_ai) January 30, 2025

https://ideogram.ai/login

■Lumina-Image 2.0

Lumina-Image 2.0は、AIを使って画像を生成する新しいモデルです。
高速かつ効率的に画像を生成できるように設計されています。
また、モデルの構造が洗練されており、様々なタスクに対応できます。
このモデルは、動作原理が比較的理解しやすく、改善や応用がしやすいと考えられます。

■sd-forge-blockcache

sd-forge-blockcacheは、Stable Diffusion WebUI Forgeで使用できる拡張機能です。
この拡張機能は、「First Block Cache」と「TeaCache」という2つのキャッシュ技術を実装することで、画像生成の推論速度を向上させることを目的としています。
ただし、速度向上と引き換えに、画質がわずかに低下する可能性があります。

■DeepSeek R1 Multilingual

DeepSeek R1 Multilingualシリーズは、Deepseek社が開発した大規模言語モデルDeepSeek-R1を多言語対応に改良したものです。
このモデルの最大の特徴は、多言語での思考と応答が可能な点にあります。従来のDeepSeek-R1モデルは、プロンプトがどの言語で書かれていても、思考は中国語か英語で行われることが多く、出力もそれらの言語に偏る傾向がありました。
しかし、この多言語版では、プロンプトの言語に合わせて思考も応答も同じ言語で行われるため、より自然で理解しやすい出力が得られます。
1.5B、7B、14B版がそれぞれ公開されています。

■Mistral-Small-24B-Base-2501

Mistral-Small-24B-Base-2501は、70Bパラメータ以下の「小型」大規模言語モデルのカテゴリにおいて、新たな基準となる24Bパラメータを持つモデルです。
より大きなモデルに匹敵する最先端の能力を備えていると謳われています。
Instructバージョン（Mistral-Small-24B-Instruct-2501）も公開されています。

■QWEN

QWENがチャットボットのウェブサイトを公開しました。
様々なファミリーのモデルを選択でき、以下からお試しできます。

https://chat.qwenlm.ai/

https://tongyi.aliyun.com/qianwen/

■Tool calling

llama.cppに、ツール呼び出し（Tool calling）の機能が追加されました。
外部のツールやAPIを呼び出して、より複雑なタスクを実行する事が容易になりました。

■Deepseek から3Dへ

Deepseek から Flux、そして Hunyuan 3D へ接続してComfyUI 内で3D モデルを生成するワークフローです。

Chinese models ! Llm to 3D ! Connected Deepseek to Flux to Hunyuan 3D ! All inside ComfyUI ! Unlimited of 3D generation model all by itself ! @kartel_ai , @ComfyUI pic.twitter.com/oHO1Y2uvOv
— Lovis Odin (@OdinLovis) January 30, 2025

■Perplexity AIにDeepSeek R1

Perplexity AIは、中国のAIスタートアップDeepSeekが開発した推論モデル「DeepSeek R1」と、企業向けデータプラットフォーム「Crunchbase」「FactSet」の統合を進め、リサーチ機能の大幅な強化を実現しています。
この融合により、市場調査から財務分析までをシームレスに行える新世代の検索体験が提供されています。
Perplexityがどんどん高機能になっていっています。

Perplexity now integrates with @crunchbase and @FactSet.

Do more market research in less time, with the latest funding and investment info right at your fingertips. Try it with DeepSeek R1 as well.

Available now for Enterprise Pro users. pic.twitter.com/S19FSLXUbG
— Perplexity (@perplexity_ai) January 28, 2025

https://www.perplexity.ai/

■Open Blocks

Open Blocksは、VR（仮想現実）空間内で3Dオブジェクトを簡単に作成できるアプリです。
モデリング経験の有無に関わらず、誰でも直感的に使えるように設計されています。
6つのシンプルなツールを使って、様々な3Dオブジェクトを作成できます。

■Video Model Comparison

Google Veo 2 、OpenAI Sora 、Hunyuan Video、Pika 2.1 、Alibaba Wanx 2.1、 Runway Gen-3、Kling 1.6 、Luma Ray2 、Hailuo T2V-01と、様々な動画生成AIを同じプロンプトで生成し、比較検証した動画です。
さて、この中に一つだけオープンソースモデルがありますが、どれでしょうか？
（答え：Hunyuan Video）

🎬 Video Model Comparison: Text to video

• Google Veo 2
• OpenAI Sora
• Hunyuan Video
• Pika 2.1
• Alibaba Wanx 2.1
• Runway Gen-3
• Kling 1.6
• Luma Ray2
• Hailuo T2V-01

I used the same prompt on each model for 2 generations and chose the best results below.

Prompt:… pic.twitter.com/bnLVh1TuvQ
— Heather Cooper (@HBCoop_) January 30, 2025

本日は以上となります。

それでは、また。

いいなと思ったら応援しよう！

この記事が参加している募集

#AIとやってみた

44,918件