【生成AIニュース】『Riffusion』『Copilot』『Yueのライセンス更新』『IdeogramText Tool』『LuminaImage2.0』『SdForgeBlockcache』『DeepSeek R1 Multilingual』『MistralSmall24BBase2501』『QWEN』『ToolCalling』『Deepseek から3Dへ』『PerplexityAIにDeepSeek R1』『OpenBlocks』『VideoModel Comparison』
まいどです。
本日の生成AIニュース。
■Riffusion
Riffusionは、Stable Diffusionを使用してリアルタイムで音楽を生成するアプリケーションです。
テキスト入力からスペクトログラム画像を生成し、それを音声クリップに変換できます。
こちらは、Stable Diffusion v1.5モデルをファインチューニングして作成されています。
Hugging Faceで公開されており、モデルファイル、diffusersフォーマットのライブラリ、コンパイルされたチェックポイントファイルなどが含まれています。
■Copilot
MicrosoftのCopilotは、「Think Deeper」を使用して、愛犬の写真を撮って病気診断が可能です。
と言うか、Copilotが実はひっそりと進化し続けていて、無料ながら深い思考や画像解析、画像生成、音声会話、ウェブ検索などまでが可能になっています。
Windowsを持っている人は普通に使えるので、試してみる価値ありです。
そうでない人でも、モバイルアプリもあります。
■Yueのライセンス更新
何度かご紹介している、オープンソースの音楽生成AIのYueですが、この度ライセンスの更新がありました。
ライセンスがApache 2.0に更新され、ソフトウェアの利用、改変、配布において多くの自由を許容するようになりました。
■Ideogram Text Tool
Ideogramに、Ideogram Text Tool がリリースされ、生成したイメージに、テキストを追加し、フォントを選択し、色をカスタマイズすることが可能になりました。
すべて Ideogram Canvas 内で行えます。
■Lumina-Image 2.0
Lumina-Image 2.0は、AIを使って画像を生成する新しいモデルです。
高速かつ効率的に画像を生成できるように設計されています。
また、モデルの構造が洗練されており、様々なタスクに対応できます。
このモデルは、動作原理が比較的理解しやすく、改善や応用がしやすいと考えられます。
■sd-forge-blockcache
sd-forge-blockcacheは、Stable Diffusion WebUI Forgeで使用できる拡張機能です。
この拡張機能は、「First Block Cache」と「TeaCache」という2つのキャッシュ技術を実装することで、画像生成の推論速度を向上させることを目的としています。
ただし、速度向上と引き換えに、画質がわずかに低下する可能性があります。
■DeepSeek R1 Multilingual
DeepSeek R1 Multilingualシリーズは、Deepseek社が開発した大規模言語モデルDeepSeek-R1を多言語対応に改良したものです。
このモデルの最大の特徴は、多言語での思考と応答が可能な点にあります。従来のDeepSeek-R1モデルは、プロンプトがどの言語で書かれていても、思考は中国語か英語で行われることが多く、出力もそれらの言語に偏る傾向がありました。
しかし、この多言語版では、プロンプトの言語に合わせて思考も応答も同じ言語で行われるため、より自然で理解しやすい出力が得られます。
1.5B、7B、14B版がそれぞれ公開されています。
■Mistral-Small-24B-Base-2501
Mistral-Small-24B-Base-2501は、70Bパラメータ以下の「小型」大規模言語モデルのカテゴリにおいて、新たな基準となる24Bパラメータを持つモデルです。
より大きなモデルに匹敵する最先端の能力を備えていると謳われています。
Instructバージョン(Mistral-Small-24B-Instruct-2501)も公開されています。
■QWEN
QWENがチャットボットのウェブサイトを公開しました。
様々なファミリーのモデルを選択でき、以下からお試しできます。
https://tongyi.aliyun.com/qianwen/
■Tool calling
llama.cppに、ツール呼び出し(Tool calling)の機能が追加されました。
外部のツールやAPIを呼び出して、より複雑なタスクを実行する事が容易になりました。
■Deepseek から3Dへ
Deepseek から Flux、そして Hunyuan 3D へ接続してComfyUI 内で3D モデルを生成するワークフローです。
■Perplexity AIにDeepSeek R1
Perplexity AIは、中国のAIスタートアップDeepSeekが開発した推論モデル「DeepSeek R1」と、企業向けデータプラットフォーム「Crunchbase」「FactSet」の統合を進め、リサーチ機能の大幅な強化を実現しています。
この融合により、市場調査から財務分析までをシームレスに行える新世代の検索体験が提供されています。
Perplexityがどんどん高機能になっていっています。
■Open Blocks
Open Blocksは、VR(仮想現実)空間内で3Dオブジェクトを簡単に作成できるアプリです。
モデリング経験の有無に関わらず、誰でも直感的に使えるように設計されています。
6つのシンプルなツールを使って、様々な3Dオブジェクトを作成できます。
■Video Model Comparison
Google Veo 2 、OpenAI Sora 、Hunyuan Video、Pika 2.1 、Alibaba Wanx 2.1、 Runway Gen-3、Kling 1.6 、Luma Ray2 、Hailuo T2V-01と、様々な動画生成AIを同じプロンプトで生成し、比較検証した動画です。
さて、この中に一つだけオープンソースモデルがありますが、どれでしょうか?
(答え:Hunyuan Video)
本日は以上となります。
それでは、また。