生成AI関連、ブログテーマ等のつれづれ---ランキング、マルチモーダル、MoAなど

2024年12月14日 14:45

生成AI周りの進化の速さとトピックス

はじめに

カイロス２号機の発射が延期されましたね。残念ですが、台湾製をはじめ５個の衛星の運命も担っているので慎重には慎重を重ね、というところでしょうか。期待しています。

今回のメモは、ブログテーマについての頭の整理が目的です。
ともかく、生成AI関連は、進化が早く、話題が沢山ありすぎてちょっとマイってます。

そんなところに、昨日、noteのとある記事で、まずは書き出すといい。書くとスッキリする。というのがあり、なるほどと思った次第です。

ともかく、年末、ということもあり、今月は、生成AI界隈でも各社色々と発表が目立ちます。
ともかく多い。

マルチモーダル対応

たとえば、OpenAIとGoogleは、本格的なマルチモーダル対応を発表。
既にGoogleでは、Google AI Studioでトライアル可能となってます。この入出力が、眼、耳、口でリアルタイムでできることによる応用の可能性は、XとかYouTubeで色んな人がお試しの結果を具体的に示してくれてます。

今後、世界が変わりそうです。

以下、既に使えるGeminiの環境を紹介した動画等を引用しますが。これとほぼ同様のことがOpenAIでもできるということだろうと思います。

ただ、今のところGoogleは無料ですが、OpenAIは有料で高額です。

Gemini 2.0 real-time AI is absolutely wild!

Watch how I use it as an AI research assistant by sharing my screen and asking it about an AI paper.

10x your paper reading skills or just let Gemini summarize key points.

What an incredible time to be alive! pic.twitter.com/lopQ7g1PmX
— elvis (@omarsar0) December 11, 2024

生成AI関連のランキング

それにも関連して、生成AI周りのランキングが、いろいろ変わってきています。11月のLLMランキングなどはバトルの状態でした。

これは、今後も続くのだろうと思います。マルチモーダル化で評価軸が多軸になるのかもしれません。

まず、比較的大規模のLLMでは、２強に加え、AnthropicやxAI、とQwenやDeepseek、GLM-4などの中国勢の台頭が著しく目立ちます。
このランキング周りは、視点を変えていくつかの項目が抽出できそうです。

まずは、LLM、画像生成AI、動画生成AI、TTS、STTなどのそれぞれのランキング、そして、それらのAPIなどを提供するプロバイダの状況と、その着目点。速度や価格など。今回は、以下でそれぞれ少し書き留めておこうと思います。

小規模LLMの進化とMoA

主に一般ユーザーはウェブ環境でLLMを使うわけですが、一方、Llama (Meta) やCohere、Mistral （仏）などの、小規模のLLMの性能向上も著しいようです。こちらは、On myPCでネットワーク無しで稼働可能という大きなアドバンテージがあります。専用で無料のLLM環境の構築ができるわけです。
これにRAGを組み合わせると特定用途向けに便利そうです。ストック型のRAGに加え、スクレイピング用にネットを使うかも、ですね。
RAG関連も新ベンダー群と共に進化しています。

これらの新ベンダー群も注意項目かと思われます。

さらに、これらの小規模LLMを組み合わせたMoA(Mixture of Agents)によって、小規模による高速性に高性能が加わる可能性もあります。このシステム構築にDifyが活かせそうです。

画像生成AIでのランキングの変化

また、ランキングという点では、画像生成AIの分野も大きく変わってます。総合ランキングで、かつての２強、StabeleDiffusion~~とMidjourny~~が、現時点で、５強にはいっていません。今の一位は、圧倒的にRecraft。でも、Googleとかideogram v2とかも、新しい発想の画像生成ツールを次々と発表し始めています。先はまだわかりません。

追記：上記ランキングのコメントは、Artificial Analysisに基づくのですが、最新版では、Text to Imageの比較モデルにそもそもMidjournyがはいっていませんでした。以前ははいっていたように思いますが、現在は抜けています。したがって、同モデルの位置付けは不明です。

Text to image models & providers compared: Playground v2.5, Stable Diffusion 3 Medium, Stable Diffusion XL 1.0, SDXL Lightning, Stable Diffusion 1.5, Stable Diffusion 2.1, Amazon Titan G1 (Standard), DALLE 2, DALLE 3 HD, DALLE 3, Amazon Titan G1 v2 (Standard), Playground v3 (beta), Ideogram v2, FLUX.1 [pro], FLUX.1 [dev], Ideogram v2 Turbo, Ideogram v1, FLUX1.1 [pro], Recraft 20B, FLUX.1 [schnell], Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo, and Recraft V3.

Artificial Analysis(12/15)

今後は、高速性も注目されそうです。
高速性と価格、画質などの観点で、結論としては、現時点では、総合的にFlux1.1proが一番使いやすいという印象です。Flux1.1ultraは、ちと高いです。

Recraftは、リアル感については圧倒的に抜きん出ています。まさしく写真のような画質を生成します。ただ、少し非現実的なファンタジー的なプロンプトへの対応は苦手のようで、現実から脱却できないようです。プロンプト処理の生成AIの部分が弱いのかもしれません。

むしろRecraftの場合、その画質もさることながら、デザイナー的な実用上のツール的な使い勝手の良さが今後脚光を浴びるように思います。その思想が、ベクトル化対応という形でも現れているということでしょう。この機能だけでも大変な進化です。

これにより、既存のベクトル化ツールベンダーは、価格体系を見直さないといけないかもしれません。現在、結構高額ですので。

動画生成AIでの中国勢の台頭

さらに、動画生成AIも同様です。最も進化が著しい印象です。
最近SoraがOpenAIから発表され、話題です。しかしながら、直近のKling1.5やHailuo AI、Mochiなどの中国勢や、Runway Gen3-Alpha Turboの生成物と比べ、本当にどれぐらいアドバンテージがあるか、やや疑問です。
少なくとも、ポイントは、長尺対応でしょうか。

それぐらい、半年前では想像できないぐらいに全体が進化しているという印象です。

追記：　12/15、Artificial Analysisのビデオ生成のランキングに首位で初登場しています。ただし、この点数差を、圧倒的優位といえるかどうか？

ただ、中国勢で気になるのは、今後、この分野も生成速度が争点となってくるであろうことです。トランプ政権の先端半導体関連の輸出制限の下で、高性能な高速ウェブ環境を今後も拡大提供できるのか、不安材料かと思われます。

現時点で、生成動画の質については、ランキング１位のKling1.5は、最高画質の10 秒の動画生成に、現在２５分かかります。ちょっと長いです。
現在は、お試しのステージなので、いいのですが、実用上は論外でしょう。今後の注意点だと思われます。

APIのプロバイダの台頭

LLMや画像生成AIなどのランキングを見ると、それぞれのAPIを創っているグループとは別にそれらのAPIのプロバイダーがかなり台頭してきているのが目立ちます。

評価のポイントは、速度と価格。

速度は、特に画像生成AIで顕著です。たとえば、Fluxのケースです。Fluxは、Recraft登場の少し前に出てきて一時期話題になり、さらに関連ツールの充実とともに進化継続中です。
たとえば、Flux1.1proのケースでは、本家のBlack Forest Labsよりも、プロバイダのFalやReplicateの方が、速い画像生成速度をだしています。

LLMでもそれは同様で、例えば、OpenSourceである最新のLlama3.3-70Bなどでの速度の比較をみると、熾烈な競争が起きているのが見て取れます。

これは、半導体レベルでの開発能力と運用能力が関わってくる分野でもあります。
第1集団で独自のハード系のGroq、SambaNova、Cerebras、また、第2集団でFireworks AI、Together AIなどの動向が注目されます。

様々な生成AI応用ツールの台頭

最近、生成AIを用いた実用的なツールが出てきたように感じます。
検索してその結果を資料として生成できるFeloやGensparl、個人用RAGを簡便に実現するNotebookLM、文章から資料用の画像を生成するNapkin、さらにMapify, Gammaなどなど。
それと最近は、特に、Replitやv0, Bolt などのプログラム開発関連ツールが目立ちます。

これらのツールが、特に実際に様々な業務を行う上で、極めて便利ですので、今後伸びてくるように思います。生成AIツールが一般的な実用域に入りつつあるという状況だと感じられます。

まとめ

今後、上記の小見出しの項目について、それぞれブログにまとめておこうと思います。
まずは、最近、ちょっと集中作業中の画像生成AIについて、1000枚程度の生成画像の結果などを基に、具体的に比較しておきたいと思います。

それと、Dify 関連ですね。現時点での最新は、v0.13.2ですが、Gemini exp. 1206 などが使えます。Google AI Studioも調子にのって使いすぎると回数制限に引っかかるようです。Difyで使えれば、色々便利に使えそうです。

それにしても、日々ランキングの変化をみていてフト思うのは、ベースモデル市場で日本製が無い、ということです。ほとんど、USA、中国というなか、Mistral(仏）とか、Recraft(英）とかが、キラリと光ります。Canva(オーストラリア）など業界で大きく伸びている企業もあります。

現時点では、Felo(日本）とかでしょうか。今後、このアプリケーションツールの分野での台頭が期待されます。
それにしても、コアとなるLLMを常に最新のものと提携していく必要もあろうかと思います。それが継続できる交渉力と存在感も大事かもしれません。