Dify、、同一AIモデルの供給先(プロバイダ）が沢山あって、さて、どうする？の件 --- AIモデルランキングをみてみる

2024年11月11日 10:42

はじめに

ふと、Difyのバージョンを確認すると、、、

でましたね、v0.11.0、11/5の20時過ぎ、のリリースでした。いやあ、0.10.2（どころかv0.9.2も）のメモとかも、まだちゃんと書いてないのに、まいった。気づいたのは、11/6の午前でした。

v0.11.0

今回は、追加モデルとして、xAIのGrokやClaude3.5-Haikuなどが使えるようになってます。
先程、まずは、使えるようにセットしました。
で、これらについては、別途メモっとこう？？？、と思います。

ちなみに、Iteration Node Parallel Modeという新機能も増え、それを使ったワークフローのテンプレートであるGPT-Researcher ENが追加されてますね。そして、Difyのブログ記事にこれについての説明が新たに追加されてます。

きっとこれらについては、優秀な他の人が使い方を教えてくれるだろうと期待もして。今回は、表題について。

Jade as Navigator?

この記事の画像は、本好き猫のジェイドくん、としました。一応、首輪に名前も入れました。Leonardo.AIのPhoenixです。
こんな記事には、彼に出てもらおうかと思います。

続々と登場するプロバイダたち

次々とv. UpされるDify、そしてどんどん追加されるモデルとそのプロバイダたち。どうも世の中は、次々と繰り出される最新のLLMにもっぱら話題が集中してる感じですが、、、Dify触ってると同じモデルで沢山の供給先、つまりプロバイダがどんどん増えてることに気付かされます。

まぁこれは、新興勢力の特に元気な中国勢に親和的なDifyの特質、ともいえるような気もしますが、、あ、これは主観です、、御本家アメリカも、例えば、Groqや、Cerebras.aiのような独自のモデルは持たないけど、独自プロセッサ等で超高速を売りにしたり、GoogleやAppleのスピンアウト組などによるちょっと速くて安いを売りにした新プロバイダーたちがどんどん出てきてるわけです。

つまり、この分野も急速に事業構造が多層化し始めてるように感じます。

画像生成や動画生成の状況

このような多層化は、画像生成AIのモデルでも、既にかなり進んでて、画像生成AIの複数のモデルと動画生成AI、画像処理などを、全てここで使えますってプロバイダが出てきてます。

そして、一方、新たな理論に基づくモデルも出始めてます。

StableDifusionやその派生であるFlux、そしてMidjournyなどは、もう淘汰されるかもしれません。

なんせ、この業界、いきなり初登場のRecraftのRecraft V3がランキング１位です。
画像の質も確かにさることながら、これまでのラスター系オンリーから、ベクトル系画像も直接生成できるってのもすごい。
Illustratorの生成AI版ですね。

ちなみに、Difyでは、v0.10.2で導入されたツールのVectorizerでベクトル変換ができるようになってます。有料です。そして、結構高い。
このツールが不要となるってことです。怖い世界だ。

そして、SD系でいうとControleNetとかLoRaとか後付の処理じゃあなくって、最初から色々と調整出来るように、、、、

という話は、別のメモにまとめることにします。
今、Leonardo.AIの契約終了が迫っていて、意思決定のために、色々調べてて、こちらはこちらで大事なので。

こんなふうにメモにまとめる作業をすると、色々頭の中で渦巻く情報の整理ができて、とてもいいですね。

LLM等のプロバイダの評価方法

で、LLMとかのプロバイダの話。

これ、プロバイダによる違いとか、なんか比較基準が無いもんかなぁとか、最近感じてました。
速度とか、料金比較とか、そして扱えるモデルの質とかですかね。
でも、それらのデータを個人でとるのはかなり大変そうです。

AI系ランキングサイト

そんな時、AI系のオープンなランキングを表示しているサイトをYoutube動画で教えてもらいました。

ここにも述べられているように、まさしく日進月歩のAI業界は、相対評価がコロコロ変わります。下剋上状態です。

ここで、紹介されているいくつかのランキングサイトは、日々更新されているようで、評価の参考になりそうです。

今の状況をざっとみるのにも便利かも、と感じます。

そして、ここで紹介されているサイトにLLM API Providers Leaderboardを表示しているのがありました。ここで、示されている" Providers " は、Difyと同じ意味のようです。つまり供給元のランキング。

まずは、このサイトあたりから比較しようと考えました。

AIモデルの比較ランキングサイト

AIランキングサイトについて

先ほど引用したAI大学さんのYouTube動画で紹介されていたのは、下記のサイトなどです。

⚔️ Chatbot Arena (旧 LMSYS):

最高の AI チャットボットを比較およびテストするための無料の AI チャット

https://lmarena.ai/

このサイトは、LLMを比較することができます。アリーナ（競技場）と呼ばれるLLM同士の生成結果を１：１で比較する場があり、その結果を基にランキングをしています。
各LLMの分野毎（code用、数学用、長いクエリへの対応度等）また言語毎（英語、日本語、、）の比較も可能です。

紹介
Chatbot Arena ( lmarena.ai ) は、カリフォルニア大学バークレー校SkyLabとLMSYSの研究者によって開発された、人間の好みを通して AI を評価するオープンソースプラットフォームです。1,000,000 を超えるユーザー投票により、このプラットフォームは Bradley-Terry モデルを使用してライブリーダーボードを生成する最高の LLM および AI チャットボットをランク付けします。技術的な詳細については、当社の論文をご覧ください。

出力例（overall）

少し見えにくいので、モードを変え、拡大して再掲します。

ここで示す1-10位は、１６個のLLMが僅差で並んでいます。１位が２つ、３位も２つで、次が５位、、、となります。

その５位に、話題となっているのが並んでいます。xAI（米）のGrok、01 AI（中国）のYi-Lightning、GPT-4o，claude3.5-sonnet v2の４つです。スコアは、若干違いますが、投票数（votes）などを考慮すると、誤差範囲と考えられます。

また、nvidiaのLlama3.1 Nemotron70Bが９位と、claude3.5-sonnet v1の10位より上にランクインしています。

Difyでは、v0.10.xまでで、OpenAIやClaude、Googleの各モデルの最新版が使えるようになっています。また、groqやFireworks等の経由で、メタのLlarma系、アリババのQwen系、01 AIのYi-Largeの最新版がそれぞれ使えます。

さらに、v0.11.0でGrokが加わっていますので、それぞれのプロバイダとのAPIの契約をすれば、このトップ１０のほぼ全てのモデルが使える状況となっています。

Artificial Analysis

このサイトは、上記のChatArenaとはコンセプトが異なり、LLMをはじめとする様々なAIモデル間の比較と、それを実際に使うにあたってそれらを提供するプロバイダの評価も行う、ということを目標として挙げています。
そのあたりを下記の自己紹介文で、次のように述べています。

紹介
Artificial Analysis は、ユーザーや組織がユースケースに適したモデルを選択し、そのモデルに使用するプロバイダーを選択できるように、ベンチマークと関連情報を提供します。
モデルやプロバイダーによってトレードオフが異なるため、最初のステップとしてモデルをどのように使用するかを決めることが重要です。現在、モデルの品質、価格、出力速度、レイテンシ、コンテキストウィンドウ、その他の要素の間でトレードオフが存在します。

そして、続けてプロバイダーを選定する手順についても記載しています。
今回の目的には、このサイトが合っているようです。

ちなみに、今回の目的とは異なりますが、画像/動画生成関連のモデルの比較サイトも紹介されています。なお、上記のArtificial Analysisでも画像/動画モデルの比較ができます。

video arena

https://www.videoarena.tv/

ランキング例（2024/11/10)

ここで、２位に入っているMinimaxは現在Hailuo AIに社名が変わっています。１−３位をはじめ上位に中国勢が入っているということになります。

ただ、実際にアリーナでトライしてみるとこれらトップ１０レベルは、僅差という印象も受けます。また、画像の種類により、それぞれ、得手、不得手があるようです。

ここで、アリーナ対決を経験することで、これらの能力を垣間見ることができます。甲乙つけ難い素晴らしい結果もあれば、どっちも丙丁つけ難いというか、全然ダメという結果もあります。

画像生成AIや動画生成AIについては、今、技術革新を背景として、ランキングが大きく変わりつつあります。これについては、特に興味あるので、別途メモしたいと思います。

ということで、以下、今回は、Artificial Analysisをつかったプロバイダーの比較の仕方を見ていきます。

Artificial Analysisによるプロバイダーの比較

APIプロバイダーのリスト

Artificial AnalysysにエントリーされているAPIプロバイダーのリストをABC順にソートしたリストを示します。
これは、ウェブ画面のトップに示された下記リストを並べ替えたものです。

API providers compared: OpenAI, Playground AI, Mistral, Microsoft Azure, Ideogram, Amazon Bedrock, Hyperbolic, Groq, Together.ai, Black Forest Labs, Anthropic, Perplexity, Google, Fireworks, Cerebras, Cohere, Recraft AI, Upstage, Simplismart, Speechmatics, Deepinfra, , Replicate, Genmo, Adobe, Runpod, Rev AI, DeepSeek, AssemblyAI, fal.ai, Reka AI, Deepgram, Gladia, Baseten, Stability.ai, Midjourney, Databricks, ElevenLabs, IBM, SambaNova, xAI, Cartesia, LMNT, 01.AI, and AI21 Labs.

API Providers List

プロバイダーの内訳

全部で４４社あります。この内訳をみると、StableDifusionやMidjourneyが入っており、また、Runwayなどは入っていないので、動画関連を含まない、LLMと画像生成AI関連のプロバイダーリストとなっているようです。

最近、動画生成系もAPIサービスを開始しているので、今後、追加されるかもしれません。

ここには、01 AIやDeepseekのような独自のLLMを持つ中国系のプロバイダーも、エントリーされています。Alibabaの社名はありませんが、実際のリスト中にはあります。ここでは、Runpodなどとしてエントリーされているのかもしれません。

また、GroqやCerebras 、FireWorksやTogether.aiなどがはいっていますから、独自のLLMを持たないプロバイダーもエントリーされています。ただし、そのほとんどがUSA系です。

リストアップされていないプロバイダー

一方、FireCrawlやJina、Voyage AI のようなembeddingやRerankのモデルベンダーは入っていません。これは、アリーナというユーザーによる投票ベースの設定が困難だからとも考えられます。

また、SiliconFlowのような、比較的最近Difyに登場してきて、多くのモデルが次々と追加されている中国系のプロバイダーも、入っていないようです。
同様にOpenRouterのようなUSA系も、まだ入っていません。こちらは、扱うモデルの量を数100まで増やす予定のようです。

ともあれ、現状プロバイダーがどんどん増えており、また、それぞれ取り扱うLLMも増えているで、今後、このリストも充実していくと予想されます。

次回

少し長くなったので、一旦、ここで区切ります。
続いて、各プロバイダーのランキングを、性能に加え、価格やスピード、などの指標で、ソーティングして、各プロバイダーの比較を行いたいと思います。

Dify、、同一AIモデルの供給先(プロバイダ）が沢山あって、さて、どうする？ の件 --- AIモデルランキングをみてみる