最新の画像生成AI対決!Midjourney vs ideogram 2.0 vs FLUX.1
こんにちは、スクーティーという生成AIを活用したシステム開発が得意な会社の代表をやっているかけやと申します。
今、画像生成AIが熱い!
つい先日、高性能なオープンソースの生成AIである「FLUX.1」が発表され、記事を書いたばかりなのですが、その直後である2024/08/21に、Ideogram AI社より、最新バージョンの「Ideogram 2.0」が発表されました。
「Ideogram 2.0」はベンチマークでMidjourneyを超えたスコアを出していると言われており、その実力は確かなもののようです。
そこで、王者Midjourneyと、新興勢力のIdeogram 2.0、FLUX.1で実際に画像出力をして、比較をしてみました!そして、驚きの結果が!
Ideogram 2.0とFLUX.1に関しては、以下の記事を御覧ください!
対決のルール
本画像生成AI対決は、公正を期すために、以下のルールとしました。
全く同じプロンプトを使用する。
各サービス固有のパラメータは使用しない。ただし、全サービス最新のバージョンに揃えるため、Midjourneyのみ、「--v 6.1」のパラメータを指定する。
ネガティブプロンプトは使用しない。
複数一度に画像が出力されるサービス(Midjourneyとideogram)は、1枚目の画像を採用する。
勝敗は私の完全なる主観で決める。
では、公正な(?)ルールが決まったところで、早速対決を始めましょう!
リアルな人間の表情や目の表現
こちらのプロンプトを使用しました。
これは難しい!MidjourneyとIdeogram 2.0の顔のリアルさがすごいです。ほとんど写真ですね。FLUX.1は写実的には遠いです。
ということで、MidjourneyとIdeogram 2.0の引き分けとしたいと思います!
リアルな人間の手の表現(箸を持っているとき)
こちらのプロンプトを使用しました。
あれ?どうしたMidjourney!?急に写実性が失われました。箸を持っている手の描画も微妙です。
これはIdeogram 2.0の圧勝です!
リアルな犬
私の経験上、人間の顔は写実的に描かれても、動物がいまいち写実的ではないことが多かったので、このテーマを選びました。こちらのプロンプトを使用しました。
これも難しいですが、Midjourneyの勝利としたいと思います。
写実性では、Ideogram 2.0がやや上のようにも思いますが、「走っている」感がなく、柴犬をプロンプトで指定していますが、どっちかというと秋田犬のような・・・?
3Dのパステルカラー画像
こちらのプロンプトを使用しました。
これはMidjourneyの圧勝だと思います!
人とロボットが共生する未来の社会をフラットデザインで描いてもらいましたが、Ideogramの画像はなんかダサく、FLUX.1は人がいません(あと、ロボットの首が浮いてる汗)。
商品バナー画像風文字付き
これも難しい。。。MidjourneyとIdeogram 2.0の引き分けとしたいと思います。FLUX.1も結構がんばっていると思います。
テキストの描画をうたっているIdeogram 2.0もさすがに漢字の描画は難しかったみたいです。プロンプトではウィスキーのボトルを指定しましたが、どれもウィスキーというよりもみりんの瓶みたいですね。
写実的な風景に文字をいれる
こちらのプロンプトを使用しました。
うーん、どれも微妙なので、引き分けとしたいと思います。
ニューヨークの雰囲気が一番出ていそうなのは、なんならFLUX.1かと思いましたが、一番見たかった文字の描写はどれもあまり正しくありません。
アニメ風画像に文字をいれる
こちらのプロンプトを使用しました。鳥山明風のイラストに文字を載せて描画してくれることを期待します!
うーん、Midjourneyの勝ちかな・・・?
どれも鳥山明風のイラストにはなりませんでしたが、Midjourneyが一番かっこいいと思います。描画すべき場所は誤っていますが、表示すべきテキストを全て表示できています。
まとめ
ということで、今回の対決では、Midjourneyの勝ち、時点がIdeogram 2.0となりました!
ただ、写実的な表現はIdeogram 2.0のほうがやや上のように感じました。Midjourneyはイラスト風画像の出力もバランスよくこなすことができ、文字の描画は期待したよりもIdeogram 2.0が力を発揮できなかったことで、Midjourneyの勝利につながったと思います。
今回の対決では力を発揮できなかったFLUX.1ですが、オープンソースであることと、APIを公開していることは非常に大きい利点(Beta版ではあるものの、IdeogramもAPIはあります)ですので、用途に応じて適切なサービスを選ぶことが重要と感じました!
最後に
最後までお読みいただき、ありがとうございます!
弊社では、LLM(大規模言語モデル)やアーキテクチャの選定、技術検証、生成AIを使用したプロトタイピングやシステム開発、お客様社内での啓蒙活動等を対応させていただく「生成AIコンサルティング」サービスを提供しています。
また、業務利用できるChatGPTのような仕組みである「セキュアGAI」や、生成AIとOCRを組み合わせた「AI文書読み取りサービス」といったAIソリューションも提供しています。
ぜひお気軽にお問い合わせください!