注目の画像生成AI「Recraft V3」
画像生成AIの業界へ革命児が登場しました。Artificial Analysis Image Arena Leaderboardのテキスト-画像部門のベンチマークで突如Midjouney,OpenAI,stable diffusion等の実力者達を抑えて見事Recraft V3がランキング1位に輝きました。このモデルの従来型とは違った特徴の数ある内の一つは、入力したプロンプト内のテキストをそのまま画像に変換できる点です。どういうことなのか詳しく見ていきましょう。
二つのAIを使用する?!その驚きの画像生成方法
従来型の画像生成モデルで例えば、「『宇都宮』と書かれた紙を生成して」といった感じのプロンプトを入力して画像を生成してみると、宇都宮からは程遠い象形文字のような謎の言語が書かれた紙が出力されました。これは端的に言うと、AIが画像を生成する際に確率を用いているためです。例えば、「ネコが歩いている」というプロンプトからAIが画像を生成する際、AIは「『ネコ』という単語が出てきたときはこの形の動物である可能性が高い。『歩く』という単語が出てきたときはこういった行動をしている確率が高い」といった形で文を認識しています。指が多い人間がAIによって生成されるのも、AIが「指のとなりには指が存在する確率が高い」という処理を繰り返していった結果なのです。その結果文字を生成しようとすると、AIは「文字が書かれた紙はこんな感じだろうな」と上辺だけの解釈をしてしまい、テキストの画像化に失敗してしまうのです。
この問題を解決するために、Recraft V3はテキスト認識AIと画像生成AIを別々に処理するという型破りな手法を採択しました。テキスト認識AIによって特定の座標に文字を出力し、それに沿って画像を生成していくことによってAIによる認識に間違い(所謂hallucination)を防ぐことに成功したのです。
実際に使ってみた結果
画像は「A cute Korean lady holds up a sign that reads “Genin blog”」というプロンプトで筆者が生成してみた画像です。なぜ韓国人なのかというと筆者は韓国人のクオーターだからです(しかし肌が濃いので周りからはよくインド人と呼ばれる)。しっかり「Genin blog」という文字が生成できていますね。しかし、「下人ブログ」と日本語で入力してみた場合謎のアラビア文字が生成されたので、残念ながら日本語版は現在対応していないみたいです。次世代の新機能を備えた画像生成AI、皆さんも是非ともお試ししてくださいね。以上です。Recraft V3のサイトはこちら
参考文献
Recraft introduces a revolutionary AI model that thinks in design language
How To Create SOTA Image Generation with Text: Recraft’s ML Team Insights