中国のAI開発事情②(画像生成AI)
3.画像生成AIモデル
2022年は、AI技術が急激に進化して社会の注目を集め、将来、AI革命の始まりの年と記憶されるような重要な年となりました。その中でも、最も重要な役割を果たしたのが画像生成AIブームです。
ブームの口火を切ったのは、2022年4月にOpenAIが発表したDALL-E 2です。DALL-E 2は、拡散モデルの画像生成AIで、テキストから画像を生成する手軽さと生成画像の品質の高さで世間を驚かせました。
また、同年5月には、GoogleがDALL-E 2の性能を超えるImagenとPartiという2種類の画像生成AIを発表しています。
同年7月からDALL-E 2のオンラインサービスが公開され、これがその後の画像生成AIブームへと繋がっていきました。
さらに、2022年7月に、Midjourneyのオンラインサービスが公開されると、簡単なプロンプトでも、プロが描いたような個性的でスタイリッシュなイラストが生成できると評判になり、瞬く間に世界中で爆発的な人気を集めました。
同年8月には、エマード・モスターク氏が率いるStability AIがStable Diffusionを公開しました。Stable Diffusionは、オンラインサービスのほかに、個人のパソコンでも使用可能なモデルデータやコードなどもオープンソースとして公開したため、Midjourney以上に広く普及して、画像生成AIブームを加速し、次々と派生モデル、関連アプリ、新サービスなどを生み出す結果となりました。
これと並行して、中国でも次々と画像生成AIが発表されています。
① CogView
(1) CogView
2021年5月に中国の精華大学が発表したCogViewは、同年1月にOpenAIが発表した初代DALL-Eと同様のVQ-VAE(ベクトル量子化変分オートエンコーダー)ベースの画像生成AIです。
なお、精華大学は、習近平主席の出身大学で、北京大学と並ぶ理工系のトップ大学です。AI技術の開発でも有名で、大規模言語モデルのGLM-130Bも精華大学の研究チームが開発しています。
CogViewは、40億のパラメーターを持つTransformerモデル(DALL-Eは120億パラメーター)で中国語のテキストと画像をペアにしたデータセットを学習し、MS COCOなどのベンチマークテストでDALL-EやGAN(敵対的生成ネットワーク)ベースの画像生成AIを超える性能を発揮しました。【論文】
〇 CogViewのデモサイト
中国語入力で一度に8枚の画像が生成できます。
(2) CogView2
2022年4月、精華大学は、階層型Transformerを採用してCogViewの性能をレベルアップしたCogView2を発表しました。
CogView2も、VQ-VAEベースの画像生成AIで、事前学習した60億のパラメーターを持つクロスモーダル言語モデルのCogLMをファインチューニングして、高解像度化などの各階層のタスクに利用しています。
CogView2は、中国語と英語に対応し、同月に発表されたDALL-E 2に匹敵する画像生成性能を示しました。また、テキストに合わせて画像の一部を修正するテキストガイド編集にも対応しています。【論文】
〇 CogView2のデモサイト
(現在不調)
(3) CogVideo
また、精華大学は、2022年9月にMetaが発表したMake-A-Videoより早い同年5月に、CogView2の技術を利用して、テキストから動画を生成するCogVideoを発表しています。【論文】
② ERNIE-ViLG
(1) ERNIE-ViLG
ERNIE-ViLGは、バイドゥ(百度)が開発した、画像からテキストの生成と、テキストから画像の生成の両方に対応したVQ-VAEベースのテキスト・画像双方向生成AIです。
バイドゥは、2000年に創業した中国最大の検索エンジン提供会社で、AI技術の開発に積極的であり、ディープラーニングフレームワークのPaddle Paddleや大規模言語モデルのERNIEシリーズを開発しています。
ERNIE-ViLGは、100億のパラメーターを持つTransformerモデルで中国語のテキストと画像のペア1億4,500万件の大規模データセットの学習を行いました。【論文】
ERNIE-ViLGの論文は、2021年12月に発表されていましたが、2022年8月にデモサイトを公開して、誰でも利用できるようになったことから、日本でも「二次元キャラの生成に強い」などと話題になりました。
(2) ERNIE-ViLG 2.0
2022年10月、バイドゥは、拡散モデル画像生成AIのERNIE-ViLG 2.0を発表しました。
ERNIE-ViLG 2.0は、画像中の重要な要素に関するテキストと視覚のきめ細かい知識を取り入れる手法(以下の図参照)の導入や、異なるノイズ除去段階で異なるノイズ除去エキスパートを利用するなどの改善によって生成画像の品質向上を実現し、MS COCOのゼロショットFIDスコアでSOTA(最高性能)を達成し、画像の忠実度や画像-テキストアライメントなどの点でも最近のモデルを上回る性能を示しました。【論文】
なお、以前は、ERNIE-ViLGなどのモデルを簡単にGoogle Colabで利用することができましたが、現在は、APIキーなどが求められるようになっており、しかも、APIキーを取得するのに、中国語だけのサイトにアクセスして、携帯電話番号などの個人情報を登録しなければならなくなったため、中国人以外には利用のハードルが高くなりました。
〇 ERNIE-ViLG 2.0のデモサイト
英語又は中国語の入力で一度に3枚の画像が生成されます。
③ Upainting
バイドゥは、ERNIE-ViLG以外にも画像生成AIを発表しています。ERNIE-ViLG 2.0を発表したのと同じ2022年10月に、バイドゥは、新しい拡散モデル画像生成AIのUpaintingを発表しました。
拡散モデル画像生成AIでプロンプトの内容に従った画像を生成する際に、T5やGPTなどの大規模言語モデルを利用したテキストエンコーダーを使用する場合と、CLIPのような画像とテキストのマッチングモデルを使用して誘導を行う場合がありますが、Upaintingでは、この2種類のモデルを組み合わせて用いることにより、画像の忠実度と、画像とテキストの整合性を向上させています。
この手法により、Upaintingは、単純なシーンから複雑なシーンまで、より効果的に画像を生成することができるようになり、キャプションの類似性と画像の忠実度で他のモデルを大きく上回る性能を達成しました。【論文】
④ AltDiffusion
(1) モデルの概要
2022年11月、北京智源人工智能研究院(BAAI)が英語と中国語に対応したバイリンガルな拡散モデル画像生成AIのAltDiffusionを発表しました。
BAAIは、2018年に設立された、北京大学、精華大学、中国科学院、バイドゥなどの先進的なAI技術開発を行う研究機関や企業の人材を集めた研究センターです。
AltDiffusionは、OpenAIが開発した画像分類モデルのCLIPのテキストエンコーダーを多言語対応のXLM-Rに切り替え、教師あり学習と対照学習(自己教師あり学習)の2段階の学習方法で調整したAltCLIPを使用し、Stable Diffusionの性能を維持しつつ、中国語での性能を大幅に強化しています。
また、英語、中国語、日本語、韓国語、フランス語、イタリア語、スペイン語、ロシア語、アラビア語の9言語に対応した多言語版のAltDiffusion-m9も発表しました。【論文】
以下は、AltDiffusionに同じ内容のプロンプトを英語と中国語で入力して生成した画像を比較したものです。やはり、中国語の方が色鮮やかで高精度なように感じます。
(2) 使用方法
以下のデモサイトで簡単にAltDiffusionを試してみることができます。中国語又は英語の入力で一度に1枚から4枚の画像を生成できます。
次に、多言語版のAltDiffusion-m9をGoogle Colabで使用する方法について説明します。AltDiffusion-m9を使用するためのコードは以下のとおりです。
!pip install git+https://github.com/huggingface/diffusers.git torch transformers accelerate sentencepiece
from diffusers import AltDiffusionPipeline, DPMSolverMultistepScheduler
import torch
pipe = AltDiffusionPipeline.from_pretrained("BAAI/AltDiffusion-m9", torch_dtype=torch.float16)
pipe = pipe.to("cuda")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
このコードをColabノートにコピーし、GPUを選択してセルを実行してください。4分くらいで実行が終了します。
次に、以下のコードをColabノートにコピーし、"生成したい画像の指示"を書き換えてセルを実行してください。日本語にも対応しています。
prompt ="生成したい画像の指示"
image = pipe(prompt, num_inference_steps=25).images[0]
image
〇 852話さんによる日本初の画像生成AIイラスト集
〇 画像生成AIを使って描かれた初の本格SFコミック
4.画像生成AIサービスなどの動き
① QQ World AI Painter
QQ World AI Painter(QQ小世界AI画匠)は、WeChatやテンセントQQなどのSNSサービスを提供する中国IT企業のテンセントが開発した画像生成AIアプリです。
このアプリは、インスタントメッセージのテンセントQQのアドオン機能で、自撮り画像などの写真をアニメキャラクターに変身させることができるDifferent Dimension Me又はMe In Comicsと呼ばれる機能などがあり、中国の若者たちの間で非常に流行しています。
② Meitu
Meitu(メイツ)は、中国のMeitu社が開発した画像加工・編集アプリで、最近、QQ World AI Painterと同じように写真をアニメイラスト化するAIイラストメーカーの機能が追加されました。日本語版のアプリもあり、中国だけでなく、日本でも評判になりました。
③ 元素法典
元素法典は、台湾を含む中国語圏で作成されたオンライン画像生成サービスのNovel AI用のプロンプト及びイラスト集です。ここに掲載されたプロンプトを利用すれば、簡単に美しいイラストが生成できることから日本でも評判になりました。
さいPさんが元素法典第1巻、第1.5巻及び第2巻の日本語訳を作成して紹介しています。
④ TIAMAT
TIAMATは、2021年に設立された中国初の画像生成AIプラットフォームで、中国版インスタグラムと呼ばれるEC機能の付いたSNSの小紅書(RED)やバイトダンスが運営する中国版TikTokの抖音 (ドウイン)で中国語で画像生成を行う製品を発表し、コミュニティでの内部テストを開始しています。
また、中国国営テレビ局のCCTVや大手ゲーム企業とも提携し、昨年(2022年)10月頃、米国ベンチャーキャピタルのDCMベンチャーズから数百万ドルの資金を調達したことで話題となりました。
⑤ 盗夢師
中国では、最近、AIによる画像生成が急速に普及し、大量のAIアート作品がSNSに投稿されています。その中でも人気を集めているのが西湖心辰が開発した画像生成ツールの盗夢師(Printidea)で、公開わずか数か月で100万人近いユーザーを獲得しました。
盗夢師は、中国最大のSNSであるWeChat(微信)のミニアプリとして、提供されており、1枚当たりの画像生成速度が0.8秒と非常に速いことなどがユーザーの人気を集める理由となっています。
西湖心辰は、2021年に設立された西湖大学発のベンチャーで、自然言語処理の研究成果などの製品化に取り組み、これまでも、タイトルやキーワードで文章を自動生成するテキスト生成ツールのFriday AIなどを製品化しています。なお、西湖心辰の創設者は、2018年にGoogleが発表した軽量版言語モデルのALBERTの論文第一著者の藍振忠博士です。
2021年末にはエンジェルラウンドで約1,000万ドルを調達しました。さらに、西湖心辰では、テキストから動画を生成するツールの開発も進めています。
5.中国の画像生成AI規制
① 政治的にセンシティブな内容の制限
昨年(2022年)9月、バイドゥが開発した画像生成AIのERNIE-ViLGに、習近平主席のような政治指導者の名前や「天安門事件」「革命」などの中国国内で政治的にセンシティブな単語をブロックする検閲メカニズムが組み込まれているとの報道がありました。
DALL-E 2、Midjourney、Stable Diffusionでも、猥褻、暴力、差別などに関するコンテンツ制限はありますが、中国では、政府や政治指導者の批判につながるような内容がより厳しく制限されているようです。
② コンテンツ生成AIに関する新規則
先月(2022年12月)11日、中国政府は、画像や動画などを生成するコンテンツ生成AIに関する新規則を発表しました。
新規則は、ユーザーの実名登録やAIによって生成された旨の表示の義務付けを含む厳しいものとなっています。
中国政府は、発表の中で「コンテンツ生成AIは急速に発展しており、ユーザーのニーズを満たし、ユーザーエクスペリエンスを向上させています。一方で、一部の悪意あるユーザーは違法なコンテンツや有害なコンテンツを生成して拡散し、他者への誹謗中傷に及んでいます。コンテンツ生成AIの開発促進や監査能力の向上には、規則の導入が必要です。」などと述べ、規制の必要性を説明しています。
新規則は、今月(2023年1月)10日から施行されています。
【新規則の概要】
コンテンツ生成AIの提供者は、ユーザーの身元情報を確認し、コンテンツ管理を強化する必要がある。
人間の顔やリアルなシーンを生成する際は、AIによって生成されたことを示すマークを目立つように表示する必要がある。
AI生成コンテンツであることを示すマークを改ざんしてはならない。
コンテンツ生成AIは法律および行政法規によって禁止されている活動に使用されてはならない。
コンテンツ生成AIの提供者は、生成されたコンテンツが情報セキュリティ上のリスクを含んでいる場合にユーザーのアカウントを停止しなければならない。
規則は中国国内でコンテンツを流布するコンテンツ生成AIに適用される。
6.まとめ
AI技術の研究開発や実用化で、中国は、アメリカの巨大テック企業に対抗できる実力を持っています。大規模言語モデルでも、画像生成AIでも、新しい技術が出ると、すぐに中国語対応が行われ、中国語で最先端の技術を体験できるのは、うらやましい限りです。
中国は、BAAIなどに人材、計算資源、資金を集めて、集中的に人工知能開発に取り組んでいますが、資源の少ない日本こそ、こういう取組をすべきでしょう。データを集め、人材を集め、資金を集めて計算資源を準備し、すぐに日本語対応や日本モデルが開発できるような体制が整備されることを期待します。
AI技術の開発は、あらゆる分野の技術や産業の発展に影響する最重要のテーマであり、国全体で取り組まなければならない課題だと思います。
中国における大規模言語モデルや画像生成AIの研究開発は、これまでGoogleやOpenAI(Microsoft)などよりも、むしろオープンで、多くのモデルデータやコードがオープンソースで公開され、デモやサービスも自由に使えるようになっていました。
ところが、最近、中国政府が規制を厳しくして、コンテンツ生成AIなどに制限をかけるようになってきたため、今後は、そういうオープンな姿勢が維持されるかどうか分かりません。
画像生成AIは、Stable Diffusionのモデルデータやコードが公開されたことで大きく発展しましたが、今後のAIの研究開発成果が非公開になる傾向が強まると、AIの進歩を妨げることになるおそれがあります。
AIの技術が一部の国や企業に独占されるのを避けるためにも、AI研究開発におけるオープンソース活動を守っていくことは重要だと思います。