見出し画像

Ambiguous-to-Concrete Realistic Human Image Synthetic via Generative Model

2023年度研究会推薦博士論文速報
[コンピュータグラフィックスとビジュアル情報学研究会]

Peng Yichen
(東京工業大学 情報理工学院 情報工学系 小池研究室 ポスドク研究員)

邦訳:生成モデルによる曖昧から具体的なリアルな人物画像の合成

■キーワード
生成モデル/画像生成/ユーザインタフェース

【背景】生成AIはユーザが所望する結果を得るのが困難
【問題】AIの生成過程と人の創造過程の不一致
【貢献】人の各創造段階の設計意図に合わせたパイプライン

 ピカソは,「絵は事前に考えられたものではない.描かれる過程で,それは人の考えが変わるにつれて変化する.そして完成したとき,それは見る人の心の状態に応じて変わり続ける.」と指摘しています.すなわち,創造は探求であり,人は満足が得られるまで制作物に反復して思いを巡らせ,着想を得ています.従来の生成AIは,この理念を完全に包含しているとは言えないため,本研究では創造過程を「曖昧から具体へ」という連続体として概念化することに挑戦しました.

 現状の生成AIは,単純な入力から複雑で高品質な画像を生成できます.この技術の進歩が人の生産性の顕著な向上に直接つながるかどうかを解明することは,今後重要になると考えます.従来の生成AIの大多数はエンドツーエンドの「ブラックボックス」として機能しており,人の直接的な入力から所望の結果を得ることを困難にしています.

 これらの課題に対し,論文では以下の議論をしました.
1)アルゴリズムの開発の観点から:入力モダリティの多様性を許容するようにしました.テキストプロンプト,画像参照,スケッチやセマンティックマップを含む空間的ガイダンスを通じた画像の生成能力を例証しました.
2)モデルとの対話の観点から:創作活動中に広範な対話編集機能を提供することで,探求と洗練のための制作支援ツールとなり得るようにしました.
3)デザインプロセスの観点から:創造の各段階における特定のニーズを理解し,ユーザのワークフローに関与するようにアルゴリズムを調整しました.

 本論文では,人の全身画像デザインを題材として,デザインのワークフローを以下の三段階に分解しました.
ポーズ初期化:ユーザの意図がまだ形成されておらず,探索が必要な初期段階では,「グローバルからローカルへ」という3Dモーションデータの取得スキームを導入しました.骨格スケッチの代わりに,ユーザは特定の関節の軌跡を描き,モーションデータの断片を取得します.ユーザは自由視点でモーションデータを閲覧できることで,特にダンスなどのダイナミックな動作の描写において所望のポーズを容易に選択できます.
服装選択:この段階では,多数の服装サンプルから望ましいデザインを特定しつつ,反復的な洗練を行うことがよくあります.本論文では,衣装デザインの専門知識を必要としない「イメージガイド」の生成モデルを提供し,ユーザが姿勢と全体的なキャラクターの描写との服装の整合に集中できるようにしました.
顔とディテールの描写:全体的な服装とポーズを確定した後,ユーザは通常,特に髪型や表情のような顔の属性を含む細部のデザインへと意識を移します.高忠実度の「スケッチガイド」生成モデルを提案し,出力が入力を忠実に反映しつつ,編集しない領域の一貫性を保証しました.

 実証実験を通じて,提案したパイプラインが「曖昧から具体」への各フェーズを巧みに誘導し,描画の支援を提供できることを確認しました.提案した方法論や概念は人物像デザインに限定されるものではなく,多様なデザインシナリオに容易に適用可能であると考えています.



■Webサイト/動画/アプリなどのURL
DualMotion
https://www.youtube.com/watch?v=-tk8q8LSiL0
DiffFaceSketch
https://puckikk1202.github.io/difffacesketch2023/

(2024年5月29日受付)
(2024年8月15日note公開)

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー
 取得年月:2024年3月
 学位種別:博士(情報科学)
 大学:北陸先端科学技術大学院大学

ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー ー

推薦文[メディア知能情報領域]コンピュータグラフィックスとビジュアル情報学研究会
この研究は,より実用性の高い人物画像のAIを提案したものです.提案手法は,ユーザの描画過程の各段階におけるデザイン意図(全身のポーズ,服装,表情)に沿った異なる入力に対応できます.この段階的なプロセスを経ることで,人が行う「曖昧から具体へ」の描画過程を支援することができます.

研究生活  私は大学でデザイン専攻のアニメーションを学び,デジタルメディアコンテンツの創作に非常に興味があります.創作と探求を通じて,画像生成技術などの先端技術と,専門ソフトウェアを用いた従来のデジタルコンテンツ制作方法との違いを試し,比較することに熱中しています.企業でのインターンシップを通じて,デザイン創作と実際のデザイナーによるAI生成技術の使用には隔たりがあることに気付きました.私は次世代のデジタルメディアコンテンツの創作において,生成技術と従来のデザインが相補的に活用されるべきだと考えています.本論文はこの視点を出発点として構想し,執筆しました.この機会を借りて,JAIST宮田研究室での研究生活において指導してくださった先生方や先輩方に心から感謝申し上げます.