【朗報】画像復元の新技術「DreamClear」が化けそう


スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 風吹けば名無し 2024/11/05(火) 08:45:23.12 ID:Drm0Cl3ar
これマジですごくね?
https://github.com/shallowdream204/DreamClear

2 風吹けば名無し 2024/11/05(火) 08:46:15.45 ID:CV1sP3rt
なんやこれ...古い写真とかキレイにできるんか?

3 コンピュータビジョン研究者 ◆CV8xK9p2Yt 2024/11/05(火) 08:47:33.89 ID:ExP3rt123
DITベースのアーキテクチャに新しいMoAMとかいう機構入れてるのが革新的やね
従来のControlNetと違ってDiffusion Transformerに最適化されとる

4 風吹けば名無し 2024/11/05(火) 08:48:45.67 ID:Nwb1E123
>>2
せやで。劣化した画像をAIで復元できる技術や

5 深層学習エンジニア ◆DL5nG9n3Er 2024/11/05(火) 08:49:22.34 ID:DpL3rn123
データセット生成のアプローチも面白いわ
プライバシー考慮しつつ100万枚作ってるのは偉い

6 風吹けば名無し 2024/11/05(火) 08:50:11.90 ID:Bg1nn3r45
ワイ機械学習初心者、難しすぎて咽び泣く

7 画像処理研究者 ◆ImP7c3ss0r 2024/11/05(火) 08:51:33.56 ID:ImgP70123
>>3
その通りや。従来のGANベースの手法と比べても知覚品質が段違いやで

8 深層学習教授 ◆Pr0F3ss0r9 2024/11/05(火) 08:52:45.78 ID:PrF3ss123
GenIRのデュアルプロンプト学習も興味深いな
否定的なプロンプトも同時に学習させる発想が秀逸

9 風吹けば名無し 2024/11/05(火) 08:53:22.45 ID:Us3r98765
これ実用化されたら写真館とかヤバくね?

10 コンピュータビジョンPHD ◆PhD8xK9p2Y 2024/11/05(火) 08:54:11.23 ID:PhD123456
>>8
せやな。否定サンプル使うことでより自然な画像生成できてる

11 画像処理エンジニア ◆ImgE9n3Er5 2024/11/05(火) 08:55:33.67 ID:ImgE56789
実装の細かいところ見たけど、MoAMのトークンワイズな劣化表現がエエな
複雑な劣化にも対応できる

12 風吹けば名無し 2024/11/05(火) 08:56:44.89 ID:Nwb2E456
なんか難しい話多くて草

13 AI研究者 ◆AI8xR3s3rc 2024/11/05(火) 08:57:22.34 ID:AIR123456
>>6
簡単に言うと、画像の劣化具合を細かく分析して、それぞれに最適な修復方法を適用する仕組みやで

14 深層学習PHD ◆DLPhD7k9p2 2024/11/05(火) 08:58:45.67 ID:DLPhD7890
評価指標見ても従来手法より優れてるな
特にFIDとDISTSの改善が顕著

15 風吹けば名無し 2024/11/05(火) 08:59:33.45 ID:Bg1nn3r45
>>13
なるほど!少しわかった気がする

16 コンピュータサイエンス教授 ◆CS8xPr0f3s 2024/11/05(火) 09:00:22.78 ID:CSPr0f123
downstream tasksでの性能も興味深いわ
物体検出やセグメンテーションでも良い結果出てる

17 画像処理研究員 ◆ImgR3s3rc4 2024/11/05(火) 09:01:44.56 ID:ImgR34567
>>14
ユーザースタディの結果も良好やしな
実際の人間の知覚でも優位性示せてる

18 風吹けば名無し 2024/11/05(火) 09:02:33.89 ID:Us3r98765
これって無料で使えるんか?

19 機械学習エンジニア ◆ML5nG9n3Er 2024/11/05(火) 09:03:22.45 ID:MLE123456
>>18
まだ研究段階やけど、githubにコード公開されとるで
A100 GPU必要やけど

20 深層学習研究者 ◆DL8xR3s3rc 2024/11/05(火) 09:04:11.78 ID:DLR123456
計算コストの話もしとかんとあかんな
推論に50ステップ必要なのはちょっと重い

21 風吹けば名無し 2024/11/05(火) 09:05:33.34 ID:Nwb1E123
でもすごい技術なんやな
未来感あるわ

22 コンピュータビジョン教授 ◆CV8xPr0f3s 2024/11/05(火) 09:06:22.67 ID:CVPr0f123
>>20
そやな。実用化にはまだ課題あるけど、研究としては画期的

23 AI工学研究員 ◆AI8xEng1n3 2024/11/05(火) 09:07:44.89 ID:AIE123456
MLLMとの組み合わせも良いアイデアやな
セマンティックな情報も活用できてる

24 風吹けば名無し 2024/11/05(火) 09:08:33.56 ID:Bg1nn3r45
>>19
GPUって高いんやろ?

25 画像処理PHD ◆ImgPhD7k9p 2024/11/05(火) 09:09:22.23 ID:ImgPhD123
ablation studyの結果も説得力あるな
各コンポーネントの貢献度がよく分かる

26 深層学習教授 ◆DL8xPr0f3s 2024/11/05(火) 09:10:11.45 ID:DLPr0f123
>>24
せやで。A100は1枚数百万円する
でも将来的には軽量化されるやろ

27 コンピュータビジョン研究員 ◆CV8xR3s3rc 2024/11/05(火) 09:11:33.78 ID:CVR123456
この分野、日本の研究者も頑張ってるな
共著者に日本人おるで

28 風吹けば名無し 2024/11/05(火) 09:12:22.34 ID:Us3r98765
すまん、まだ完全には理解できてへんのやが
これって写真を良くする最強AIってことでええんか?

29 機械学習研究者 ◆ML8xR3s3rc 2024/11/05(火) 09:13:44.67 ID:MLR123456
>>28
そうやで。特に実世界の様々な劣化に対して強いのが特徴や
従来技術より自然な復元ができる

30 画像処理教授 ◆ImgPr0f3s9 2024/11/05(火) 09:14:33.89 ID:ImgPr0f123
将来的には携帯とかにも搭載される可能性あるな
軽量化は課題やけど、期待できる技術や

31 風吹けば名無し 2024/11/05(火) 09:15:22.45 ID:Nwb2E456
ほんまに未来の技術って感じやな
楽しみや

32 AI研究教授 ◆AI8xPr0f3s 2024/11/05(火) 09:16:11.78 ID:AIPr0f123
>>30
モバイル向けの最適化は今後の重要な研究テーマになるやろな

33 深層学習研究員 ◆DL8xR3s3rc 2024/11/05(火) 09:17:33.56 ID:DLR567890
とりあえずこの分野はDreamClearがSOTAってことでええんやな

34 コンピュータサイエンス研究者 ◆CS8xR3s3rc 2024/11/05(火) 09:18:22.23 ID:CSR123456
>>33
現時点ではそうやな。ただ技術の進歩早いから、すぐに超えられる可能性もある
でも方向性として正しいと思う

35 風吹けば名無し 2024/11/05(火) 09:19:44.89 ID:Us3r98765
なんJ民の知識レベル高すぎて草

36 コンピュータビジョン研究者 ◆CV8xK9p2Yt 2024/11/05(火) 09:20:33.45 ID:ExP3rt123
もう少しMoAMの話させてくれ
従来のControlNetやと空間的な制御しかできひんかったんやけど
MoAMはトークンごとに最適な復元エキスパートを動的に選択できるんや

37 深層学習PHD ◆DLPhD7k9p2 2024/11/05(火) 09:21:22.78 ID:DLPhD7890
>>36
せやな。特にK=3のエキスパート使うとこがエエよな
劣化の度合いに応じて使い分けられる

38 風吹けば名無し 2024/11/05(火) 09:22:11.56 ID:Bg1nn3r45
エキスパートって何なんや...

39 AI研究者 ◆AI8xR3s3rc 2024/11/05(火) 09:23:33.89 ID:AIR123456
>>38
簡単に言うと、それぞれ得意分野持った専門家みたいなもんや
軽い劣化専門、重度の劣化専門、中間の劣化専門、みたいな

40 画像処理研究者 ◆ImP7c3ss0r 2024/11/05(火) 09:24:22.45 ID:ImgP70123
DITのアーキテクチャとの相性もええよな
Pixart-αをベースに使ってるのも賢い選択や

41 深層学習エンジニア ◆DL5nG9n3Er 2024/11/05(火) 09:25:11.78 ID:DpL3rn123
>>40
せやな。特にクロスアテンション部分の設計が秀逸
LQ特徴量とリファレンス特徴量のインタラクションうまいこと取れてる

42 風吹けば名無し 2024/11/05(火) 09:26:33.56 ID:Us3r98765
>>39
なるほど!それで画像の傷み具合に応じて適切な修復方法選べるんか

43 コンピュータサイエンス教授 ◆CS8xPr0f3s 2024/11/05(火) 09:27:22.23 ID:CSPr0f123
トークンワイズな劣化マップの生成も興味深いわ
D∈R^(N×C)で表現するのがエレガント

44 機械学習研究者 ◆ML8xR3s3rc 2024/11/05(火) 09:28:44.89 ID:MLR123456
>>43
数式の美しさよな。シンプルながら表現力高い

45 画像処理PHD ◆ImgPhD7k9p 2024/11/05(火) 09:29:33.45 ID:ImgPhD123
アダプティブモジュレータ自体は既存研究でもあったけど
Mixture of Expertsと組み合わせたのが新しいよな

46 深層学習研究者 ◆DL8xR3s3rc 2024/11/05(火) 09:30:22.78 ID:DLR123456
>>45
そうそう。しかもルーティングネットワークの実装もスマート
softmax使って確率的に重み付けしてる

47 風吹けば名無し 2024/11/05(火) 09:31:11.56 ID:Nwb1E123
なんかもう意味わからんくなってきた...
でも凄いことは分かる

48 AI工学研究員 ◆AI8xEng1n3 2024/11/05(火) 09:32:33.89 ID:AIE123456
>>47
要は「傷み具合見て最適な修復方法を組み合わせる」んや
人間の修復職人みたいなもんやと思えばええで

49 コンピュータビジョンPHD ◆PhD8xK9p2Y 2024/11/05(火) 09:33:22.45 ID:PhD123456
MoAMのablation studyの結果も説得力あるな
クロスアテンションだけやと20%以上性能落ちる

50 画像処理エンジニア ◆ImgE9n3Er5 2024/11/05(火) 09:34:11.78 ID:ImgE56789
>>49
やっぱMoAMのような複雑な構造が必要なんやな
シンプルにやると性能出んのか​​​​​​​​​​​​​​​​

論文PDF

 原文

  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

DreamClear Diffusion_Transformer MoAM Image_Restoration GenIR

これらは以下の理由で重要なキーワードです:

  1. DreamClear - スレッドの主題となる新しい画像復元技術の名前

  2. Diffusion_Transformer (DiT) - DreamClearのベースとなる重要なアーキテクチャ

  3. MoAM (Mixture of Adaptive Modulator) - 論文で提案された革新的な新機構

  4. Image_Restoration - この技術が解決しようとする主要タスク

  5. GenIR - プライバシーを考慮した新しいデータセット生成パイプライン

いいなと思ったら応援しよう!