【速報】Metaが画像の透かし技術「WAM」発表 複数透かしの検出が可能に


スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名無しさん@お腹いっぱい。 2024/11/19(月) 08:23:45.12 ID:wa8m1k9p0
Metaが新しい透かし技術WAM(Watermark Anything Model)発表したで
特徴は:
・画像の一部分だけに透かしを入れられる
・複数の透かしを同時に埋め込める
・人間の目には見えにくい
・従来手法より頑健性が高い
ソース:arxiv.org/abs/2411.07231

2 画像処理研究者 2024/11/19(月) 08:25:12.45 ID:1mg3p4c8d
これは革新的やな。従来の手法は画像全体に対して一つの透かししか扱えなかったけど、
セグメンテーションタスクとして再定義したのが秀逸

3 情報科学初心者 2024/11/19(月) 08:26:33.78 ID:n00b1e5t0
すまん、素人なんやが透かしってどういう用途があるんや?

4 セキュリティエンジニア 2024/11/19(月) 08:27:45.90 ID:s3c4r1ty9
>>3
主な用途は著作権保護や改ざん検知やな
最近だとAI生成コンテンツの識別にも使われとる

5 Deep Learning研究者 2024/11/19(月) 08:29:22.34 ID:d33p84rn9
アーキテクチャ面白いな
embedderがAutoEncoderベースで、extractorがViTベースか
パラメータ数もembedder 1.1M、extractor 96Mと良いバランス

6 コンピュータビジョン博士 2024/11/19(月) 08:31:15.67 ID:cv5phd2k4
JNDマップ使って人間の視覚特性に合わせて透かしの強度調整してるのも良いポイントやな
PSNR 38dB程度でほぼ見えへん

7 機械学習エンジニア 2024/11/19(月) 08:33:42.91 ID:ml3ng1n3r
DBSCANでクラスタリングして複数メッセージ抽出するのナイスアイデアや
事前にクラスタ数指定せんでもええのが実用的

8 DLフレームワーク開発者 2024/11/19(月) 08:35:28.55 ID:fr8mw0rk5
実装めっちゃ丁寧やな
特にextractorのarchitectureは最新のViTベースのセグメンテーションモデル踏襲してて好感持てる

9 画像処理初心者 2024/11/19(月) 08:37:11.23 ID:b3g1nn3r0
すまんが、PSNRって何なんや?

10 信号処理専門家 2024/11/19(月) 08:38:55.89 ID:s1g9pr0c5
>>9
Peak Signal-to-Noise Ratioの略で、画像の品質評価によく使われる指標や
値が大きいほど元画像との差が小さいってことやな
38dBはかなり良い値や

11 暗号研究者 2024/11/19(月) 08:40:33.67 ID:cr7pt0gr8
32ビットのメッセージ長は若干短いかもしれんな
まあ検出と復号を分離してる分、実用上は問題ないか

12 画像圧縮研究者 2024/11/19(月) 08:42:18.90 ID:c0mpr3ss4
JPEG圧縮への耐性が従来手法より優れてるのは評価できるな
実用上重要なポイントや

13 AIセキュリティ研究者 2024/11/19(月) 08:44:45.23 ID:a1s3c9k8d
生成AIコンテンツの識別に使えそうやな
部分的に使ったAIツールも特定できる可能性あるし

14 AIGC研究者 2024/11/19(月) 08:46:22.78 ID:g3n3r8v3d
>>13
せやな。Stable DiffusionとかMidjourney使った部分だけに異なる透かし入れられるのは面白い

15 画像処理研究者 2024/11/19(月) 08:48:11.34 ID:1mg3p4c8d
ちなみにコード公開されとるで
github.com/facebookresearch/watermark-anything

16 機械学習エンジニア 2024/11/19(月) 08:50:33.56 ID:ml3ng1n3r
>>15
マジか!実装見てみるわ
PyTorch使ってんのかな

17 DLフレームワーク開発者 2024/11/19(月) 08:52:15.89 ID:fr8mw0rk5
>>16
PyTorchやな。依存ライブラリもミニマムで良心的

18 コンピュータビジョン博士 2024/11/19(月) 08:54:22.45 ID:cv5phd2k4
訓練データはCOCOデータセット使ってるんか
セグメンテーションマスクあるから都合良かったんやろな

19 Deep Learning研究者 2024/11/19(月) 08:56:44.67 ID:d33p84rn9
二段階学習も賢いな
最初は頑健性重視、次にJNDとマルチメッセージ対応
一気にやると不安定になりがちなの避けられる

20 セキュリティエンジニア 2024/11/19(月) 08:58:33.12 ID:s3c4r1ty9
inpaintingへの耐性も結構良さそうやな
LaMa使った改変にも耐えられる

21 信号処理専門家 2024/11/19(月) 09:00:15.78 ID:s1g9pr0c5
毛皮とか白黒の強いコントラストがある部分で若干透かしが見えるのは改善の余地ありかも

22 画像圧縮研究者 2024/11/19(月) 09:02:44.90 ID:c0mpr3ss4
>>21
確かに。JNDだけじゃなくて、透かし信号自体にも正則化かけた方がええかもな

23 暗号研究者 2024/11/19(月) 09:04:23.56 ID:cr7pt0gr8
高解像度への対応も賢いな
固定解像度で学習して、推論時にリサイズするだけ

24 AIセキュリティ研究者 2024/11/19(月) 09:06:11.23 ID:a1s3c9k8d
実験環境もしっかり書いてあるな
8 V100 GPUで2日くらいか
再現可能性高そう

25 情報科学初心者 2024/11/19(月) 09:08:33.45 ID:n00b1e5t0
みんな凄い詳しいな…
でもなんとなく画期的な技術なんは分かったで!

26 AIGC研究者 2024/11/19(月) 09:10:22.78 ID:g3n3r8v3d
環境影響についても言及してるの良いよな
CO2換算で約20トンとか

27 機械学習エンジニア 2024/11/19(月) 09:12:45.90 ID:ml3ng1n3r
コードの実装綺麗やな
docstringもしっかりしてる

28 画像処理研究者 2024/11/19(月) 09:14:33.67 ID:1mg3p4c8d
これMetaのAI透かし分野での地位確立する重要な一歩になりそうやな

29 Deep Learning研究者 2024/11/19(月) 09:16:22.45 ID:d33p84rn9
問題点も正直に書いてるのは好感持てるな
32ビット制限とか、見える場合があるとか

30 コンピュータビジョン博士 2024/11/19(月) 09:18:11.23 ID:cv5phd2k4
総じて完成度高い研究やな
実用化も近そう

31 セキュリティエンジニア 2024/11/19(月) 09:20:33.56 ID:s3c4r1ty9
EU AI法の要件も満たせそうやしな
透かしによるAIコンテンツ識別推奨されとるし

32 DLフレームワーク開発者 2024/11/19(月) 09:22:45.78 ID:fr8mw0rk5
次は他のフレームワークへの移植も期待したいな
TensorFlowとか

33 暗号研究者 2024/11/19(月) 09:24:22.90 ID:cr7pt0gr8
まあ課題はあるもののかなり実用的な提案やと思う
今後の発展も楽しみやな

34 画像処理研究者 2024/11/19(月) 09:26:15.67 ID:1mg3p4c8d
そろそろまとめとくか
・画期的な複数透かし検出技術
・実装も丁寧で再現性高い
・実用化に近い完成度
・改善の余地も明確
こんなとこやな

35 Deep Learning研究者 2024/11/19(月) 09:28:45.23 ID:d33p84rn9
新規性についてまとめると:
1. 透かしをセグメンテーションタスクとして再定義
2. 複数透かしの同時検出・抽出
3. 二段階学習方式の導入
この3点が特に革新的やな

36 コンピュータビジョン研究者 2024/11/19(月) 09:30:12.67 ID:cv5phd2k4
>>35
せやな。特にセグメンテーションとして捉え直したのが秀逸
従来のグローバルな判定から局所的な判定への転換は発想の転換や

37 信号処理専門家 2024/11/19(月) 09:32:33.89 ID:s1g9pr0c5
DBSCANでクラスタリングするアイデアも新しいな
クラスタ数未知でも対応できるのが実用的やし

38 機械学習エンジニア 2024/11/19(月) 09:34:56.78 ID:ml3ng1n3r
先行研究のEditGuardと比べても、位置特定の精度が段違いやしな
特にcropingへの耐性が違う

39 暗号研究者 2024/11/19(月) 09:36:22.45 ID:cr7pt0gr8
JNDを二段階目の学習で導入するのも新しいアプローチやな
従来の敵対的学習より安定してて、かつ効果的

40 情報科学初心者 2024/11/19(月) 09:38:15.90 ID:n00b1e5t0
すまん、先行研究って何があったんや?

41 画像処理研究者 2024/11/19(月) 09:40:33.67 ID:1mg3p4c8d
>>40
主なところだと:
・HiDDeN (2018年):深層学習使った基本的な透かし
・StegaStamp (2020年):実世界での撮影にも耐えられる透かし
・EditGuard (2024年):位置特定できる透かし
WAMはこれらの良いとこ取りしつつ、新機能追加したイメージや

42 AIセキュリティ研究者 2024/11/19(月) 09:42:45.23 ID:a1s3c9k8d
高解像度への対応方法も新しいな
学習は低解像度で行って、推論時にスケーリングする手法は計算効率良い

43 AIGC研究者 2024/11/19(月) 09:44:22.78 ID:g3n3r8v3d
実はAI生成検知の観点からも新しい
複数のAIツール使った箇所を特定できるのは画期的や

44 セキュリティエンジニア 2024/11/19(月) 09:46:11.34 ID:s3c4r1ty9
>>43
確かに。画像の一部だけAIで生成・編集した場合の検出に使えるな
これまでこういうツールなかったはず

45 DLフレームワーク開発者 2024/11/19(月) 09:48:33.56 ID:fr8mw0rk5
アーキテクチャの新規性も評価されるべきやな
embedderとextractorのバランス良い組み合わせは達人の技を感じる

論文PDF

 原文

  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

WAM Watermark_Anything_Model Just_Noticeable_Difference DBSCAN image_segmentation

いいなと思ったら応援しよう!