【なんJ】DETRって次世代物体検知の救世主なんか?【D-FINE】

スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名前:風吹けば名無し :2024/03/20(水) 08:45:23.12 ID:cv24Op3K
最新論文のD-FINEが出たけどどうなん?YOLOの時代終わるんか?

2 名前:CV研究者 :2024/03/20(水) 08:46:45.89 ID:deTr5R2n
精度と速度のバランスがいいよな。AP55.8%で78FPSはガチ

3 名前:院生やけど :2024/03/20(水) 08:47:12.34 ID:ml9Vk7L4
YOLOが長年頑張ってきた領域にDETRが攻め込んできた感あるわ
end-to-endってのが革新的よな

4 名前:情報系初心者です :2024/03/20(水) 08:48:01.67 ID:nwB3Jp5Q
すみません、DETRって何ですか?よく分からないです…

5 名前:親切な研究者 :2024/03/20(水) 08:49:23.45 ID:kNd8Hj2M
>>4
Detection Transformerの略やで
従来のYOLOと違って、Transformerベースで物体検出するんや
NMSとかアンカーボックス要らんから処理がシンプル

6 名前:企業研究者 :2024/03/20(水) 08:50:11.23 ID:aiR9Cs6V
Fine-grained Distribution Refinementのアイデアは秀逸
確率分布使って徐々に位置合わせしていくの、精度上がって当然

7 名前:深層学習エンジニア :2024/03/20(水) 08:51:33.78 ID:dpL7Nt4K
メモリ効率もいいしな
31Mパラメータで91GFLOPsはコスパ良すぎ

8 名前:コンピュータビジョン博士 :2024/03/20(水) 08:52:45.90 ID:phD8Wx5M
Objects365でプレトレーニングした結果も興味深いわ
59.3% APは現状のSOTA超えとるで

9 名前:別の初心者です :2024/03/20(水) 08:53:22.56 ID:bgN4Ky9R
SOTAってなんですか?難しくて…

10 名前:優しい院生 :2024/03/20(水) 08:54:01.33 ID:ntP5Qw2L
>>9
State of the Artの略で、現在の最高水準って意味やで!

11 名前:実装おじさん :2024/03/20(水) 08:55:12.67 ID:imp9Ls3B
Global Optimal Localization Self-Distillationも効果的やな
知識蒸留(教師モデルの知識を生徒モデルに転送する手法)のオーバーヘッド少なくて済むのええわ

12 名前:産総研研究員 :2024/03/20(水) 08:56:33.89 ID:rsT7Hk4N
小さいモデルの性能がまだ課題やな
D-FINE-SはYOLOv10-Sとそこまで差がない

13 名前:大学教授 :2024/03/20(水) 08:57:45.12 ID:prF5Jm2K
でも軽量モデルでもObjects365プレトレーニングの恩恵受けられるのは強み
>>12の指摘は確かにその通りやが

14 名前:企業研究者 :2024/03/20(水) 08:58:22.45 ID:aiR9Cs6V
DETR系はまだ発展途上やしな
これからもっと改良の余地ありそう

15 名前:量子コンピュータ研究者 :2024/03/20(水) 08:59:11.78 ID:qbT8Np3M
次世代量子アーキテクチャとの親和性も気になるところ
理論的にはTransformerベースの方が量子化しやすいはず

16 名前:風吹けば名無し :2024/03/20(水) 09:00:23.45 ID:cv24Op3K

量子まで出てきて草

17 名前:実装おじさん :2024/03/20(水) 09:01:12.34 ID:imp9Ls3B
>>15
まだ先の話やろ…
現実的な課題から考えていこう

18 名前:コンピュータビジョン博士 :2024/03/20(水) 09:02:33.67 ID:phD8Wx5M
エッジデバイスでの実装が現実的な次の課題やな
T4でのベンチマークはええけど、モバイルGPUでどうなるか

19 名前:組込みエンジニア :2024/03/20(水) 09:03:45.90 ID:emB7Kt4R
そうそう、実環境での最適化がこれからの勝負
特にNVIDIA以外のプラットフォームでの性能が気になる

20 名前:深層学習エンジニア :2024/03/20(水) 09:04:22.56 ID:dpL7Nt4K
TensorRT(NVIDIAのプラットフォーム)以外のフレームワークでのベンチマークも見たいわね

21 名前:産総研研究員 :2024/03/20(水) 09:05:11.23 ID:rsT7Hk4N
特にスマホとかIoTデバイスでの性能どうなんやろ
そこがYOLOの強みやったし

22 名前:大学教授 :2024/03/20(水) 09:06:33.78 ID:prF5Jm2K
学習時間の短縮も見逃せんポイントや
72エポックで収束すんのは相当早い

23 名前:CV研究者 :2024/03/20(水) 09:07:45.12 ID:deTr5R2n
>>22
せやな。従来のDETRの課題やった収束の遅さも改善されとる

24 名前:院生やけど :2024/03/20(水) 09:08:22.45 ID:ml9Vk7L4
Target Gating Layerのアイデアも効いとるんちゃう?
情報のもつれ防いでて学習効率上がってそう

25 名前:実装おじさん :2024/03/20(水) 09:09:11.78 ID:imp9Ls3B
>>24
その辺の理論的な解析もっと深掘りしてほしいわ
なんで効くんかちゃんと説明されてないよな

26 名前:深層学習理論家 :2024/03/20(水) 09:10:23.45 ID:thE8Rp2M
確かにAttentionの理論研究の観点からも興味深い
特にDecoder部分の挙動解析が必要かも

27 名前:企業研究者 :2024/03/20(水) 09:11:12.34 ID:aiR9Cs6V
論文のAblation studyはしっかりしてるけど
まだ説明しきれてない部分も多いよな

28 名前:コンピュータビジョン博士 :2024/03/20(水) 09:12:33.67 ID:phD8Wx5M
でもこれだけの性能出てれば実用化は進みそう
理論的な解明は後からついてくるかも

29 名前:組込みエンジニア :2024/03/20(水) 09:13:45.90 ID:emB7Kt4R
実装の観点からすると、シンプルな構造なのは大きな利点
デバッグもしやすそう

30 名前:量子コンピュータ研究者 :2024/03/20(水) 09:14:22.56 ID:qbT8Np3M
>>17
すまんな、先走りすぎた
でも将来性は確かにありそうやで

31 名前:風吹けば名無し :2024/03/20(水) 09:15:11.23 ID:cv24Op3K
結局YOLOとDETR、どっちが勝つんや?

32 名前:大学教授 :2024/03/20(水) 09:16:33.78 ID:prF5Jm2K
勝ち負けの問題やないで
用途によって使い分けていくんやろな
両者の良いとこ取りした新手法も出てくるかもしれん

33 名前:画像処理研究者 :2024/03/20(水) 09:17:45.12 ID:imP8Vw2K
>>6
Fine-grained Distribution Refinementのアイデアについて。
確率分布でエッジ位置表現するの天才的やな
従来のL1ロスとIoUロスの限界突破してる

34 名前:深層学習エンジニア :2024/03/20(水) 09:18:22.45 ID:dpL7Nt4K
ウェイト関数W(n)の設計もええな
微調整と大きな修正を両立できとる

35 名前:院生やけど :2024/03/20(水) 09:19:11.78 ID:ml9Vk7L4
でもハイパーパラメータaとcの設定難しそう
論文見たら結構試行錯誤してそう

36 名前:企業研究者 :2024/03/20(水) 09:20:23.45 ID:aiR9Cs6V
>>35
学習可能にしても性能下がるって書いてあるな
固定値の方が最適化しやすいんやろ

37 名前:コンピュータビジョン博士 :2024/03/20(水) 09:21:12.34 ID:phD8Wx5M
分布の bin 数も32が最適なの興味深いわ
これ以上増やしても性能変わらんのね

38 名前:実装おじさん :2024/03/20(水) 09:22:33.67 ID:imp9Ls3B
FDRのおかげでエッジの不確実性もちゃんとモデル化できてるな
アンカーフリーなのも実装的にありがたい

39 名前:産総研研究員 :2024/03/20(水) 09:23:45.90 ID:rsT7Hk4N
GFocalと比べて柔軟性高いよな
イテレーティブな修正が効いてる

40 名前:深層学習理論家 :2024/03/20(水) 09:24:22.56 ID:thE8Rp2M
理論的な美しさもある
確率分布で表現することで、不確実性の定量化も自然にできる

41 名前:親切な研究者 :2024/03/20(水) 09:25:11.23 ID:kNd8Hj2M
ちょっと噛み砕いて説明するで
例えば猫の写真があったとする

従来の方法:
「猫の右端はx=100やで!」って確信持って言い切る

新しい方法(FDR):
「猫の右端はx=98〜102のどこかにある可能性が高いなぁ。
でも100がいちばんありそう。ちょっとずつ見直して位置決めていこう」
みたいな感じで慎重に位置決めしていく

42 名前:情報系初心者です :2024/03/20(水) 09:26:33.78 ID:nwB3Jp5Q
>>41
なるほど!人間の目の動きみたいな感じですか?

43 名前:画像処理研究者 :2024/03/20(水) 09:27:45.12 ID:imP8Vw2K
>>42
せやな!人間も一瞬で正確な位置決められへんよな
何回か見直して微調整するみたいな

44 名前:実装おじさん :2024/03/20(水) 09:28:22.45 ID:imp9Ls3B
野球で例えると、
従来:ストライクゾーンの端ピッタリ!
FDR:まずこのへんかな→もうちょい内側かも→ここやな
って感じやな

45 名前:別の初心者です :2024/03/20(水) 09:29:11.78 ID:bgN4Ky9R
>>44
あー!野球の例わかりやすいです!
審判も一瞬で判定せずによく見てますもんね

46 名前:深層学習理論家 :2024/03/20(水) 09:30:23.45 ID:thE8Rp2M
医療画像とかでも似たような考え方使えそうやな
腫瘍の境界とか、慎重に位置決めせなあかんし

47 名前:大学教授 :2024/03/20(水) 09:31:12.34 ID:prF5Jm2K
自動運転でも重要やな
「車の位置はここ!」より
「車はこの辺にある可能性が高い」って考え方の方が安全よな

48 名前:CV研究者 :2024/03/20(水) 09:32:33.67 ID:deTr5R2n
要するに、一発勝負やなくて
徐々に精度上げていく方式ってことやな
人間の直感にも合ってる

49 名前:組込みエンジニア :2024/03/20(水) 09:33:45.90 ID:emB7Kt4R
91GFLOPsって実際どれくらいなんや
家庭用ゲーム機で例えるとPS4が1.84TFLOPSくらいやから
かなり現実的な計算量やな

50 名前:深層学習エンジニア :2024/03/20(水) 09:34:22.56 ID:dpL7Nt4K
スマホでも動く計算量やで
iPhone 15のA17 ProチップでもTFLOPSいってるし

51 名前:情報系初心者です :2024/03/20(水) 09:35:11.23 ID:nwB3Jp5Q
FLOPSってなんですか?

52 名前:親切な研究者 :2024/03/20(水) 09:36:33.78 ID:kNd8Hj2M
>>51
1秒間に何回計算できるかって指標や
例えば足し算を1秒間に91×10億回できるってことやね
Gは10億倍って意味や

53 名前:実装おじさん :2024/03/20(水) 09:37:45.12 ID:imp9Ls3B
YOLOv10-Lが120GFLOPsやから
その差29GFLOPsは大きいで
バッテリー持ちとか実環境やと結構違う

54 名前:産総研研究員 :2024/03/20(水) 09:38:22.45 ID:rsT7Hk4N
>>53
せやな
スマホのバッテリー1%違うだけでもユーザー体験変わってくる
組込み環境では重要

55 名前:院生やけど :2024/03/20(水) 09:39:11.78 ID:ml9Vk7L4
RTX 4090なら余裕で動くけど
Switch的な省電力環境でも91GFLOPsなら行けそう

56 名前:企業研究者 :2024/03/20(水) 09:40:23.45 ID:aiR9Cs6V
IoTカメラとかドローンとか
バッテリー制約厳しい環境でこそ真価発揮しそう

57 名前:深層学習エンジニア :2024/03/20(水) 09:41:12.34 ID:dpL7Nt4K
GO-LSDって要は「上級生が下級生に教える」みたいなもんやな
後ろの層で学んだことを前の層にフィードバックする

58 名前:親切な研究者 :2024/03/20(水) 09:42:33.67 ID:kNd8Hj2M
例えば運転の練習で例えると、
1周目:「ハンドル曲げすぎた…」
2周目:「さっきより上手くなった」
3周目:「コツ掴んできた!」
みたいな感じで、後からの経験を活かしてるんや

59 名前:情報系初心者です :2024/03/20(水) 09:43:45.90 ID:nwB3Jp5Q
>>58
なるほど!人間の学習過程みたいですね!

60 名前:画像処理研究者 :2024/03/20(水) 09:44:22.56 ID:imP8Vw2K
普通の知識蒸留だと先生と生徒が別々のモデルやけど
これは自分で学んだことを自分にフィードバックするんや
だから学習コストも少なくて済む

61 名前:実装おじさん :2024/03/20(水) 09:45:11.23 ID:imp9Ls3B
野球で言うと、
9回表での打撃経験を1回表に活かせるみたいな
時間遡って経験値共有できる感じやな

62 名前:コンピュータビジョン博士 :2024/03/20(水) 09:46:33.78 ID:phD8Wx5M
>>61
ええ例えやな
しかも試合中にリアルタイムでフィードバックできる
従来の知識蒸留は試合終わってからしか反映できへんかった

63 名前:院生やけど :2024/03/20(水) 09:47:45.12 ID:ml9Vk7L4
DDF Lossのアイデアもナイスやな
IoUと確信度でバランス取ってる

64 名前:大学教授 :2024/03/20(水) 09:48:22.45 ID:prF5Jm2K
要するに「後からわかった正解を前の段階に教えてあげる」
ってことやな
人間の学習過程に近い設計や

65 名前:深層学習理論家 :2024/03/20(水) 09:49:11.78 ID:thE8Rp2M
これ理論的にも興味深いな
時系列じゃない学習でも時間的な要素入れられる

66 名前:画像処理研究者 :2024/03/20(水) 09:50:23.45 ID:imP8Vw2K
Target Gatingって、電車の改札みたいなもんやな
必要な情報だけ通して、余計な情報は通さんようにする

67 名前:親切な研究者 :2024/03/20(水) 09:51:12.34 ID:kNd8Hj2M
例えば運動会の玉入れで例えると、
「赤玉だけ入れろ」って決めたら白玉は無視する
みたいな感じで情報を選別してるんや

68 名前:情報系初心者です :2024/03/20(水) 09:52:33.67 ID:nwB3Jp5Q
>>67
なるほど!情報を種類分けして必要なものだけ使うんですね!

69 名前:実装おじさん :2024/03/20(水) 09:53:45.90 ID:imp9Ls3B
野球で言うと、
バッターは投手の動作見るけど
背景の観客席は見ないようにするみたいな
集中すべき情報だけ取り出す感じやな

70 名前:深層学習エンジニア :2024/03/20(水) 09:54:22.56 ID:dpL7Nt4K
シグモイド関数使って重要度判定するの賢いわ
0か1かじゃなくてグラデーション付けられる

71 名前:コンピュータビジョン博士 :2024/03/20(水) 09:55:11.23 ID:phD8Wx5M
これがないと層が深くなるほど
情報がごちゃごちゃになってまう
スパム除去みたいなもんや

72 名前:院生やけど :2024/03/20(水) 09:56:33.78 ID:ml9Vk7L4
でも設計難しそう
どの情報が重要かの判断基準が要るよな

73 名前:大学教授 :2024/03/20(水) 09:57:45.12 ID:prF5Jm2K
人間の注意力みたいなもんやな
必要な情報にフォーカスして
ノイズは無視する仕組み

論文PDF

 原文

  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な日本語の用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

物体検出 エッジ位置推定 知識蒸留 情報選別 確率分布モデル化

いいなと思ったら応援しよう!