【なんJ】DETRって次世代物体検知の救世主なんか?【D-FINE】 1 hirasu1231 2024年11月20日 21:21 Papers with Code - D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement 🏆 SOTA for Real-Time Object Detection on MS COCO (box AP metr paperswithcode.com スレッド上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。1 名前:風吹けば名無し :2024/03/20(水) 08:45:23.12 ID:cv24Op3K最新論文のD-FINEが出たけどどうなん?YOLOの時代終わるんか?2 名前:CV研究者 :2024/03/20(水) 08:46:45.89 ID:deTr5R2n 精度と速度のバランスがいいよな。AP55.8%で78FPSはガチ3 名前:院生やけど :2024/03/20(水) 08:47:12.34 ID:ml9Vk7L4YOLOが長年頑張ってきた領域にDETRが攻め込んできた感あるわend-to-endってのが革新的よな4 名前:情報系初心者です :2024/03/20(水) 08:48:01.67 ID:nwB3Jp5Qすみません、DETRって何ですか?よく分からないです…5 名前:親切な研究者 :2024/03/20(水) 08:49:23.45 ID:kNd8Hj2M>>4Detection Transformerの略やで従来のYOLOと違って、Transformerベースで物体検出するんやNMSとかアンカーボックス要らんから処理がシンプル6 名前:企業研究者 :2024/03/20(水) 08:50:11.23 ID:aiR9Cs6VFine-grained Distribution Refinementのアイデアは秀逸確率分布使って徐々に位置合わせしていくの、精度上がって当然7 名前:深層学習エンジニア :2024/03/20(水) 08:51:33.78 ID:dpL7Nt4Kメモリ効率もいいしな31Mパラメータで91GFLOPsはコスパ良すぎ8 名前:コンピュータビジョン博士 :2024/03/20(水) 08:52:45.90 ID:phD8Wx5MObjects365でプレトレーニングした結果も興味深いわ59.3% APは現状のSOTA超えとるで9 名前:別の初心者です :2024/03/20(水) 08:53:22.56 ID:bgN4Ky9RSOTAってなんですか?難しくて…10 名前:優しい院生 :2024/03/20(水) 08:54:01.33 ID:ntP5Qw2L>>9State of the Artの略で、現在の最高水準って意味やで!11 名前:実装おじさん :2024/03/20(水) 08:55:12.67 ID:imp9Ls3BGlobal Optimal Localization Self-Distillationも効果的やな知識蒸留(教師モデルの知識を生徒モデルに転送する手法)のオーバーヘッド少なくて済むのええわ12 名前:産総研研究員 :2024/03/20(水) 08:56:33.89 ID:rsT7Hk4N小さいモデルの性能がまだ課題やなD-FINE-SはYOLOv10-Sとそこまで差がない13 名前:大学教授 :2024/03/20(水) 08:57:45.12 ID:prF5Jm2Kでも軽量モデルでもObjects365プレトレーニングの恩恵受けられるのは強み>>12の指摘は確かにその通りやが14 名前:企業研究者 :2024/03/20(水) 08:58:22.45 ID:aiR9Cs6VDETR系はまだ発展途上やしなこれからもっと改良の余地ありそう15 名前:量子コンピュータ研究者 :2024/03/20(水) 08:59:11.78 ID:qbT8Np3M次世代量子アーキテクチャとの親和性も気になるところ理論的にはTransformerベースの方が量子化しやすいはず16 名前:風吹けば名無し :2024/03/20(水) 09:00:23.45 ID:cv24Op3K草量子まで出てきて草17 名前:実装おじさん :2024/03/20(水) 09:01:12.34 ID:imp9Ls3B>>15まだ先の話やろ…現実的な課題から考えていこう18 名前:コンピュータビジョン博士 :2024/03/20(水) 09:02:33.67 ID:phD8Wx5Mエッジデバイスでの実装が現実的な次の課題やなT4でのベンチマークはええけど、モバイルGPUでどうなるか19 名前:組込みエンジニア :2024/03/20(水) 09:03:45.90 ID:emB7Kt4Rそうそう、実環境での最適化がこれからの勝負特にNVIDIA以外のプラットフォームでの性能が気になる20 名前:深層学習エンジニア :2024/03/20(水) 09:04:22.56 ID:dpL7Nt4KTensorRT(NVIDIAのプラットフォーム)以外のフレームワークでのベンチマークも見たいわね21 名前:産総研研究員 :2024/03/20(水) 09:05:11.23 ID:rsT7Hk4N特にスマホとかIoTデバイスでの性能どうなんやろそこがYOLOの強みやったし22 名前:大学教授 :2024/03/20(水) 09:06:33.78 ID:prF5Jm2K学習時間の短縮も見逃せんポイントや72エポックで収束すんのは相当早い23 名前:CV研究者 :2024/03/20(水) 09:07:45.12 ID:deTr5R2n>>22せやな。従来のDETRの課題やった収束の遅さも改善されとる24 名前:院生やけど :2024/03/20(水) 09:08:22.45 ID:ml9Vk7L4Target Gating Layerのアイデアも効いとるんちゃう?情報のもつれ防いでて学習効率上がってそう25 名前:実装おじさん :2024/03/20(水) 09:09:11.78 ID:imp9Ls3B>>24その辺の理論的な解析もっと深掘りしてほしいわなんで効くんかちゃんと説明されてないよな26 名前:深層学習理論家 :2024/03/20(水) 09:10:23.45 ID:thE8Rp2M確かにAttentionの理論研究の観点からも興味深い特にDecoder部分の挙動解析が必要かも27 名前:企業研究者 :2024/03/20(水) 09:11:12.34 ID:aiR9Cs6V論文のAblation studyはしっかりしてるけどまだ説明しきれてない部分も多いよな28 名前:コンピュータビジョン博士 :2024/03/20(水) 09:12:33.67 ID:phD8Wx5Mでもこれだけの性能出てれば実用化は進みそう理論的な解明は後からついてくるかも29 名前:組込みエンジニア :2024/03/20(水) 09:13:45.90 ID:emB7Kt4R実装の観点からすると、シンプルな構造なのは大きな利点デバッグもしやすそう30 名前:量子コンピュータ研究者 :2024/03/20(水) 09:14:22.56 ID:qbT8Np3M>>17すまんな、先走りすぎたでも将来性は確かにありそうやで31 名前:風吹けば名無し :2024/03/20(水) 09:15:11.23 ID:cv24Op3K結局YOLOとDETR、どっちが勝つんや?32 名前:大学教授 :2024/03/20(水) 09:16:33.78 ID:prF5Jm2K勝ち負けの問題やないで用途によって使い分けていくんやろな両者の良いとこ取りした新手法も出てくるかもしれん33 名前:画像処理研究者 :2024/03/20(水) 09:17:45.12 ID:imP8Vw2K>>6Fine-grained Distribution Refinementのアイデアについて。確率分布でエッジ位置表現するの天才的やな従来のL1ロスとIoUロスの限界突破してる34 名前:深層学習エンジニア :2024/03/20(水) 09:18:22.45 ID:dpL7Nt4Kウェイト関数W(n)の設計もええな微調整と大きな修正を両立できとる35 名前:院生やけど :2024/03/20(水) 09:19:11.78 ID:ml9Vk7L4でもハイパーパラメータaとcの設定難しそう論文見たら結構試行錯誤してそう36 名前:企業研究者 :2024/03/20(水) 09:20:23.45 ID:aiR9Cs6V>>35学習可能にしても性能下がるって書いてあるな固定値の方が最適化しやすいんやろ37 名前:コンピュータビジョン博士 :2024/03/20(水) 09:21:12.34 ID:phD8Wx5M分布の bin 数も32が最適なの興味深いわこれ以上増やしても性能変わらんのね38 名前:実装おじさん :2024/03/20(水) 09:22:33.67 ID:imp9Ls3BFDRのおかげでエッジの不確実性もちゃんとモデル化できてるなアンカーフリーなのも実装的にありがたい39 名前:産総研研究員 :2024/03/20(水) 09:23:45.90 ID:rsT7Hk4NGFocalと比べて柔軟性高いよなイテレーティブな修正が効いてる40 名前:深層学習理論家 :2024/03/20(水) 09:24:22.56 ID:thE8Rp2M理論的な美しさもある確率分布で表現することで、不確実性の定量化も自然にできる41 名前:親切な研究者 :2024/03/20(水) 09:25:11.23 ID:kNd8Hj2Mちょっと噛み砕いて説明するで例えば猫の写真があったとする従来の方法:「猫の右端はx=100やで!」って確信持って言い切る新しい方法(FDR):「猫の右端はx=98〜102のどこかにある可能性が高いなぁ。でも100がいちばんありそう。ちょっとずつ見直して位置決めていこう」みたいな感じで慎重に位置決めしていく42 名前:情報系初心者です :2024/03/20(水) 09:26:33.78 ID:nwB3Jp5Q>>41なるほど!人間の目の動きみたいな感じですか?43 名前:画像処理研究者 :2024/03/20(水) 09:27:45.12 ID:imP8Vw2K>>42せやな!人間も一瞬で正確な位置決められへんよな何回か見直して微調整するみたいな44 名前:実装おじさん :2024/03/20(水) 09:28:22.45 ID:imp9Ls3B野球で例えると、従来:ストライクゾーンの端ピッタリ!FDR:まずこのへんかな→もうちょい内側かも→ここやなって感じやな45 名前:別の初心者です :2024/03/20(水) 09:29:11.78 ID:bgN4Ky9R>>44あー!野球の例わかりやすいです!審判も一瞬で判定せずによく見てますもんね46 名前:深層学習理論家 :2024/03/20(水) 09:30:23.45 ID:thE8Rp2M医療画像とかでも似たような考え方使えそうやな腫瘍の境界とか、慎重に位置決めせなあかんし47 名前:大学教授 :2024/03/20(水) 09:31:12.34 ID:prF5Jm2K自動運転でも重要やな「車の位置はここ!」より「車はこの辺にある可能性が高い」って考え方の方が安全よな48 名前:CV研究者 :2024/03/20(水) 09:32:33.67 ID:deTr5R2n要するに、一発勝負やなくて徐々に精度上げていく方式ってことやな人間の直感にも合ってる49 名前:組込みエンジニア :2024/03/20(水) 09:33:45.90 ID:emB7Kt4R91GFLOPsって実際どれくらいなんや家庭用ゲーム機で例えるとPS4が1.84TFLOPSくらいやからかなり現実的な計算量やな50 名前:深層学習エンジニア :2024/03/20(水) 09:34:22.56 ID:dpL7Nt4Kスマホでも動く計算量やでiPhone 15のA17 ProチップでもTFLOPSいってるし51 名前:情報系初心者です :2024/03/20(水) 09:35:11.23 ID:nwB3Jp5QFLOPSってなんですか?52 名前:親切な研究者 :2024/03/20(水) 09:36:33.78 ID:kNd8Hj2M>>511秒間に何回計算できるかって指標や例えば足し算を1秒間に91×10億回できるってことやねGは10億倍って意味や53 名前:実装おじさん :2024/03/20(水) 09:37:45.12 ID:imp9Ls3BYOLOv10-Lが120GFLOPsやからその差29GFLOPsは大きいでバッテリー持ちとか実環境やと結構違う54 名前:産総研研究員 :2024/03/20(水) 09:38:22.45 ID:rsT7Hk4N>>53せやなスマホのバッテリー1%違うだけでもユーザー体験変わってくる組込み環境では重要55 名前:院生やけど :2024/03/20(水) 09:39:11.78 ID:ml9Vk7L4RTX 4090なら余裕で動くけどSwitch的な省電力環境でも91GFLOPsなら行けそう56 名前:企業研究者 :2024/03/20(水) 09:40:23.45 ID:aiR9Cs6VIoTカメラとかドローンとかバッテリー制約厳しい環境でこそ真価発揮しそう57 名前:深層学習エンジニア :2024/03/20(水) 09:41:12.34 ID:dpL7Nt4KGO-LSDって要は「上級生が下級生に教える」みたいなもんやな後ろの層で学んだことを前の層にフィードバックする58 名前:親切な研究者 :2024/03/20(水) 09:42:33.67 ID:kNd8Hj2M例えば運転の練習で例えると、1周目:「ハンドル曲げすぎた…」2周目:「さっきより上手くなった」3周目:「コツ掴んできた!」みたいな感じで、後からの経験を活かしてるんや59 名前:情報系初心者です :2024/03/20(水) 09:43:45.90 ID:nwB3Jp5Q>>58なるほど!人間の学習過程みたいですね!60 名前:画像処理研究者 :2024/03/20(水) 09:44:22.56 ID:imP8Vw2K普通の知識蒸留だと先生と生徒が別々のモデルやけどこれは自分で学んだことを自分にフィードバックするんやだから学習コストも少なくて済む61 名前:実装おじさん :2024/03/20(水) 09:45:11.23 ID:imp9Ls3B野球で言うと、9回表での打撃経験を1回表に活かせるみたいな時間遡って経験値共有できる感じやな62 名前:コンピュータビジョン博士 :2024/03/20(水) 09:46:33.78 ID:phD8Wx5M>>61ええ例えやなしかも試合中にリアルタイムでフィードバックできる従来の知識蒸留は試合終わってからしか反映できへんかった63 名前:院生やけど :2024/03/20(水) 09:47:45.12 ID:ml9Vk7L4DDF LossのアイデアもナイスやなIoUと確信度でバランス取ってる64 名前:大学教授 :2024/03/20(水) 09:48:22.45 ID:prF5Jm2K要するに「後からわかった正解を前の段階に教えてあげる」ってことやな人間の学習過程に近い設計や65 名前:深層学習理論家 :2024/03/20(水) 09:49:11.78 ID:thE8Rp2Mこれ理論的にも興味深いな時系列じゃない学習でも時間的な要素入れられる66 名前:画像処理研究者 :2024/03/20(水) 09:50:23.45 ID:imP8Vw2KTarget Gatingって、電車の改札みたいなもんやな必要な情報だけ通して、余計な情報は通さんようにする67 名前:親切な研究者 :2024/03/20(水) 09:51:12.34 ID:kNd8Hj2M例えば運動会の玉入れで例えると、「赤玉だけ入れろ」って決めたら白玉は無視するみたいな感じで情報を選別してるんや68 名前:情報系初心者です :2024/03/20(水) 09:52:33.67 ID:nwB3Jp5Q>>67なるほど!情報を種類分けして必要なものだけ使うんですね!69 名前:実装おじさん :2024/03/20(水) 09:53:45.90 ID:imp9Ls3B野球で言うと、バッターは投手の動作見るけど背景の観客席は見ないようにするみたいな集中すべき情報だけ取り出す感じやな70 名前:深層学習エンジニア :2024/03/20(水) 09:54:22.56 ID:dpL7Nt4Kシグモイド関数使って重要度判定するの賢いわ0か1かじゃなくてグラデーション付けられる71 名前:コンピュータビジョン博士 :2024/03/20(水) 09:55:11.23 ID:phD8Wx5Mこれがないと層が深くなるほど情報がごちゃごちゃになってまうスパム除去みたいなもんや72 名前:院生やけど :2024/03/20(水) 09:56:33.78 ID:ml9Vk7L4でも設計難しそうどの情報が重要かの判断基準が要るよな73 名前:大学教授 :2024/03/20(水) 09:57:45.12 ID:prF5Jm2K人間の注意力みたいなもんやな必要な情報にフォーカスしてノイズは無視する仕組み論文PDF 原文2410.13842v1.pdf8.26 MBファイルダウンロードについて ダウンロード 日本語訳キーワードこのスレのキーワードをスペース区切りで重要な日本語の用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。物体検出 エッジ位置推定 知識蒸留 情報選別 確率分布モデル化 ダウンロード copy いいなと思ったら応援しよう! チップで応援する #論文 #物体検出 #知識蒸留 #情報選別 #エッジ位置推定 #確率分布モデル化 1