見出し画像

Kaggle: Dstl Satellite Imagery Feature Detection 1


2016年 12月 ~ 2017年 3月にかけて,Kaggle で開催されていた衛星画像をもとにした segmentation タスクのコンペ 「Dstl Sattelite Imagery Feature Detection」 の個人的な解説を書いていきます.

3 年前の開催当時,私は segmentation に疎いのもあり参加はしていませんでしたが,興味深く watch していたのだけは記憶に残っています.
そして,このコンペ以降,上空からの画像という点では,「」や「アマゾンの熱帯雨林」といったコンペは開催されましたが,地上の構造物の segmentation というタスクのコンペは開催されていないように思います(もしありましたら教えていただけると嬉しいです).

そんなわけで,3 年前のコンペと少し古めではありますが,Dstl コンペをじっくりとみていきたいと思います.

記念すべき第1回はタスクの理解に紙面を割きたいと思います.


1.   Description

Dstl とは,Defence Science and Technology Laboratory の略称です.

Who we are
As an executive agency of MOD, Dstl is run along commercial lines. It is one of the principal government organisations dedicated to science and technology in the defence and security field.

上のリンクによると,どうやら Dstl は英国政府の主要機関の1つで,防衛・安全保障の科学技術を専門としているようです.商業的な路線で運営されているということで,こういった国防の要の1つとなるような重要な案件でも, Kaggle で公に開催できる運びとなったのかもしれないですね.

下の 2 つの図( 出典 宙畑 : https://sorabatake.jp/ )は,それぞれカラー・白黒+カラー(上図・下図)の衛星の観測幅(一度に衛星が観測できる地上横幅)と地上分解能の関係を示したものです.大雑把にいえば,図の中で左上にいけばいくほど優秀な衛星といえます.
次回で触れますが,今回 Dstl コンペで提供されている画像データは WorldView-3 という衛星(図中では青い破線で囲った衛星)から取得された画像です.下図でも分かるとおり,WorldView-3 は高解像度の画像が取得可能な衛星ですので,本来であれば画像の購入にかかる費用はそれなりの金額になってしまいます(最低購入価格というものがあり,だいたい 600,000 JPY くらいから).なかなか個人では手をだそうとは思えないデータですね.

画像5

画像5


2.   Evaluation

Dstl コンペでは,segmentation タスクではお馴染みの Jaccard 係数(別名:IoU)が評価指標です(最近の segmentation コンペですと,より安定な評価指標である Dice 係数が採用されているのを目にします).

画像4

画像4

各画像において,10 class 分の地上構造物がラベル付与されており,各 class 毎の Jaccard 係数を全画像に渡って計算した後,得られた 10 class 分の Jaccard 係数の平均をとるため,「Average Jaccard Index」と上では表現されています.
下図はコンペの private LB の最終結果です.Gold Medal 圏の参加者達のスコアは 0.5 より少し小さいくらいの Average Jaccard 係数の値です.Poor な予測とまではいかないものの,全 10 class を平均した Average Jaccard 係数でみた場合,そこまで良い予測モデルが作れているわけではないことが分かります.今後の衛星画像分析の技術的課題を示唆した結果といえそうです.

画像5


3rd place のチームが本コンペに関して書いた論文によると,各 class の Jaccard 係数(IoU)は下表のようになっています.

画像6

Class によって Jaccard 係数に大きなばらつきがあることがみてとれます.特に,乗り物系(Vehicle)はかなり精度が低いようですね.サイズが小さいことやそもそもサンプル数が少ない(次回確認します)ことなどに起因しているのかもしれません.一方で,Waterway や Crops は Public / Private のどちらでも良い精度を示しています.
本コンペでは各 Class の Jaccard 係数の単純平均が評価指標ですので,精度をどうやっても伸ばしにくい Class は重視せず,精度を伸ばしやすい Class を重点的に伸ばすといった戦略も考えられそうです.


さて,次回はデータの確認をしていきたいと思います.

この記事が気に入ったらサポートをしてみませんか?