技術のうろこ DATAFLUCT discovery. Vol.01 ー地球を検索するー
宇宙産業はこれまで、予算や技術研究の観点から、国家や国際機関によって推進されてきましたが、規制緩和や科学技術の発達によって、民間企業による進出が活発化しています。
それに伴い、今までは研究や軍事、気象予測、災害対策などの特定に分野にしか使われてこなかった人工衛星データを、産業界/経済界でも広く活用する動きが出てきており、JAXA認定ベンチャーのDATAFLUCTもその一翼を担うため、DATAFLUCT discovery. をリリースいたしました。
人工衛星データには、
1. 地球上どこでも見られる
2. 時間変化を監視できる
3. 人間が見えない波長も見える
などの特徴があります。
これら特徴を使って、世界中のあらゆる場所を、現地へ行くことなくモニタリングし、経済動向の調査・予測をするというのは、人工衛星画像データの主な活用方法のひとつです。
しかし、例えば駐車場に停車している車の台数をモニタリングしようとする場合、駐車場の場所を事前に把握している必要がありますが、土地勘のない場所の駐車場リストを作るのは非常に困難です。
この課題を解決するのが、DATAFLUCT discovery.のInstant Search機能です。Instant Search機能では、地図上で関心のある場所の検索が可能です。また、人工衛星画像を使うことで、地図上には登録されていない車や船舶などの動的な対象物も検索可能です。
今回は、この人工衛星画像を用いた検索機能をどのように実現しているかを解説します。
類似画像検索
Web検索などでは文字を通じて行われることが多いですが、Instant Search機能では、文字の代わりに画像を入力として、それに似た画像を検索します(類似画像検索)。類似画像検索は一般的に、画像を特徴量空間へマッピングし、特徴量空間上で近傍にマッピングされる画像を類似画像として抽出します。
Instant Search機能では、CNNの中間層を用いた特徴量抽出と、Faissライブラリを用いた近傍探索によって類似画像の検索を実現しています。
人工衛星画像の取り扱い
人工衛星画像は通常、人工衛星の撮影可能範囲(FoV: Field of View)を1枚の画像として取り扱います。例えば、今回使用したDigital Globe社のWorldView-2衛星で撮影された画像は、1辺約16.4kmのエリアが1枚の画像に収まります。
この画像を直接特徴量抽出した場合、画像の中に複数の物標が含まれているため、今回の目的に沿うような適切な特徴量抽出ができません。対策として、今回は人工衛星画像を1辺数十m程度の200万枚ほどのタイルに分割し、それらのタイルに対して特徴量抽出を行っています。このタイルのサイズは、検索の分解能と見なすことができ、数十m以下のサイズの対象物の検索は得意ではありません(住宅は難しいが住宅街は可能。車両は難しいが駐車場は可能)。
さらに細かい物標の検出は、DATAFLUCT discovery. のもうひとつの機能、Detect&Monitor にてカバーしていく予定です。
CNNの中間層を用いた深層特徴抽出
2010年代の大規模教師データセットの公開と、それらを用いたニューラルネットワークベースの画像分類技術の洗練、GPUを始めとした計算資源の拡充により、AIによる画像分類のタスクは人間にも匹敵するレベルになっています。これらの高い画像分類を実現しているネットワークの中間層は、画像を識別するために必要な、抽象的な特徴を獲得できていると考えられており、これを活用します。
Instant Search機能では、特徴量の抽出機構として、畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)のひとつであるResNetの中間層を用いています。
中間層の入力に近い層は視覚的な特徴を捉え、識別層に近い層は画像の意味的な特徴を獲得していることが知られており、どの層までを特徴量抽出器として扱うかで検索性能が変わります。サービスを通して何がよく検索され、その検索性能が妥当なものかを検証し、サービスの改善につなげます。
特徴量空間での近傍探索による類似画像抽出
特徴量の抽出により、画像を数100から1000次元オーダーのベクトル表現へ変換されます。これは特徴量空間と呼べる同次元空間へのマッピングと解釈できます。CNNの中間層により、画像を特徴付ける構造の抽出ができているため、視覚的に類似する画像は類似する特徴量をもち、特徴量空間でも近傍に存在することが期待されます。
近傍の画像を抽出するためには、抽出対象の画像(今回は約200万枚)と検索対象画像の距離を計算し、比較する必要があります。そのため、抽出対象の画像数が増えるほど、抽出に必要な計算量が増大していきます。
Facebook AI Research team の開発する Facebook AI Similarity Search (Faiss) ライブラリは、データの直積量子化によるスループットの向上と、直積量子化されたデータ処理の並列性を向上することで、10億もの抽出対象にも耐えられる性能をもっており、今後サービスの対象領域を拡張した際にも十分な検索性能を保てることを期待しています。
終わりに
今回のリリースでは、中国経済の中心地でもある上海を、産業界/経済界への人工衛星データ利活用の実証実験に最適なエリアと想定し、検証の対象としています。
例えば、
・貿易港のコンテナや貨物船のモニタリングによる貿易動向監視
・主要ICの交通量モニタリングによる物流動向監視
・郊外の発展モニタリングによる土地利活用状況監視と不動産価値の推定
といった、これまで可視化が難しかったデータを用いた事業判断/投資判断を可能にします。DATAFLUCT discovery.を通じ、人工衛星データ活用の可能性を探っていただけたらと思います。
DATAFLUCT discovery. を使って解決できそうな個別の案件や、本サービスに使われている技術の他分野への適用についても、ぜひお気軽にご相談ください!