見出し画像

Overture Maps Foundationからグローバルのデータセットが正式リリース

2022年12月に設立されたOverture Maps Foundationから、このたびグローバルのデータセットがGA(General Availability ;正式リリース)となった。Overture Maps Foundationの設立当初、私はその意図を読み解く記事を投稿し、それ以来この組織の動向を注視してきた。


Overture Maps Foundationとは

企業のアライアンス

Linux Foundation傘下にできたこの組織は、オープンデータあるいはオープンソースコミュニティとは違い、企業のアライアンスで、個人は参加できない。そこがコミュニティによる運営が行われているOpenStreetMapsとは異なっている。

その証左として、トップページにAmazon, Meta, Microsoft, TomTomそしてESRIなどの巨大企業のロゴが並んでいる。さらに下位ランクのメンバー企業を見ると、Cariad(フォルクスワーゲンのソフトウェア子会社)、韓国の自動車メーカーのHyundai、Pokemon GOで知られるNiantic、トラベルメディアのTripadvisorなど、様々な企業が参加していて、このアライアンスに多方面から関心が集まっていることを物語っている。設立から1年8ヶ月が経過した現在、そのメンバー企業の広がりを見ると、Overture Maps Foundationは、順調に成長しつつあるように見える。

参加企業の狙い

地図・位置情報の戦略的重要性への対処

これらの企業の活動にとっては、地図・位置情報データが事業戦略上の価値があり、今後さらに投資すべき分野との認識がされていると見て良い。その認識の強さに応じて、各企業はメンバーのランクを選んでいる。
参画企業は、GoogleやAppleのように、単独でデータ取得からサービスまでを担う資金や人材が無い、あるいはその意志が無いため、企業アライアンスによって実現可能性を高めて、少ない投資金額でGoogleやAppleに対抗する軸を作りたいという狙いだろう。

「車輪の再発明」を避ける

企業毎バラバラに地図データを整備していくのではなく、あたかもオープンソースソフトウェアコミュニティのように、「車輪の再発明を」避けることの有効性を会員企業は理解しているはずだ。地形データ、道路のデータ、住所関連のデータなどは、企業単位で別々に整備していくのは、社会全体から見れば非効率である。そこで、各企業が協力し合い、統合されたデータセットを作成・メンテナンスすることにより、この課題を解決し、各企業はこのデータセットの上に、それぞれの特色を持った属性を加えていくことによって、効率的な事業運営ができることを期待しているはずだ。

4つのビジョン

Overture Maps Foundationが設立された時から、界隈では「既にOpenStreetMapがあるのに何をするのか?」「Mapboxはもう何年も同じような努力を続けて、OpenStreetMapにコントリビューションしている」「巨大IT企業を巻き込んだアライアンスで、何を目指すのか?」などの疑問が表明されていた。要するに、Overture Maps Foundationの存在意義は何か?という疑問である。

これに対して、Overture Maps Foundationは現実的かつ素晴らしいビジョンを持っている。具体的には次の4つであり、それぞれの説明文を読むとなるほどな、と思う。

  • 「中核」部分に対処し、かつ幅広いユースケースで使える。

  • 未解決の課題の解決に焦点を当てる。

  • Backward compatibility(後方互換性)を保って拡張できる。

  • 常にオープンである。

私が知りたいのは、この4つの先にある、もっと大きなビジョン、あるいはそれを目指すパッションなのだが、Overture Maps Foundationは企業アライアンスであって、コミュニティでは無い。それもあって、大義は語らず、実務に徹するようにも見受けられる。

さて、ここから7月22日にリリースされたデータセットについて見てみよう。

リリースされたデータセット

2023年4月に最初のデータセット”Overture 2023-04-02-alpha”をリリースし、以来定期的なリリースを行い、今年4月には「β版」を、そしてこのたび正式リリース(GA)を行った。

データソースとライセンス

このデータセットのデータソースは、こちらを見ると様々な提供先からデータを得て、整理統合していることがわかる。世界の国や地域によって異なるが、大きく分けて、道路、鉄道、水系などはOpenStreetMapから、建物はMicrosoft、ESRI、Googleなどから、PlacesはMetaとMicrosoftからなどである。ライセンスはODbL、CC BY 4.0やCDLA Permissive 2.0といったオープンデータライセンスで提供されているため、利用制限は少ない。しかしながら、ソースデータによってはattributionを必要とするものもあるため、確認の上で利用することを心がけたい。

誰でもデータをダウンロード可能、ただし全世界で440GB

Overture Maps Foundationがリリースしているデータは、GeoParquet形式で提供され、会員企業に限らず、世界の誰でもダウンロードして利用できる。ただし、全世界のデータをダウンロードする場合、そのサイズは440GBあるという。
もちろん、その地域をbboxで絞ったり、countryやregionで指定することも出来るので、実際にダウンロードする際には、可能な限り絞り込んだ方が良いだろう。

6種類のデータ

提供されたデータの種類は大きく分けて6つあり、以下の通りである(アルファベット順)。

  1. Adresses

    • 住所データ

  2. Base: water, land, land use, infrastructure, land cover

    • 陸地、水系、土地被覆、土地利用など、地形に関するデータ

  3. Buildings

    • 建物形状、建物名

  4. Divisions

    • 行政境界

  5. Places

    • POIなどの施設

  6. Transportation

    • 道路、鉄道、バス路線など

データ可視化ツール

ダウンロードする前に、実際のデータの内容を調べておきたい、という場合も多いはずだ。今回、そうしたニーズをかなえる大変便利なツールが提供されている。

データの可視化ツール

このツールでは、Overture Maps Foundationがこのたびリリースされたデータセットの(多分)全てを参照することができる。

データを確認する

日本のデータが実際どのようなものなのかを東京都港区の札の辻付近を例に確認してみよう。

港区札の辻付近

Download Visibleを押すと、"type": "FeatureCollection"としてGeoJSON形式のファイルをダウンロードできる。QGISで確認すると、建物データだけを提供しているようだ(下図の青色で塗られたもの)。

ダウンロードしたファイルをQGISで確認

それぞれのポリゴンデータには"dataset":"OpenStreetMap"とあるので、この建物ポリゴンはOpenStreetMapと合致するはずだ。見ている限りでは概ね一致している。一部抜け落ちている建物も見受けられるが、その理由は不明である。
この建物ポリゴンデータは、形状を表記する内容だけで、建物名称や建物の高さ、建物構造などの情報は一切入っていない。ひょっとしたら、このボタンからダウンロードする機能はβ版でもあるので、ほんの一部の機能しか実装されていないのかもしれない。

建物データ

そこで、データの詳細を確認できるInspector Panelで個別の建物を見てみる。
例えばこちらのビル(赤矢印)は、Type, Subtype, Source, Class, names, num_floors, heightなどの属性値が備わっている。建物によっては属性値の種類は増減するが、これは概ねOpenStreetMapから得られた属性値と思われる。

Inspector Panelで個別の建物を見る

道路データ

次に、道路データを確認する。
港区の札の辻橋(札の辻の跨線橋)の道路データを見てみよう。特徴的なのはユニークなIDを持つ区間が長く、それぞれの道路ネットワークの起点と終点を繋いでいることである。

札の辻橋の道路データ(地図中の白い線)

もう一つ例を挙げよう。
横浜市の国道16号保土ヶ谷バイパスの道路データは、かなり長い区間を1つのIDとしている。起点と終点の間には分岐や交差点が無い。

国道16号保土ヶ谷バイパスの道路データ(地図中の白い線)

データソースであるOpenStreetMapは、このように起点と終点を1つのIDで表すデータ形式ではないので、Overture Maps Foundation側で、データの形式を変換したことになる。このデータ形式については、後ほど説明する。

Places(POIデータ)

東京都港区の札の辻付近を例に、POIデータを見てみよう。

港区札の辻付近

札の辻スクエア
私が経営している合同会社CUNEMOは、「札の辻スクエア」内の港区産業振興センターに仕事場がある。ところが、その位置をこの地図で見ると交差点の中程に存在している。実際の場所は赤矢印の建物である。

札の辻スクエアの位置が違う

バンダイナムコエンターテインメント
ガンダムなどで知られるバンダイナムコエンターテインメントの本社が札の辻交差点の南東の建物にある。ところが、地図では道路の反対側(西側)の道路上に存在している。

バンダイナムコエンターテインメントの位置が違う

東京タワー
そして、交差点の真ん中に東京タワーというPOIデータが存在している。実際の位置は1500メートル程北だ。データ処理のミスだろうと最初は考えたが、腑に落ちない。データソースがMeta(Facebook)であることから、ユーザーが投稿した情報が元になっている。
この札の辻交差点からは、東京タワーを望める。ここの歩道橋は写真撮影スポットにもなっている。インバウンド観光客が利用する公道カートも、頻繁にこの場所を通る。そうすると、Facebookユーザーがこの場所で「東京タワー」というスポットを登録したのかもしれない。

こんな場所には東京タワーは無い

POIデータの位置が実際とかなりずれている事例は、これら3カ所に留まらず、随所で見つけることができる。POIデータのソースは東京付近のデータを見ていると、メタが大半である。駅やバス停はOpenStreetMapから採用しているようだが、私が探した範囲内ではMicrosoft由来のものは見当たらない。
FacebookのPOIデータはユーザーが「チェックイン」する際に使用されるが、それが正確な位置であるかどうかは、ユーザー自身はあまり省みないものだ。そのPOIデータも、もともとはユーザーが登録したものが大半であり、使用しているデバイスの位置情報に依存するが故、実際の位置とズレることが多々発生した可能性がある。

Overture Maps Foundationが採用した新しいデータモデル

Overture Maps Foundationが採用した新しいデータモデルについて、簡単に説明する。さらに理解したい場合には、TomTomが投稿したこちらの記事を読んでいただきたい。

OpenStreetMapのデータモデル

元データであるOpenStreetMapは、コミュニティによるマッピングが行われている。このデータモデルでは、道路の種類、速度制限、車線数などの道路の属性が変わるたびにネットワークを分割する必要が発生する。このことにより、同一のデータセクション内での属性値が混在することが無いため、マッピング時の編集がやりやすい。一方、このデータモデルでルート検索を行う場合、短いセクションが多数あるため、パフォーマンスが低下しがちだ。

https://engineering.tomtom.com/overture-transportation-network-linear-referencing/
から転載

また、OpenStreetMapのデータはルート検索を前提として取得されているのでは必ずしも無い。とりわけ、交差点における正確なルート検索を実現するような単位でセクションが存在しない可能性がある。

さらに、OpenStreetMapの道路セクションのIDは、セクションが分割されるたびに新しいIDが割り当てられる。コミュニティによる活発なマッピングが行われるOpenStreetMapは、結果的にセクションiDの変更の増加に繋がり、データ量の増加をもたらす。また、IDの頻繁な変更は、道路交通量分析などのアプリケーションの開発者に大きな手間をかけることになる。

Overture Maps Foundationのデータモデル

これに対して、Overture Maps Foundationの道路データは、「LR(Linearly Referenced;リニアリファレンス)データモデル」を採用している。このモデルは、道路ラインのジオメトリと属性値を分離して、あるライン内での距離に基づいて、属性を定義する。要するに1つの道路セクションの中に、複数の属性値を定義できる。
そして、Overture Maps Foundationでは、この場合の道路セクションを「Global Entity Reference System (GERS)」と呼び、将来属性値に変更があっても、IDが原則的には変化しない仕組みだ(なお、新しい道路ができて既存の道路に接続するような場合には既存の道路のIDの変更が発生する)。

https://engineering.tomtom.com/overture-transportation-network-linear-referencing/
から転載

道路交通量や渋滞情報の時系列分析を行う際に、それらのデータは、通常は道路のIDと紐付けられる。GERSのようにIDが不変であれば、安定的な運用が可能となる。

また、このGERSは道路データに限られているのではなくて、住所、建物、POIなどの先に挙げた6種類全てに対して採用されている。先に例示した「札の辻スクエア」「「バンダイナムコエンターテインメント」「東京タワー」のようなPOIがユニークかつ不変のIDで管理されることは、それぞれのPOIに関する住所、営業時間、写真、レビュー様々な付加情報を重複や分散がなく、一括管理できることにつながり、データ管理側に留まらず、利用側でもメリットが大きい。

おわりに

Overture Maps Foundationは、複数のデータソースから統合されたデータセットを構築し、それを公開するところまで到達した。ユニークなIDを維持する「GERS」や、アプリケーション開発者にとって効率的なデータモデル「LR(リニアリファレンス)」の採用など、プロフェッショナル規格のデータセットに仕上がっている。
一方、FacebookのPOIデータの位置精度の問題み見られるような、User Generated Content(ユーザーが投稿するデータコンテンツ)の宿命でもある、データの信頼性には課題を残したままとなっている。

各企業の期待

Overture Maps Foundationは企業のアライアンスのため、メンバー企業(あえて言うと最上級メンバー企業)が何をしたいかで決まってくる。
Amazonは、既にAmazon Location Serviceをはじめとして、Geospatial系のサービス展開を行っている。今回のデータセットも既存あるいは新規のサービスでの活用の可能性を検討するだろう。
Metaは、自社のPOIデータが統合されたデータセットとして発展していけば、Facebookでのユーザー体験を向上させる可能性を期待しているはずだ。
Microsoftは、TomTomから地図データの供給を受けてBingブランドで地図サービスを展開している。その地図のカバレッジと品質の向上を期待していると思われる。
TomTomは、自動運転用の高精度データ以外の、汎用のカーナビゲーションで用いるデータセットを、自社製作からOverture Maps Foundationが提供するデータセットに切り替える意向があると思われ、とりわけ道路データについては、制限速度、交通規制、レーン数などの属性を付与して、実用性を検証しているだろう。

このように、各社それぞれの期待は異なるものの、様々なオープンなデータソースを統合して、「商業利用に耐えるレベルの信頼性を担保するグローバル規模の地図データベース」の構築を得られることを期待している。
今回Overture Maps Foundationからリリースされたデータセットは、その期待に応えるものなのかどうかは、各企業による評価が今後なされるだろう。

課題

GERSやLR(リニアリファレンス)の採用は、データセットが長期間にわたって使用可能なものとする上で、大きな意義がある。一方、Places(POIデータ)の位置精度の誤りなど、User Generated Contentにありがちなソースデータ自体の信頼性を向上させることは、今後解決すべき課題である。

今後、Overture Maps Foundationからは定期的に内容や信頼性が向上されたデータセットをリリースが行われていくだろう。そうしたリリースを重ねる中で、諸々の課題を解決していくことを期待している。

おことわり

  1. この記事の内容については、筆者個人の責任において記述しています。従って、この記事に登場する企業や団体との利害関係はありません。

  2. ただし筆者はTomTomの競合企業とされるHERE Technologiesで勤務しています。このため、TomTomを評価する際に、何らかのバイアスが含まれている可能性はゼロではありません。

  3. HERE Technologiesを含め、Appleなど以前の筆者の勤務先等で得られた秘密情報については、本投稿には直接的、間接的を含め、一切含まれていません。

  4. この記事の初版は2024年8月20日に公開されていますが、本記事は、その後確認できた諸情報を9月17日に反映したアップデート版です。

いいなと思ったら応援しよう!