見出し画像

GPSの『生データ』を見てみますか?

こんにちは、LocationMindの桐谷です!

私たちの会社では毎日大規模なGPSビッグデータを扱っているのですが、私自身は元々データサイエンティストでもなく、エンジニアでもなくて、LocationMindの社長をしてから初めてGPSの生データをみた人間です。位置情報ビッグデータを見せてもらったときに、『凄いでしょ』と言われても、『あの、どのあたりを見たらいいんでしょうか・・・』という所から始まったのを覚えています。中身を見ると、『うわぁ、凄い!』と興奮するのですが、ちょっと慣れが必要です。

皆様も、Google Mapsなど使っていると思うので、位置情報のイメージはあるのではないかと思うのですが、データとしてどんな感じなのかを見たことがある人は少ないと思います。今日は位置情報の生データを地図に載せたものをお見せしようと思います。

LocationMind Mobmapの紹介

図:都バスのオープンデータをMobmapという当社ツールで描画しました
© MIERUNE © MapTiler © OpenStreetMap

 今回ご紹介するのは都バスのオープンデータです。皆様も触れるデータでしが、LocationMindがフリーで提供しているMobmapというツールで描画してみました。上の図で、青とか緑とか赤の点が各々バスのデータになります。点の色や大きさについては、LocationMindのスタッフがダイヤを調べて、ダイヤより遅れているものを赤くするように工夫してみました。ダイヤとの比較ではなく別の分析をしても構わなくて、例えばバスの乗車客数のデータがあるのなら人数が多いバスを赤くしてもいいし、乗車率に換算してから赤くしても面白いかも知れませんね。

バスのルート(移動軌跡)

 さて、止まったままのデータではなく、バスのルート(軌跡)を描画してみましょう。データをこういう動画風に見れるツールは殆ど無く、Mobmapは他の人流企業でも使って頂いている便利なツールです。Mobmapのクレジットさえ入れて頂ければ皆様にもご利用頂けますし、Mobmapを使ってみたよと言って頂けると励みになります。さて、描画の結果ですが、以下のような図になりました。多くのバスが通るところほど明るい白になっています。バスがあまり通らないところは青い線となっています。丸の内あたりは碁盤のようにバスルートがあるし、全体的には東京の色んなところをバスが通っていることもわかります。

図:都バスのルート(経路)の描画
© MIERUNE © MapTiler © OpenStreetMap

思った通りのデータですか?

 このデータの範囲をもう少しズームインしてみましょう。最初は東京圏が見えるくらいの縮尺でお見せしていましたが、町丁目単位くらいのスケールにしてみました。そうするとこんな風になります。

図:バスの軌跡を示してみました

いかがでしょうか。皆様が想像していたようなデータになっていますか?

直線的?

 この描画結果、『直線的だな』と感じる方はいないでしょうか?GPSのデータはミシンのように記録されるもので、それをつないでいます。記録の頻度が荒いほど直線的になります。例えば、データによっては1秒に1回記録されてたり、5分に1回しか記録されていなかったりと、位置情報といっても様々なデータ品質があります。特にスマートフォンアプリだとGPSを高頻度で取得すると、すぐ電池が切れてしまいますからデータ取得間隔が長いことも少なくありません。また、自動車は電池の問題が少ないのでデータ取得間隔が短いことも多いです。
 このように位置情報は記録されますが、最後に見えていた位置の次に位置が記録された際に結構な距離を移動してしまった場合もありえるのです。人間の歩くくらいの速度ならそんなに距離が飛ぶこともないんですが、自動車は速いので位置情報取得の頻度が粗いとかなり飛びます。
 綺麗なデータはパッと見たときにもっと滑らかだったりします。慣れてくるとパッとデータをみたときに品質が今一つなのではないか、などと直感でわかるようになったりします。

道路の上を走っていない?

 或いは、『バスが道路の上を走っていない』と感じる方もいるかもしれません。ゴジラのように建物をなぎ倒しながら走っているような挙動なのではないかと。もちろん実際にはそんなことはなく、バスは道路の上を走っているんですけれども、データをまず道路の上を走るように補正しないと、分析が粗くなってしまうことはデータを見て明らかです。位置情報データを地図にあてて補正してあげることをMap Matchingと言います。このMap Matchingも結構大変な作業なのでこれをしない分析も多いとは思います。Map Matchingだけでも様々な技術体系があるのでLocationMindでは分析のニーズにあわせて使い分けることがあります。時間がかかっても精度よいものと、早いけどそれなりの精度のものと様々です。例えば高速道路と並走している一般道と、果たして自動車がどちらを走っているのか、などもよくある躓きポイントだったりします。
 この精度では足りないという場合は、頑張ってMap Matchingをしてもいいのですが、或いは少しだけ値が張るのですが良いGPS受信機を使うと受信機側を使うことも一考です。良いGPS受信機だと、受信機側でMap Matchingをしてくれたりもしますので、高度なデータ分析をするとあらかじめわかっているのであれば、データサイエンティストを雇うよりも、もともと良いGPS受信機を使った方が安くあがる可能性も否めません。

使えるデータと使えないデータ

 また、データを見てみると、『なんとなくこの道を通ったんだろうな』とわかるものもあれば、『ここはどんなルートを通ったのか想像が出来ない』というものもありませんか?可能性としてありえるルートを幾つか洗い出して、確率を割り振って推定するようなこともできるのですが、結構大変ですよね。もちろん、それで精度が出ないことも多いにありえます。

 そうすると、データの中にも、使えるデータと使えないデータがあると判断されることもあります。例えば、1km / 2km 飛んでしまったデータだったりとか、60分 / 120分とデータの間隔があいてしまうとか、そんなデータはバスの分析として耐えられないとしたら、そういうデータを除いて、残ったものを使って分析するのも一考です。
 もちろん、そうすると一部でもデータが排除されたバスは、その1日を全部分析することはできません。よくデータが排除される区間があるとしたらそもそもオペレーションの何かがおかしいのかも知れません。逆にいえば、残ったデータから何が言えるかを探すことになる、と言えるかも知れません。そもそもスッと色々分析できるデータならば応用的な分析をするところにもっと時間や予算を割けますね。
 例えば、以下の赤くハイライトした箇所はデータが飛んでいるなと私が感じた箇所の一例です。結構赤い部分が多いと感じますか?

図:赤い部分は分析に耐えられないかも知れない
© MIERUNE © MapTiler © OpenStreetMap

最後に

 GPSのデータは『補正せずにも相当な精度で取得されてすぐににスッと使えるものだと思っていた』と言われることも少なくありませんが、実態としては品質の良い理想的なデータが最初から手に入るケースは多くありません。何も位置情報に限った話ではなくて様々なビッグデータ分析をする会社に共通する課題だと思いますが、綺麗なビッグデータを作る前工程処理というのはとても大変で、位置情報だけでは前工程処理は出来なくて、地図のデータとか機械学習するための教師データが必要だとか、実に色んな工夫をこらして位置情報データを使いやすい美しい形にしています。

 綺麗なデータを使うと、続く分析も良い品質のものが出てくるものです。逆に、品質の悪いデータでは分析能力の高い人でも結果を出せなかったりします。データがないところにはAIなど高度技術は生まれませんから、LocationMindではこのデータの品質確認や前工程処理について非常に丁寧に行っています。

 いかがでしたでしょうか。私にとってこの事例はとてもわかりやすかったのでご紹介してみました。私たちのお客様で初めて位置情報のことを考えるという方にはこのようなご紹介をすることもあります。

 LocationMindでは毎年様々なデータ分析依頼を頂きます。位置情報ビッグデータをお持ちでお困りの方がいらっしゃれば是非お声がけ下さい。

お問い合わせはこちら

それでは、次の記事でお会いしましょう。

LocationMind CEO 桐谷直毅

LocationMindのHPも御覧ください!

LocationMindの公式Homepageです