【京都大学公共政策大学院・地方行政実務実況シリーズ】「データラングリング① 可視化(データ形式・前処理)」(第7回授業:2019年5月27日)

1.今日の授業のポイント

スクリーンショット 2020-04-12 6.07.12

今日は7回目ということで、今日からデータラングリングという言い方で、まずは可視化のことからお話していきます。可視化をする過程でのデータの形式といった、みなさん「ははーん」とお気づきになられる方いらっしゃるかとも思いますけども、別の授業でデータを使うとき、あるいはレポートを書くときにデータを使うかと思います。その時に、自分たちの分析なりに使うために、いろんな処理をする、これをデータの世界では「データラングリング」と言います。

①データラングリング?

その意味は、ここにあるとおり「データを飼い馴らす」です。英語では、Data Wranglingといって、ジーンズでラングラーってブランドがありますよね、ロゴにはカウボーイが家畜を飼い馴らすために使うロープがあしらわれてますけど、ああいうように自分の思ったように、家畜をコントロールする。引用している本は、Pythonというプログラミング言語を使ってデータを飼い馴らしましょうという本で整理されている定義です。このときの中身としては、ここの7つですが、まずは書かれているとおりなんとなく把握いただいた上で、今回の授業のポイントである手を動かしていただくことを通じて理解いただくようにしたいと思います。

②データの生成・活用・運用

スクリーンショット 2020-04-12 6.07.25

最近使っている延べ5回に渡って授業で取り上げるポイントですね、データの生成・活用・運用という中の、それぞれの要素、これらを横断的に把握してやらないとだめですよ、と説明してきましたね。データ利活用の話、オープンデータに限らずですね、それがどのような形で庁内に蓄積されているか、あるいはそれを庁外と一緒に使っていくときに、オープンデータという形式に限らず活用できる世界がある訳ですが、それを規定するのが庁内の形であると説明しました。そして、庁内で蓄積しているデータを活用して積極的に政策を推進しようという際に、例えばこれはヘルスケアの文脈で受診データを活用して地域ごとの疾病状況を分析して、それぞれの特性に合った保健師による指導メニューを考えるといったことが行われています。それはオープンデータではないにしても、そうしたデータを収集した上で、政策の効果を検証するというサイクルもはじまりつつあります。

使われ方は様々ですが、データをどのように扱うかこれらの3つの要素とそれに関連するものによって規定されている、これらの関係性に留意することを前提に授業をしています。そして、これらがどれだけできているかに考える必要があるということで、今回はその1回目としてデータラングリングのうちの可視化としてお話する訳です。

③参考資料

スクリーンショット 2020-04-12 6.07.38

その際に、説明はいろいろしていきますが、じゃあ話はわかったと、いう方は具体的な作業をしてみたくなると思います。そうした際には、これが一番いいか、というのはありますが、手軽に入手できる資料として総務省のICTスキル総合習得教材の中に関連する部分があります。合わせて参照していただければと思います。

2.可視化とは

①実例から(オープンデータ「犯罪発生状況」の可視化)

では、まず可視化というものを説明するために、NHKのニュースをご覧いただきましょう。

スクリーンショット 2020-04-12 6.12.06

「ひったくりの被害 詳細をネットで公開」

スクリーンショット 2020-04-12 15.57.56

オープンデータの関連での話でもありましたが、ここではなんのために公開しているか、どういう形で公開しているかについて紹介されていることにも留意しましょう。その上で、それだけでなくて、可視化、データの見える化ということで、公開されているデータ、中身は数字や場所、時間の羅列になっているわけです。このときに公開したのは74件ということなので、ぐっと見れば把握できる範囲であるかもしれませんが、月ごとの発生状況や、年代ごとに何か特徴があるのかともかくそれがどういう内容なのかを示すためにこうした「見える化」をしているということも含めて紹介されていましたね。

②可視化概論

スクリーンショット 2020-04-12 6.12.25

こうした可視化全般をまとめると、出しました本でまとめられているものを抜粋してきました。可視化というのは意外と奥が深くて、分かるようでいて実際モヤモヤするところがあるので、いろいろな切り口でご紹介しましょう。

まずいろんな現実がありますよね、それを計測という表現をしていますが、統計として集計するでもいいですし、IoTといったセンサーで取得したデータがあります。計測したい「世界」があって、データを取り出して、分析して、可視化をして、最後に人とあります。この本でも注意深く書かれていますが、データの可視化の先には必ず「人」があるということです。なんのためにしますか?、が先です。この授業を受けられている方にはすでにおわかりの話ですが、可視化についても同様です。なんのためにするかがないと、「きれいなグラフを作りましたね」というものでしかないですし、こういう言い方をしている時点でおわかりかと思いますが、「きれいなグラフを作りましたね」という感想にしかならない訳です。目的をひっかり見定めることが重要です。

もう1つ難しくしていることは、そうはいってもここの2つ目にあるとおり「人間に受け入れられやすい形にデザイン」とあるとおり、ここの「デザイン」は第2回授業で説明した意味での「デザイン」でありまして、見栄えだけでなく、後でも出てきますが、用いられる「色」、選択される「手法」だったり、方法論も定まっているものでして、できたものは「ははーん」となるものです。その「ははーん」という反応は、2つ意味があります。
1つは「びっくり、こんなことも分かるんだ」という驚きのような気持ちの変化、もう1つは、「そうそう、こういうことを知りたかった」という「しっくり」くるというものです。可視化は別に派手にするということは必要ではなく、むしろ誰にとっても同じように理解できるということが重要です。

例えば「色」で言えば、「黄色」と言ったときにみなさん同じ黄色になるでしょうか。よくある思考実験で「今、あなたの目の前にリンゴがあります」というもので、「では、そのリンゴの色はなんですか?」とか「そのリンゴはどのような形をしていますか」という話がありますよね。同じことを説明しても、捉え方は違ってきます。今の議論は、差し当たりはデータについての可視化に限って言いますが、一つの数字がどのような意味を持っていて、他の情報とどのような関連性があるのか、これを説明するために多くの言葉を必要とするわけですが、ここではそういうプロセスをショートカットして、みんなに共通の認識を持ってもらう、究極の目的はそうしたところにあるのではないかと思います。

これは、決して誘導するという意味ではなくて、何を示しているかをわかりやすくお伝えするという作用は、非常に難しいものであることをご理解いただければよいと思います。であるからこそ、可視化のことだけで本がかけたり、ツールがたくさんある、それに関わる人が多様な分野にいるということかと思います。

スクリーンショット 2020-04-12 6.12.35

また、次の資料は別の方、矢崎さんによる整理です。これもわかりやすいと思いますけど、「探索」「分析」「表現・伝達」のそれぞれの作用において、それぞれのデータ可視化というものがあるね、というものです。データを可視化することでデータの中身が何であるかを探索するもの、そこから先に分析結果を確認するためのもの、さらにテクニックとしてそれを伝えていくもの、これらは、可視化と呼ばれるものは通常はできたものから見ていくので、こうした三種類のどれにあたるか、どのようなプロセスにおいて用いられているのか曖昧になってしまうということですね。そういう性質なので、みなさんにはぜひ気がついていただきたいのは、むしろ、これらがつながっているということですね。そういう理解がよろしいかと思います。

自分たちがデータ可視化をするときは、これらがつながっているということ。それは、最後のところを思い浮かべながらデータを探索する、あるいは出てきたものを見て初めてわかったことがあって、最初に戻って探索し直すというものもあるでしょう。こうしたツールを用いることでそうした行ったり来たりが容易でもありますし、むしろそうしたことを促進するということです。これだけたくさんデータがあって、わからないことがあるというときに、こうした可視化ができることはたくさんあるね、ということはおわかりいただけると思います。ですので、なんのためにするのか?はきちんと踏まえていかないと、「それっぽいもの」が出来てしまうという危険性を理解する必要があるということです。

そして、矢崎さんの整理のもう1つなるほどね、と思ったことは「誰にとって?」ということです。この授業も実はそうで、あまり意識されていないところであります。というのは、今回用いるツールは、ここに書かれている「誰」つまり「研究者・実務者・市民・デザイナー」どの人たちにとっても用いられるものですので、必ずしもその区別を必要とせずに話ができてしまいますが、それはどちらかと言えば、みなさんにとって考えるべきは、データ可視化について理解を深め、それを用いていこうとなった際にですね、そうではないことをきちんと考え、フォローしていくことではないかと考えるものです。

③可視化にあたってのデザイン

スクリーンショット 2020-04-12 6.12.44

で、もう少し「デザインする」について、他の授業などではあまり触れないところかと思いますので、予め説明しておきましょう。

データの分類について、すでに統計の授業などで知っている方もいらっしゃるでしょうか、それが「量的」か「質的」なのかというデータスケールの話がまず必要です。そして、次の観点がカラースキームと呼ばれる、ここに示しているように、色の表現は結構難しいものです。それがデータのスケールすなわち中身とこの色の組み合わせで正しく用いる必要があるということです。

例えば、今日は暑いですね。じゃあ気温みたいなデータをあるレンジで表現しましょうとなったときに、このヨーロッパの地図3つあるうちの真ん中をご覧いただいて、暑いを赤色で表現しているとしましょうと。そのときに赤色の系統で気温の高低を表現する、ここでは連続的ということになりますが、そうしたことを考慮する必要があるということです。

また、何かしらの基準を設定して「それ以上」「それ以下」といった区分を用いたときに、「赤」と「青」といった対比された色で分けましょうと。そうしたときは「分岐的」と言われるカラースキームを用いているとなります。このように、色についてだけでも「なんとなく」というものではなくて、方法論として定まっています。目的によって、データによってカラースキームが異なる、あるいはカラースキームは同じだが、データが違うというものもあります。ですので、なんとなくこれだなではなくて、そこには一定の方法論が定まっていて、そのルールをしっかり身につけることも必要です。

さらに、最後に参考文献として示していますが「なぜそれは棒グラフなのか、折れ線グラフではないのか」といったような、表現方法の選択、それを実現するツールについても重要です。これは「グラフをつくる前に読む本」というものが大変わかりやすく説明されていますので、ぜひ読んでみてください。みなさんそうしたことを体系的に学ぶことって実はあまりないのではないかと思います。代わりに「わかりやすくプレゼンしましょう」といったことは勉強されると思いますし、「じゃあ、それってどうやって?」と思われるかもしれません。また、社会人になってからもそれ相応に学習しないといけないことです。しかし、なんとなくパワポを使えばなんとなく資料ができてしまうということではなくて、もっと言ってしまえばそうした資料がなんとなくできてしまう理由についても、きちんと学習する必要があります。そうしたことについての最適解が定まっていることでして、そして、こうした議論には含まれているものです。

④優れた例を見てみよう

スクリーンショット 2020-04-12 6.12.56

じゃあ、そうは言っても・・・ということもあるでしょう。そうしたときは、まずはここにあるとおり、いろんな事例があって、共通の財産としてうまく活用しましょう。当然、その背景にさきほど説明したルールがいろいろ入っていますので、無目的に転用することは結構危険ではあります。しかし、「もう自分には折れ線グラフと棒グラフと円グラフがあるからいいや」とはせず、いろんな表現方法はこういうものを見ていくことから始めてみてはどうでしょう。

⑤参照軸としてのデータジャーナリズム

スクリーンショット 2020-04-12 6.13.06

今回は行政のデータ利活用におけるデータラングリングについてご説明していますが、参照軸としてデータジャーナリズムの動向は重要だと考えていますので、ご紹介しましょう。2015年の論文で整理がされているものをまとめてみましたが、「ニュースの発見」「ニュースをわかりやすく表現」することが目的としてあります。

スクリーンショット 2020-04-12 6.13.15

こうしたことは、NHKのこのサイトをご覧いただくことでおわかりいただけるでしょう(※現在リンク先は存在していませんので、動画をリンクします。)。第1回なりの授業で市町村ごとの1人あたり所得の変化についてご覧いただいたかと思います。それは日経ビジュアルデータでしたが、NHKや朝日新聞、東洋経済新報など、共著で出しました本において東洋経済新報の方も一緒に書かれています。

スクリーンショット 2020-04-12 6.13.24

論文ではそれを充実する背景があったからとしています。1つはデータ、これは報道すべき事象に対するデータが充実してきたということ。2つ目が、コンピューティング環境、クラウドだったりいろんなアルゴリズムなど、この授業では「テクノロジーの民主化」という言い方をご紹介しましたが、ジャーナリストの方々も低コストでたくさんのデータを扱えるツールがある、そして3つ目は教育機会、学ぶことができる。本の話で言いますと、共著者のみなさんと一度東京で会う機会が先日あったんですけど、それぞれのバックグラウンドは実に様々でした。様々ですが、それぞれみなさんがいろいろな経路で可視化について学んだということ、そういう方々がたくさんいること。決してそれを専門にしている訳ではないこと、しかしながらそうではないからこそ、それを身につけるために学ぶということですね。私であれば、行政職員もそれを学ぶことができる、まあ、こうした授業をすることもそうですが、そういう意味での「学習機会」ということが、重要なのかと思います。

次のポイントとして、「ニュースが共創の時代になった」ということです。

分かりやすい例ですと、最近「パナマ文書」と呼ばれる事案がありました。ある法律事務所が手がける租税回避に関する機密文書が公になり、世界各国のメディアが共同で調査報道をしたものです。日本でもNHKなりが関わっていましたが、それぞれの報道内容はそれぞれの報道機関の立場でするとしても、データソースの分析やそれを使いやすくするための共同作業といったものがあっての話である、そういう共通了解があってこその話だったと思います。

つまり、ここであるとおり、データが中心であり、共同作業を可能にするテクノロジーを活用し、役割分担をする。そうすることで、膨大なデータの前に隠されている関係性や真実といったものに迫るために、個別の報道機関ではなしえなかったことを可能にするという取り組みなんだということです。

こうしたことは、行政の世界でも当然に起こるべきことだと思っていて、この資料はジャーナリズムと書いていますが、この言葉を行政や住民といった言葉に置き換えることができると思います。なぜなら、さきほどのNHKのサイトがとりあげているテーマは「郊外の空き家」でした。いつからどう増えてきたのか、地域によってどのような特徴があるのか、ということを調査したものです。そうしたことは、行政の言葉でいえば、政策課題が何かというものでしょう。そのために同じデータで取り組むということがあるのではないかと思います。

では、こうしたデータジャーナリズムに学べることが多いでしょう、という私の問題意識を少し敷衍してみましょう。

スクリーンショット 2020-04-12 6.13.36

ここで紹介しているのは、アメリカ連邦議会のいわゆるゲリマンダリング、党派に有利になるように選挙区の区割りを操作するというものです。下の図のThe Atlas of Redistricting、Redistrictingというのは、区画を作り直すという意味ですが、それをどう変えたら、赤と青、つまり共和党と民主党どちらに有利になるのかというものを機械的に判定できるという可視化です。

そういうことを、地元の事情の元で政治作用で行われているということかと思いますが、ある意味でここまで明確に、もっと言うと開けっぴろげにやられるとなんだか潔すぎて関心してしまうんですけども、こういうことがともかくWeb上で分かると。

スクリーンショット 2020-04-12 6.13.45

また、次のHidden Spy Planesというもの、これは捜査当局が捜査のためにPlaneを飛ばす訳ですが、それも含めたあらゆる航空機の飛行経路って公開されています。その中から、この報道側として「怪しい」と考えられる航空機を割り出して何が分かるか、という報道です。それがどのくらいの規模で飛行しているのかを可視化したり、飛行経路を機械学習で「怪しいか怪しくないか」を判定したというようなものです。まあ、そういうものがあります。

こうしたデータジャーナリズムについて、とりあえず問題領域について共感できる・できない、ということはあるでしょうけども、行政が取り扱う領域の隣接したところではこうしたデータを活用した取り組みが始まっているということです。

⑥政府部門・企業の取り組み

スクリーンショット 2020-04-12 6.13.54

次に、隣接領域でしょ、と言う方のために、海外政府部門の取り組みで説明しましょう。これはロンドンの事例で、京都府もこれを参照しています、なのでサイトの名前が似ている(LONDON DATASTOREとKYOTO DATASTORE)のですが、この他にもオランダでも分析する基盤として活用しているという話のようですが、取り組みが進んできています。

スクリーンショット 2020-04-12 6.14.02

その上で、日本国内ではどうか。国レベルではRESASといったものの他に、総務省統計局がダッシュボードや地図ツールを提供しています。

また、自治体レベルでは、Tableauであれば札幌市や横浜市、京都府もそうですが、生駒市において活用されています。また、宮崎県では職員の自作によるものでGISの分析ツールを公開しています。

スクリーンショット 2020-04-12 6.14.10

次に民間企業の取り組みとしてご紹介するのは、Uberです。最近京都市内でもUberでMKタクシーが呼べるようになりましたけど、Uberって結局ですが、自動車の運行データを持っている訳で、それでビジネス展開するためにデータの基盤を自社開発しています。これがkepler.glですが、面白いのはサンプルとしてデータを一部公開していますが、自分たちのデータを可視化するために基盤を提供しているという点ですね。

⑦京都府の例

こういったこと、ここ数年といっていいと思いますが、可視化と呼ばれる機能を積極的に活用しようという動きがさまざまな分野で始まっています。そこで、少し昔話をしますが、京都府はどのような経緯で取り組みをしているかというところをご説明しておきましょう。

スクリーンショット 2020-04-12 6.14.18

最初のこの資料は、平成28年の時点で、当時私が知事に提案したときの資料を抜粋したものです。京都府はそもそもいろいろなデータを出してはいるんだけども、まずデータストアというような、前々回と前回でご説明したカタログサイトを持つことの意味について浸透がありませんでした。そうすると何が起こるかと言えば、「カタログサイト的なもの」が乱立するということが起こっていました。

スクリーンショット 2020-04-12 6.14.27

そして、データの中身についても、もちろんデータは出していました。これは府内情勢のトレンドを示した、いわばダッシュボードのようなもので、増減を示していたり、いい線いっているのですが、データの中身自体はいわゆる神エクセルであり、分析するためには手間がかかるというものでした。

スクリーンショット 2020-04-12 6.14.36

そして、こうしたデータを用いて政策の進捗を分析してレポーティングするということもやっていました。レーダーチャートを用いて測定する指標の達成状況を示していますが、これは可視化としては実は不正確な使い方で、なぜこういう使い方をするかな、とは思いますが。ともかく、たくさんの指標をこのような形で追いかけて可視化していますが、残念ながらPDFファイルで公開されており、元のデータを取得することが困難な状態です。ここまで作り込む必要があるのだろうか、と思います。

スクリーンショット 2020-04-12 6.14.45

こうしたものをすべて「おしい!」とした上で、さきほど可視化は「人を動かすため」としましたが、行政が持つデータをオープンデータとして提供して、地域の人たちを動かす、つまり共創していくために、そしてそれを容易にするためにデータの可視化を行うこと、そしてそのために必要なデータの整備を行う、これがオープンデータということそのものになりますが、そうしたことを提案しました。それは、海外を見てもそうですし、ツールとしても活用できるものが整ってきていたので、行政としてもそれを活用しない手はないではないかということです。そうしたオープンデータと可視化をセットで提案したところに特徴があるかと思います。

スクリーンショット 2020-04-12 6.14.53

では、なぜそのような提案になるのかというと、これは実例ですが、平成29年度に京都南部にあるお茶の産地の1つである和束町でアイデアソンを開催しました。その際に、京都のお茶に関するデータを使って可視化をしました。右側のように、茶畑が広がるところで、外国人の方にも人気のスポットです。そういった日常については、地域の方はご存知です。それを、環境省が出している茶畑の分布図、これによって茶畑が広がるというのが、どのくらいの割合なのかを示してみたものです。すると、和束の方が「なるほどね」とおっしゃっいました。私のような地域外の人間も、そこで暮らす方にも等しく「なるほどね」ということで伝わることが重要だと思います。見慣れているものが数量的にどの程度なのか、ということを明らかにするのはデータの重要な役割だと思います。

また、そのお茶の生産がどのくらいなのか、このマクロのトレンドとお茶の消費が変化していること、海外の人にウケていること、これらの定量・定性の情報がつながることが重要なのではないかと思います。そして、お茶に限らず、行政の政策分野において同様にできることが求められるのではないかと考えたものです。

3.Tableauハンズオン

以上のようなことを前提に、作業に入ってみましょう。本に書いたTableauの章で、同様なことをやってみましょう。

スクリーンショット 2020-04-12 6.15.01

まず本で書いたことのポイントとしては、可視化には3種類あると今日説明しました。つまり「探索」「分析」「表現・伝達」ですが、それぞれをTableau上で実践できるということを書いたつもりです。そのことはみなさんも操作をしながら体感いただけるのではないかと思います。

では、やってみましょう。

①データをダウンロードする

まず、こんなところから?と思われるかもしれませんが、最初はデータをダウンロードしましょう。京都府のサイトなり京都市のサイトなり、データの検索のしやすさといったところも、みなさん体感してみましょう。

・・・料理番組でしたら、出来上がりをすぐ用意するかと思いますが、授業なのですこし贅沢に時間を使いましょう。

最終のゴールは、この本でも示した5年分の観光入込客数データを可視化するというものです。時間がない場合は、1年分でもいいですけども、可視化まではたどり着きましょう。

京都府のデータですが、本を書いてから気がついたのですが平成27分までしかCSVファイルになっていませんでした(※現在は平成29年分までExcelファイルですが格納されています)。そうなので、カタログサイトには、そのCSVファイルの元になっている報告書のホームページへのリンクを追加しました。元はPDFファイルです。それをどのようにして可視化にするためのデータにしていくか、こうしたところもすでにデータラングリングになってきますね。

スクリーンショット 2020-04-12 16.22.51

どういう形でデータが格納されているか、カタログサイトからダウンロードしていくか、具体的にはデータの中身までみます。すると、1年ごとにデータがありますね。次に、データの形式はどうでしょう。最新の平成27年のファイルをプレビューで見てみて、中身を確認します。では、どこまで遡って分析ができるんだろうと思いますよね。では、平成5年までデータセットにはリソースが格納されていることがわかりました。平成5年のデータを同じくプレビューしてみましょう。

スクリーンショット 2020-04-12 16.23.34

あれ?データの中身がちょっとどころかだいぶ違いますね。これを結合してできるのか、何年分のレンジであればできるのか、そうした相場感を決めていく作用がデータの出元でいったりきたりする訳です。そうしたことを行うために、データの中身をしっかり見てから、分析の粒度を決めていく、こういったことを繰り返し行うことになりますね。

よくあるのが、こうした事前の把握がないままにとりあえずダウンロードしておいて、締め切り前日にさあやってみるかとしたときに、全く使い物にならないデータしかなかった。こういうことは極端な話ですが、データを扱う以上は丁寧に中身をチェックしていくという基本動作を身につける必要があります。

今回であれば、元の報告書のPDFファイルを見ていくとなります。全体の推移を確認してからでもいいですが、今回は表7のPDFファイル「観光入込客数及び観光消費額」の「市町村別、月別」です。過去の分も同じ形式でデータある、こうしたことも確認しながら5年分ダウンロードしましょう。

スクリーンショット 2020-04-12 16.24.22

②データを前処理する

今回はPDFファイルを使いましょう、となりました。PDFファイルをどうにかしないといけない。Tableau側でPDFを直接読み込むこともできますと、本には書いていますが、実際今回扱うPDFファイルはそれで読み込んでもすぐには使えるような状態にはなりません。Tableau上でそれを工夫するやり方もあるのですが、それを説明する時間がないので、標準的というか作業内容が具体的に見えるので、本に書かれたとおりのやり方にしましょう。

スクリーンショット 2020-04-12 16.25.41

PDFファイルを全選択してExcelにコピペする、みなさんもよくやられるかもしれませんが、やってみてください。普通にコピペするとどうなるか、コピペする形式を考えながらとかいろいろやり方はあるかと思いますけども、まあできたとしましょう。

スクリーンショット 2020-04-12 16.29.01

元のPDFファイルの作り方になりますが、もっと昔の報告書データではまた違った形になりますが、今回扱う最近5年分であれば、コピペすると地域・市町村名・・・と並んだ並び方が微妙にずれてきます。これも機械判読性の話に接近していますが、京都市のデータについては、地域と市町村名の列をセル結合しているので、他の地域と列がズレてコピペされるといったようなことが起こります。また、入込客数とヘッダーになるべきところが、そうはならないといったところ、結合されていることでいろいろ調整が必要になってきます。

まずこうしたことを脇目も振らずやらないといけないのですが、今回は26市町村なのでそうすればいつかできるでしょう。ただ、ここが北海道だとすると180市町村近くあるわけです。1つ1つ列なり行の結合によるコピペのズレを手作業で補正するでしょうか。それを5年分ですね、各月ごととなると60項目です。180と60の掛け算ですので、なかなか絶望的になりますね。

みなさんどうですか?くじけそうになってますね・・・コピペの結果が画面と違いますか?コピペの形式を指定するといいかもしれません。テキスト貼り付けとか書式貼り付けとかありますので、後作業が楽になるようにいろいろ試してみてください。・・・難しいですか?じゃあちょっと方針転換しましょう。授業用のGoogle Driveに変換後のファイルをおいておきますので、それを使ってショートカットしましょう。

スクリーンショット 2020-04-12 16.29.37

ここに時間を少しかけたのは、コピペでみなさん苦労されましたね。意外とそこが難しいんですよね。この時点ですでに難しい。本では、クロス集計書式でコピペされたものを列指向形式に変換と書いています。授業では横持ち・縦持ちという書き方していますが、縦持ちというのは、簡単にはこのデータで言えば「地域」の列に「京都市・・・京都市・・・」となっています。コピペでは京都市は1行にしかなかったですが、各データに京都市のデータであると補完します。そして「月」の列を見ていただくと、それが月単位のデータで格納するとして、当該行のデータが何月のものであるかを説明する、ということになります。それが列単位で上から下に並べる、見方としては縦に見ていきますよね、なので縦持ちということになります。

機械判読性の回で、コンピューターは行単位でデータを読んでいきます、と説明しました。Tableauの処理にも関わるので、こうしていることもありますが、元のExcelであれば、人間の目で把握しやすいようになって、市町村と何月であるか、縦と横にクロスさせたところに観光客数のデータが格納されているとなっていますが、縦持ちであればそうではなくて、あくまで行ごとに「京都市、1月、○○」という形で読ませるようにデータを格納するということになります。

③Tableauで開く

データが準備できたところで、Tableauを使ってみましょう。最初に「接続」と出ます。データを取り込みましょう。「テキストファイル」を押すとCSVファイルを選ぶようになりますので、さきほどダウンロードしたファイルを開きましょう。すると、縦持ちのファイルをそのまま読み込んでくれます。

スクリーンショット 2020-04-12 15.35.19

多くの場合は自動的に読み込んでくれますが、よくあるのはフィールド名が「F1」になっていることがあります。それも「フィールド名は1行目に含まれている」を選択すると読み込み直してくれます。あとで説明しますが、当該データの見出しとしてわかりやすくしておく、またディメンションとメジャーに分けるために目印となってきます。

スクリーンショット 2020-04-12 15.35.29

データは年ごとのデータになっていますので、別の年のデータも続けて読み込んでみましょう。その際、データを開いているところに別の年のデータをドラッグしていきましょう。

スクリーンショット 2020-04-12 15.36.23

近づけると「表をユニオンへドラッグ」となりますので、この形にしましょう。この作業は、最初に読み込んだデータの持ち方のままに、別のデータを続けて同じ列に取り込んでいくという形になります。それを繰り返していくと必要となる年数のデータが1つの縦持ちのデータとして完成されます。今回は手作業でやりましたが、同じフォルダに格納しておいて、ワイルドカードで「同じフォルダで、.csv形式のファイルを全部読み込む」と指定すれば、ファイル数が多くて手作業が大変、というときでも同様に処理ができます。

スクリーンショット 2020-04-12 15.37.07

いかがでしょう。みなさんデータ取り込みに時間がかかっていますね。こうしたことがスカッとしていないと手間取りますよね。この縦持ちでデータを持っておかないとすぐ読み込めない。それはみなさんが悪い訳でもないし、Tableauが悪い訳でもなく、データが悪い訳です。縦持ちのデータで取り込むためにデータの前処理が必要で、その方法にみなさん手間取っているのも、今回は年ごとにバラバラに作っていますけど、最初から一括で作ってもよい訳です。あるいは、年ごとにバラバラでデータがある、と。それをつなげて分析したいから、Tableauは結合するための方法が最初から用意されている、という言い方もできます。

スクリーンショット 2020-04-12 15.37.26

そこまでできたら、取り込んだデータを使って何ができるか、という意味で可視化をしていきます。ここで必要な分類は、画面左側にある「ディメンション」と「メジャー」です。メジャーは集計対象のデータです。そしてそれを集計の軸であるディメンション、今回のデータで言えば「地域」であるとか「市町村」といったいわば切り口で分析できるというものです。また、年とか月がメジャーに振り分けられていますが、今回の可視化では「月ごとの観光客数の推移」を見たい、ということなので、これをメジャーからディメンションに修正するということもできます。

つまり、観光客数の全体の数字が元のデータに入っていますよね。総合計としての観光客数があって、それをディメンションを切り口として、メジャーのデータを取り出していくという関係があります。それが市町村ごとだったり、月ごとだったりというものです。これは、探索的な可視化というものですね。

スクリーンショット 2020-04-12 15.37.53

実際にTableauで観光客数をダブルクリックすると、「行」に入って、1つの棒グラフになります。これがデータの総合計です。じゃあ、これを市町村ごとに見てみたいよね、となりますね。ディメンションから市町村をダブルクリックすると、Tableauでは適切な場所にデータを格納してそれに見合ったグラフにしてくれます。必要であればそれを自分で修正するという手順です。

スクリーンショット 2020-04-12 15.38.02

では、次に年ごとに細かく見ていこうとなるのでそれもダブルクリック。並び方を変えたいときは、ここをクリックするときれいに変えてくれます。このように直感的に切り口に合った形で可視化してくれる。こういうスムーズな可視化のプロセスを提供してくれます。

本では、

全体像から見ていこう、ということで

・観光客数の合計値
・次に年を列に
・それから地域、これを区別するために「色」にドラッグすると地域別に色で区別してくれます。

こういう手順を踏んでいると、「こういうことを知りたい」となりますよね。また、それをどういう可視化をすればよいかとも思いますよね。

スクリーンショット 2020-04-12 16.38.25

例えば、地域ごとの特徴を、と思ったときにディメンションにある「地域」を選択してみると、オレンジに囲まれる領域がハイライトされます。ここに「地域」を入れることができるとTableauが自動的にガイドされています。

スクリーンショット 2020-04-12 15.38.35

なので、知りたいことを知りたい形でデータを入れていく、という作業をTableau上でしていくという探索の流れをご説明しました。

次のステップとしては、身も蓋もないことを言えば、気になるところを触ってみて何がどう変わるかを見ていく、ということになります。

スクリーンショット 2020-04-12 15.38.39

スクリーンショット 2020-04-12 15.38.45

例えば、地域を色ごとに分けましたが、この順番が普段見ている地域の順番が違うなと思ったら、右クリックしてみると「並び替え」が出てきますし、色がおかしいかなと思えば、変更することができます。また、カラースケールの話についても、Tableauは配色の考え方を持っているため、ほぼほぼ誤りのない色の選択をしてくれます。

さらに、本では「ドリルダウン/ドリルアップ」について書いていますが、今回のデータであれば、「地域」と「市町村」の関係で説明しましょう。

スクリーンショット 2020-04-12 16.43.22

スクリーンショット 2020-04-12 16.43.31

例えば「乙訓」という地域は、「長岡京市、向日市、大山崎町」から構成されています。今回「地域」としての乙訓の中に、これら3つの自治体が積み上げグラフで入っています。Tableauでは「+」マークがついているところでそうしたことができます。

スクリーンショット 2020-04-12 16.44.52

スクリーンショット 2020-04-12 16.44.46

スクリーンショット 2020-04-12 16.44.57

こうした集計して表現するデータは、行政の提供するデータではよくありますが、これを可視化でもうまく表現するために「ドリルダウン/ドリルアップ」を活用する。あるいは、データの持たせ方としてこうした「ドリルダウン/ドリルアップ」を意識してデータを作成しておくと可視化のときに、探索がしやすいという言い方もできます。

探索して作成してみた可視化グラフから、では前年比でどういう違いがあるか計算してみたくなりますよね。そこで、それを通常はExcelでは計算式を作ってセルを追加してコピペする・・・といった作業をするかと思いますが、そうしたよくある計算は、Tableauではストレスなく計算できるような機能があります。それが「簡易表計算」を選択すればそこに「差」というものがありますので、選択するとグラフが前年比の比較の棒グラフに変わります。

スクリーンショット 2020-04-12 15.40.18

スクリーンショット 2020-04-12 15.40.27

これで気がつく京都市の観光客数の変化が目立つようになりました。すると、ここからその特徴を何でよりはっきりするか、本では月別に分解(ドリルダウン)して、季節変動の年ごと変化を見てみようとしています。

スクリーンショット 2020-04-12 15.43.19

その際、観光客数の実数を地域別・月別で分解したときに、同じ数値のスケールだと見にくいので、せっかく前年比ができるのであれば、それを%表示にすることで、もともと異なる観光客数を持つ地域ごとの変化を同じ尺度である%で可視化するということになります。

スクリーンショット 2020-04-12 15.41.57

スクリーンショット 2020-04-12 15.42.03

また、画面表示についても、グラフが増えてくると表示がはみでたりしますので、Tableauでは全体を表示するとか幅で表示といった機能もあります。

今回は月別での分解でデータ自体は終わっているのでそれ以上の可視化はできない訳ですが、他のデータと組み合わせてさらに分析するといったことを通常行うかと思います。

最後に、こうした可視化作業で分かったことを共有しましょう。それぞれのグラフはそれぞれのワークシートになっていますが、これらをまとめて1枚することができます。それがダッシュボードです。ダッシュボードを新規に作成し、それぞれのワークシートをレイアウトさせると、複数のグラフを1枚に示すことができ、分析の流れを見えやすくできます。

スクリーンショット 2020-04-12 15.47.57

また、フィルタ機能というものがあり、例えば1つのグラフで市町村を選択すると、他のグラフでもその選択した項目でフィルタした結果のグラフに変更してくれる、といった機能もあります。

それぞれのグラフの切り口を他のグラフの変化も見ながら、何が分かるかを見ていくことがこの手のデータ分析で行うことがお作法としてあると思います。我々は、ブレイクダウンしたデータをそれぞれ別のペーパーで用意しておく、というようなことをやるかと思います。そうではなくて、この1つのダッシュボードをみんなで共有して議論していくときに気になったことは、各人で違うのが普通でしょう。そのときにそれぞれ別の資料をまた用意して・・・というのではなくて、同じものを見て、それぞれが気がついた点を発言して、それを同じダッシュボードで確かめてみる、その結果をみんなで共有して別の考え方を議論してみる、といったような議論の場の設定も、こうしたTableauなどの可視化ツールが狙っていることです。さきほどアイデアソンでのお茶のデータの可視化の話をしましたが、このような場の設定を、これまで行っているような紙の資料をやまほど用意するとか、自分たちでそれぞれ作ってみるとかではなくて、同じデータソースを同じダッシュボードで見て議論するというようなことが自然と行うことができるよう、データの持ち方とその整理、可視化して議論するという流れの中で、こうした可視化ツールがどのような役割を担っているかという点に留意してください。

最後の機能として、「パブリッシュ」というものがあり、これはWeb上で公開し、ブラウザで閲覧できるというものです。たいていの可視化ツールではそういう方法で共有し閲覧するという方向になっています。

スクリーンショット 2020-04-12 16.55.12

NHKでも紹介された犯罪発生状況であれば、ひったくりの府内発生状況を示すデータがオープンデータになりました。そのデータには発生地の町名が入っていましたので、地図上で発生箇所を示し、その箇所でどのような被害者が何のひったくりにあったか、その時間帯・曜日などの「ディメンション」で切り取っていくということをしています。こうしたように、表現したいデータの中身によって表現方法は、グラフであったり地図情報であったりそれぞれ適切なものを選択していくということになります。

④作業まとめ

スクリーンショット 2020-04-12 6.15.10

今日の作業を整理してみましょう。大きくは2つです。

1つはデータの前処理大事だよね、ということです。そしてもう1つは縦持ちと横持ちという説明をしましたが、データの持ち方によって後の工程でどういうことができるか変わってくるということです。

そうしたことを、今日時間が少しかかりましたが、実際どのようなことなのかリアルにお感じいただけたかと思います。可視化作業をする上での運用という意味で、そうしたデータを作成していく業務フローもセットで考えておかないと、いちいちPDFからデータを抽出して縦持ちに直して・・・ということを毎回やるのですか?となります。

例えば、データベースとして整備するといったTableauに読み込みやすい形で運用する、Tableauも様々なデータベース形式と直接接続できるように設計されていますので、今回観光客数のデータ、PDFとしてオープンデータになっていますが、それが果たしてこうした分析を行うためにどうすればいいかまだまだ考えなければならないことが多いように思います。

⑤課題

スクリーンショット 2020-04-12 6.15.20

Tableauで行う作業の流れはだいたいお分かりいただけたかと思いますが、課題として設定しますので、作業を続けるなり他のデータを使って関心のある可視化を作ってみるということをしてみてください。また、犯罪発生状況であればTableau Publicのページからワークブックをダウンロードできますので、どのようにして作っているかも確かめながら、Tableauの使い方を覚えてみる、そうしたことをやってみてください。

なお、みなさんの作成されているデータに住所がある場合、地図上で表現するためには緯度経度情報を入手する必要があります。そのための作業がアドレスマッチングと言いますが、この犯罪発生状況のところにヒントがあって、変換するためのサイトをここに示していますので作業してみてください。

Tableauの授業、平成29年度もやったときにみなさん「ぽかーん」としていましたので、今日難しかったかもしれませんが、最初はそういうところですのであまりご心配なく。他の授業レポートで活用してみるとか、あるいは今後社会に出ていくときにはますます必要なスキルになってきますので、少しでも手を動かして慣れていくことがいいと思います。

4.次回授業について

スクリーンショット 2020-04-12 6.15.47

次回の授業では、ビッグデータ活用の最先端についてAgoopの柴山社長からご講演いただき、Agoopさんが蓄積しているビッグデータ、この場合は人流データになりますがそれを分析する基盤を作られています。そのサービスを活用させていただいてどのようなことができるかといったことをハンズオン形式で教えていただこうと思います。


この記事が気に入ったらサポートをしてみませんか?