猿、Tableauの洗礼を受ける -データソースって何-
ラップトップを抱えた猿ですこんにちは。
この口上、元ネタはラップトップを抱えた石器人です。国語の教科書でやったやつ。(教科書によっては書いてないかも)
別にペンネームにしている訳でも無いですが知能レベル猿なので今日もこれからも猿で行きます。
いやほんと頭のいい人ってどんな思考回路で処理してるんでしょうね。こっちは1聞いたらappleに飛ぶようなエクストリーム処理だってのに羨ましい限りです。
さて前回ぼやいていたのですが、Tableauを使おうとしてしょっぱなから意味がわからなさすぎて頭を抱えたのでその話でも。
とりあえずTableau起動した結果
DataSaberは10に渡る問題があるのですが、これはその問題の1つ目のデータを開いた画面です。
見てください、これがFundamentalです。私がパンダメンタルだと思っていた可哀想な1つ目です。
この問題を解くにあたり、ソースとなるデータ(数値とかの入ったエクセルとかのやつ)をTableauに接続させる作業が必要になります。
DataSaberで基本的に使うのは「サンプル -スーパーストア」というデータ。(これらの問題やソースとなるデータは全部サイトからDLできるのでどっかから探してくるという大変なことはしなくて大丈夫)
画面の左下を見ていただくとデータソースというタブがあるので、そこをクリックしてデータソースを入れようと思います。
で、下が開いた画面。
データ入ってるじゃ〜んって思ったんですよ。そうだよね問題文作るんだし最初から入ってるよね〜くらいの気持ちで作業に戻りました。
でもこれで作業しようとすると必要なデータ足りないんですよね。
私はしばらく気付けなくてどうして…?ってなっていたんですが、賢い人ならすぐ気付くでしょう、この違和感に。
誰よこのデータ!!!!!
サンプル -スーパーストアの顔した、注文(サンプル -ストア)じゃないですか!!!!そんな顔してない!?ごめんね!?
物事をね、しっかり見ないからこういうことになるんでしょうね。こんな所で人生を嘆くことになるとは思いませんでしたよ。お前はいつもそうだ。
これ入ってるのは問題作成用のデータなので、新たにちゃんとデータを入れる必要性があります。
そんなん普通わかるでしょと言われかねませんが、私は猿なので1から10
まで言うぜ。それが後の猿同志のためになるならね。(そんな同志現れるか知りませんけど)
どうすればよかったのか
どうすればよかったのかなんて偉そうな見出しにしてますけど普通に正しいデータソースを入れる作業をするだけです。
注文の所クリックすると、新しいデータソースという項目がありますので、そこを押してサンプル -スーパーストアのデータを追加してください。
そうすると以下のような画面に。
そうそうこれが欲しかったんですよ。
なんか一仕事終えたような気持ちになりましたが、これはスタートラインに立つ前ですら無いというから驚き。誰か嘘だといって。
データソースって何
そんなわけでエクセルデータを無事に接続することができたデータソース。
この後もずっと苦しむことになるであろうデータソースなのですが、どうも最近認識が間違っていたぞということがわかったのでついでに書き記しておきます。
まず、Tableauのデータソースは、ソースとなるデータとTableau間をつなげるリンクというのは今までの行動でふんわり分かったかも知れません。
サイトにも書いてあるので詳細はこちら(https://help.tableau.com/current/pro/desktop/ja-jp/datasource_plan.htm)
このソースデータというものは常にデータとTableau間に繋がれていないといけないのでは?と私は思い込んでいたのですが、その認識が違っておりました。
他のDatesaber受講者に教えていただいたのですが、作業画面の左上にあるデータソースは今読み込んでいるデータソースが表示されている場所で、左下のデータソースは直前に見ていたシートで使っていたデータシートが表示される場所とのこと。
普通にイコールだと思ってましたわ。ベイクドモチョチョという文言についてはまぁ次回、Tableauで遊んでいる内容を記事にしますのでそのときでも…
要はここ、接続状況の追加・確認するところなので、一回繋げてしまえば、一定データは読み込まれており、上のデータソースを使うくらいで、下はあまり多用しないらしいです。
結果、別に常にデータソース繋がってなくてもいい。
説明が前後してしまうんですが、データソース画面で接続がライブ・抽出となっており、私が考えていた「データソースが繋がっている」状態というのはライブ状態のことです。
データをTableauサーバーにパブリッシュ※する時に、一度抽出を選択してからパブリッシュする必要があるのですが、この抽出をして保存すると再度データソースを見に行った時、元データの場所を聞かれる現象が起きていました。
なので常にライブじゃないとダメなんだ…!と思っていたわけです。これそういう仕様ですやん。
※パブリッシュはアップロード的な感じで読んでいただければ。でもパブリッシュするって長いのでパブるとかに短縮したい気持ち。
ライブと抽出
ライブと抽出について調べてみたので、一応差としては以下。
■ライブ接続
リアルタイムでデータソースに接続を行うことができ、メリットとしては、操作した時点でのリアルタイムの情報を知ることができる。さらにワークブックだけで運用可能。デメリットとしては操作の度に負荷がかかりパフォーマンスが悪くなる可能性が高い。
■抽出
Tableau専用に最適化されたデータファイルを作成し、その情報を見ることができ、メリットとしては、大量データであっても高速の処理が可能で、デメリットとしては抽出ファイルを作成したタイミングの情報しか見られない。ワークブックと抽出ファイル両方の運用が必要。
補足が増えるんですが、ワークブックっているのはTableauのファイルを作る時に作成されるもの。私は保存したTableauのファイルだと思って生きています。
で、このワークブックもざっくり2種類あります、
ワークブック(.twb) ワークシート、ダッシュボード、ストーリーを含み、データソースを含まないデータ
パッケージドワークブック(.twbx) 上記に追加して、データの列の別名、計算フィールドといったデータソースを含むデータ
いや〜脳が処理を停止しそうです。元からあんまり働いてませんけど。
ざっくりざっくり噛み砕いていえば、ライブ接続は常にデータソースとソースデータが繋がっている状態、ライブ接続はどこぞに抽出ファイルを作って2つを同時運用するんですね。なるほどわからん。
結局ワークブックはデータソースを含まないから、人に渡す時はパッケージドワークブックで保存した方がいいということ?と思いながら、ちょっと実験を行ってみました。
このtwbデータの場所を変えるとファイルの挙動がおかしくなるということだったので、2パターンのデータを作成し、ソースデータの位置を変えた状態にしてみました。
ワークブック(.twb)(データソースを含まないデータ)
ライブ接続保存
→ソースデータがないと表示されてワークシートから開けない
抽出保存
→ソースデータがないと表示されてワークシートから開けない
パッケージドワークブック(.twbx)(データソースを含むデータ)
ライブ接続保存
→普通に全部開けるし作業も可能
抽出保存
→データソースにいくと元データの場所を聞かれるがワークシートはみられるし作業も可能
.twbファイル、人様に渡せないどころか自分のパソコンですらうっかりすると死んでしまうやつですね。軽率にファイルの階層を変えられない…
対して.twbxファイルにすると、どっちでも作業自体は可能な模様。
.twbデータ…なんのためにいるんだ…?(多分ソースデータが繋がってないので軽いんだと思います)
なので、基本パッケージドワークブックの方で保存して、作業時はライブ、提出時は抽出にするのが無難な気がしました。
Datesaberで配布されてる設問も全部パッケージドワークブックですしね。(当たり前体操)
そんな感じで今回はデータソースとその周辺でつまづいたり調べたりしました。
間違ってたら許してヒヤシンス。
ところでソースって言うと調味料の方が思いつくんですが、料理とかの味の決め手(源)になるからソースなんですかね。知らんけど。