レノファの試合、雨だと困るが曇っていてほしい!? データアナリストへの道#32
勝手にレノファ山口FCを応援しているハラマルです。
前回の記事、スキ数はそんなでもないですが(笑)、多くのアクセスをいただいています。ありがとうございます。
この状況を分析してみると、興味は持ってクリックしていただいた(が、スキを押すほどではなかった)ということかな、と思います。
この辺り、私のデータ分析能力や文章能力の問題かな~…と思っていますが、うち母親には「よく分かった」と言ってもらえたので、まぁ、最低限の合格ラインはクリアしたと考えることにしましょう。
さて、この記事の文末に、サポーターが勝手に1万人プロジェクトを設定して観客を集めたら面白いのではないか?と、思いつきで書いたのですが、皆さんが拡散していただいたおかげで、Xのインプレッション数が、普段の私のアカウントから桁が2~3個も多く、1.6万を超えました。本当に桁違い。
これを見かけた方が全員が来てくれたら1.6万人?半分の方だとしても、8千人やん!意外といけるんじゃないか!?ということで、6/2清水エスパルス戦を「#勝手に1万人プロジェクト」として、勝手にいろいろ誘客活動をしているところです。
そんな中、「天気が晴れたらいいね~」と多くの方から声をかけてもらいました。「快晴快勝」を目指しましょうという、今年ならではのキーワードも教えていただきました。
そこでふと。
確かに、みらスタでは、雨の試合が多いし、嫌な負け方もした試合もあったけれど、本当にレノファは雨の試合が多いんでしょうか?そして雨の日に弱いの?
気になったので調べてみました。
データの場所
前回もお世話になった「J.League Data Site」を探していると、「天候別勝敗表」というデータを見つけました。
このようになっているので、年度やカテゴリー、チーム名を選択し、「天候」は全ての区分にチェックを入れ検索してみました。
すると、上記のような検索結果が表示されました。
簡単に検索できたので、今回はイージーかなと考えていましたが、「天候」が非常に細かく区分されているようです。「雨の日」と言っても、雨、曇時々雨、雨のち曇、曇のち雨のち曇、など様々なパターンがあるようです。
う~ん、どうやって処理したらいいだろう…?と悩ましいですが、その問題は先送りにし、後ほど、ツールの中で処理するようにしましょう。
まずは、このサイトに表示されている結果を、Excelにコピペしていくことにします。
こんな形でExcelにデータを入れることができました。
続いて、今シーズンの他のJ2に所属している19チームを選択し、同じ処理をします。
20チーム×15試合分ということで、300個のデータが揃いました。
天候別試合数
ここからはTableauというツールの出番です。
先ほどのExcelデータを読み込ませ、直感的に項目やデータをドラッグアンドドロップするだけで、なんかそれっぽいグラフができます(笑)。
まずは、レノファが雨の日の試合が多いのか確認するため、天候別・チーム別に試合数を比較してみましょう。
はい!こんなカンジで並べてみました。
やはり先ほど気づいたとおり、「天候」の区分が多すぎて、かなり分かりづらいグラフになっていますね。
正確であることは良いことなのですが、ちょっとこれじゃ頭の中に入ってきません。確かに上から2つ目の「晴」は、レノファが少なさそうだなくらいしか分かりませんね。
ということで、天候をいくつかのグループに分けてみようと思います。
本当は、「雨量」というデータがあれば、「○mm以上の雨のときは…」みたいな分析ができたら面白いんでしょうが、今回はそこまでは含まれていません。
こういう場合は、「もしかしたら○○なんじゃないか?」「○○みたいな結果が出ないかな?」という「仮説」に基づいて試してみるのが一番です。
「仮説」というとカッコよすぎるかもしれませんが、Tableauなら後で条件を修正するのも簡単なので、まずはフィーリングでやってみましょう。
今回は、次の考え方でグルーピングしてみます。
みらスタで雨が降った試合を思い返すと、ずっと降っていた試合も、途中でやんだ試合もあったが、どちらもグランドの状況は同じくらいビチャビチャだった気がする(笑)。なので、一時的にでも「雨」が入ったもの、つまり、「雨」も「雨のち曇」も「曇時々雨」なども、全部ひっくるめて「雨の日の試合」と整理してみよう。
完全に晴れの日って、暑くて運動量が落ちることもある?もしかして、レノファにとってあまり有利にならないのではないか?じゃあ曇が全く含まれない「晴れ」だけの日を一つのグループにしてみよう。
「屋内」は特定のスタジアムだけの特殊事情なので、別に整理しよう。
残ったのは、曇が含まれ、雨にならなかった日。
ということで、4つにグルーピングしてみます。これを色分けしてみると、先ほどのグラフはこのようになります。
う~ん、さっきよりかは分かりやすいかもしれませんが、まだまだ比較が難しいですね。
こうやってみると、パッと見て処理できる項目数は、もっと少ないんでしょうね。
ここで、もし扱っているのがExcelだったら、このグループごとに合計値を算出するんでしょうが、Tableauだとそんな必要なく、特定の項目を選択してグルーピングするだけで、勝手に合計値を算出してくれるので非常に楽です。
先ほどのグルーピングをTableauの中で設定します。
はい、これでどうでしょう?分かりやすくなったんじゃないでしょうか?
グルーピング後の集計値にし、それぞれの数値も記載しました。屋内は例外なので除去しました。
こうしてみると、最下段の「雨あり」は、レノファはリーグ最多タイの6試合で、最少(2試合)の3倍にもなっています。確かに多い!
ちなみに、最多タイの長崎・熊本とも、「雨あり」のうち1試合ずつは、みらスタでのレノファとの対戦なので、「みらスタの雨」の被害者ですね…。
逆に、最上段の、「晴れ」を見てみると、レノファは5試合で、リーグ全体で4番目に少ないです。最多の山形(10試合)の半分ですね。晴は少ないと思っていましたが、リーグ最少ではありませんでした。
真ん中の「曇あり」を見ると、1試合~9試合までかなりばらつきがあります。
こうしてみると、今シーズン38試合中、15試合(4割弱)が経過した時点ですが、天候別試合数は、既にチームによってばらつきが生じていることが分かりました。
天候別勝敗
それでは、いよいよ、天候別の勝敗状況を見てみましょう。
先ほどのグルーピングを活かして、可視化してみます。天候ごとに、勝利数を赤縦棒で、敗戦数を灰色縦棒(逆向き)で並べてみました。
最下段の「雨あり」の試合では、レノファは確かに負け越しています。雨の日に弱いと言ったらそうなんですが、良く見てみると、他チームと比べて極端な結果にはなっていませんよ。そんなに悲観するほどではないような。
最上段の「晴」を見てみると、こちらもやや負け越しています。もしかして、先ほど危惧したとおり、運動量に影響するからでしょうか?
そして、あれ?残った真ん中の「曇あり」だと、何と、レノファは負け知らず!じゃないですか!え~知らなかった!これは新しい発見です。
こういう認識していなかった結果が、思わぬ形で分かるのがデータ分析の楽しみです!
続いて、他チームに目を向けてみましょう。直近で対戦する3チームに着目してみます。
すると、今週末(5/19(日))に対戦する藤枝MYFCと、翌週(5/26(日))に対戦する大分トリニータは、他の天候に比べて「曇あり」で苦戦しているようです。ということはですよ、レノファは負け知らずなので、対戦日は曇っていてほしいですよね!
そして6/2(日)の「#勝手に1万人プロジェクト」で対戦する清水エスパルスは…きゃー!どの天候でも強い!
が、どうせなら、お互い負け知らずの状態になっている「曇あり」の天候でぶつかって良い試合をしてほしいですね!
天候別得失点
最後に、天候別の得失点数を見てみましょう。
単純に先ほどと同じようにすると、下のグラフになるのですが、ほぼ勝敗数と同じような形になって、あまり新しい発見がありません。
そこで、これを1試合平均値にして、さらに形を変えて得失点のバランスが分かるようなグラフにしてみましょう。
横軸に得点を、縦軸に失点を配置しました。ただ、失点は少ない方がいいため、上下を逆転しました。つまり、グラフの「右上」に位置する方が、得点が多く失点が少ない(良い状態)ということになります。
赤丸のレノファは、失点はどの天候でも高い水準にありますが、「晴」と「雨あり」だと得点が少なくなる傾向があるようです。
天候別に詳しくみてみましょう。まずは晴。
レノファは晴の日に負け越しをしていますが、1試合平均得失点を見ると、大分(山口と同じ位置にプロット)・藤枝とは互角の様子です。やや他の天候に比べて得点が少ないというのはありますが、きっと良い勝負になるのではないでしょうか。
清水の得点力が強力(平均2点)なので、晴で対戦はしたくないですね…。
次は「曇あり」です。
これはレノファが得意としており、清水と互角の数値となっています。レノファが平均得点2.25ですが、清水はそれを上回る2.667。これはどう転んでも点の取り合いになりそうで、スリリングですね。やはり、この天候で戦ってほしい!
「雨あり」だと、うわ~、大分が強い!試合数が2試合しかないというのもありますが、まだ失点していない(平均が0)じゃないですか。やばっ!
・・・でも安心してください。5/26に対戦する際は、アウェイで、会場は「レゾナックドーム大分」です。このドームは雨天時には閉まって、「屋内」となるのです!ということで、5/26対戦時は、「雨あり」にはならないはずっ!ということで、セーフ!
レノファも、この天候の中でも、中位ぐらいには位置していますので、得失点の状態をみると、決して「雨の日に弱い」ということはないと思いますが、どうでしょうか?
最後のグラフは、全天候区分・チーム別に1試合平均得失点をグラフにして、先ほどまでの天候グループで着色してみました。
こうしてみると、「晴」「曇あり」に比べて「雨あり」の方が散らばって分布しているように見えます。つまり、「雨あり」の方が、どのチームも、普段とは違う得失点数になる傾向があるということでしょうか。
「雨だと何が起こるか分からない」ということが言われますが、データとしてもそういう傾向が出ているということでしょうかね。
まとめ
今回、ふとした疑問から、天候別のデータを分析してみました。
もちろん、データを使ったお遊びですし、天候別のグループは私が勝手に設定した分類です。結局、今回は、最初に設定したグルーピングをそのまま使いましたが、整理の仕方を変えることによって、全然違う分析結果になることもあると思います。今回の分析結果が唯一の正解だとは思っていません。
分析する人や視点が変わったら違う面が見えてくるってどうなの!?と思われるかもしれませんが、それこそデータ分析の楽しみ方なのではないでしょうか。いろんな方が多角的に分析することによって、真実の姿が浮かび上がってくるイメージなんじゃないでしょうか。
プログラミング言語や統計学に疎い文系素人(ハラマル)が気の向くままにやっているんですが、やっているうちに、「分かりやすかったよ」「面白いグラフだったね」ということを言ってもらえることも、たまにあるようになりました。
なので、ちょっと興味をもっていただくだけで、皆さんも簡単にデータ分析ができるようになると思います。
このデータ分析シリーズ、段々、目的が分からなくなってきているかもしれませんが(笑)、身近なテーマやオープンになっているデータを扱っていますので、「ハラマルがこんな分析していたけれど、違うんじゃないか?」とか、「もっとこういう分析すれば良いのに」と思ったり、じゃあ自分でやってみるか、とデータ分析にチャレンジしてみていただくきっかけになればいいなぁと思っています。
また、私がよく使っている「Tableau」というツール、無料でも使えるのですが、無料版だと、クラウド上にデータを保管しなければいけませんでした。なので、私も、ひっそりとこんなアカウントで公開しています。(作ったグラフを非公開にすることはできます。)
これが、この度のアップデートにより、ローカルにも保存できるようになったんです!今まで、自社データを使うのに抵抗があるなぁと思われていた方も、気軽に使える状況になりました。
ということで、Tableauを使ってデータ分析を始めるチャンスです。
興味さえもっていただければ、あまりスキルを身に付けずとも、いろいろな分析ができるツールです。
ビジネスシーンでの御利用を検討される方には、「やまぐちDX推進拠点『Y-BASE』」にいるデータサイエンティストが無料でサポートしますので、安心してお気軽に御相談ください。
また、今年も、Tableauの研修を行う準備をしていますので、是非、そちらの受講を検討してみてください。
最後に、今回の天候別分析で分かった、レノファは「曇あり」の日の無敗記録を続けられるのか?、他の天候も得失点的にはそんなに悪くないので、「晴」や「雨あり」の日の勝敗データも良くなっていくのか?、気になりますよね?
特に、全天候において驚異的なデータを叩き出している清水エスパルスを、どんな天候でみらスタに迎えるのか?、「曇あり」だと良い勝負になるのか?、やっぱり点の取り合いになるのか?、考えたら、いてもたってもいられませんよね!?
データで分析した後は、その結果を確認することが重要です。ということで、一緒に、みらスタで結果を見届けましょう。6/2(日)は「#勝手に1万人プロジェクト」ですよ!!