見出し画像

FIFAのデータから4つのワールドカップ(男子、女子、U-20男子、U-17男子)の傾向を探る ①試合分類とフィジカルデータ

2022年のワールドカップ(以下W杯)でFIFAはいくつか新しい試みを行いました。その中の1つが取得・公開するデータのパワーアップです。こういったリリースはFIFA Training Centreのサイトから行われており、映像付きでデータの内容を把握できます。残念ながらこのサイトが見づらいのと、nortonを利用していると最近危険なサイト扱いになってしまったのですが(笑)。データの内容についてはW杯期間中にフットボリスタさんにて執筆させて頂きましたので、こちらも併せてご確認ください。

2022年の男子W杯以降、2023年にはU-20男子W杯、女子W杯、U-17男子W杯が行われ、男子W杯と同様のデータが公開されています(試合数が少ないので今回は取り上げませんが、クラブW杯も出ています)。これまでのW杯におけるFIFAのサイトでのデータ公開量はフル代表の男子W杯だけが多く他が少ない状況でしたので、今回初めて比較できるデータが揃いました。ということでデータを見ていこうかと思います。ちなみに女子のU-20・U-17W杯は2022年開催でしたが、男子W杯の前だったこともありデータが出ていないため対象外となります。

前提

W杯やEURO、UEFAチャンピオンズリーグといった国際大会はサッカー界全体にも何らかの影響を与える大会と言えますが、データ分析という面で見ると難しい大会でもあります。これらはグループステージ+ノックアウトステージの形式で行われますが、グループの組み合わせによって差が生じる点、勝点次第でグループ第3節の向き合い方が変わる点、ノックアウトステージでは延長戦が含まれる点、当然勝者が残っていくためチーム集計が均一に行えない点などなどなど。気にすると何もできなくなってしまうので、結論には注意しつつ進めていきたいと思います。

何を分析するにしても開催環境は重要ですのでざっくり追っておきましょう。男子W杯はカタール。冬のカタールと言えど暑いでしょうが、スタジアムの空調設備の影響もあって、そこまでしんどい環境ではなかったかと思います。U-20男子W杯は5-6月のアルゼンチン。南半球なので秋になりますが、こちらもコンディションは問題ないかと。ただ、急遽開催地が決まった影響でスタジアムが限定されており、試合をこなすたびにピッチ状況が悪くなっていましたね。女子W杯は冬のオーストラリアとニュージーランド。こちらは環境による障壁は一番少なかったと思います。U-17男子W杯は11-12月のインドネシア。暑い上にスコールで中断となる試合も多く、この4大会では一番厳しかったでしょう。

データについて

データソースはFIFA Training CentreのPost Match Summary ReportsにあるPDFとなります。
男子W杯:https://www.fifatrainingcentre.com/en/fwc2022/post-match-summaries/post-match-summary-reports.php
U-20男子W杯:https://www.fifatrainingcentre.com/en/game/tournaments/2023-u20-fwc/post-match-summary-reports.php
女子W杯:https://www.fifatrainingcentre.com/en/game/tournaments/fifa-womens-world-cup/2023/match-report-hub/post-match-summary-reports.php
U-17男子W杯:https://www.fifatrainingcentre.com/en/game/tournaments/fu17wc/2023/post-match-summary-reports.php

ひっそり修正されるケースがいくつかあったため、現在掲載されているデータと手持ちのデータで異なる可能性があります。また、U-17W杯のウズベキスタンvsカナダはPDFにアクセスできないため除外しました。基本的に1試合単位の数値となるため、延長戦の試合も除外します。U-17W杯はノックアウトステージでも延長がないため、若干影響を受けるかもしれません。また、この場合の試合結果区分はドローとしています。

プレーフェーズ(Phases of Play)を利用した試合の分類

今回はフィジカルデータの比較をしたいなと思っているのですが、まずは試合の分類をしたいと思います。フィジカルデータの大小だけを見て「もっと走ろう」的な結論を出しているレポートをたまに見かけますが、そもそもサッカーはボールをゴールに入れる&入れさせないことが試合の目的であり、そのためにどうボールをコントロールするか、体力に上限がある人間がどう動くか、という球技なのでフィジカルデータだけ見ても仕方ないです(もちろん極端な話、超スピードで動ける選手がいっぱいいてボールコントロールもできるならそれは強いでしょうけど…)。公開されているレポートだけでは限界がありますが、少なくとも「どういう試合だったか」という分類はできそうなので、それを行った上でデータ比較をしたいと思います。

試合の分類にはプレーフェーズ(Phases of Play)のデータを使います。FIFAが新たに取得・公開を始めたデータの1つで、ボール保持とボール被保持の中身を%で掲載しています。

FIFAのレポートより、ドイツvs日本のプレーフェーズ

FIFA Training Centreの以下のページに説明動画があります。

この%の計算式が不明で、保持内、被保持内で足しても前者は100%を超え後者は100%に満たなかったりします。後ほどデータを紹介しますが、そもそも保持率が高いと保持内のフェーズの%も上がるので、時間データに近い存在である可能性があります。傾向としては試合を見たイメージとほぼ合致しているので、使えないことはないでしょう。

1試合1チームごとにこの数値を整理し、%の数値に大きな変化がないロープレスとリカバリーは除外(カウンターアタックも同様だがこちらは一応残す)。それぞれの被データも計算した上でシンプルにk-means法で10種類に分類しました。実際、サッカーの試合内容を分類するとなると時系列や点差なども加わって10種類どころではないと思いますが、ある程度近い試合数で分類でき、伝える上で記事が長くなりすぎない10種類で進めていきます。

クラスタリングを行った結果、以下のようになりました。

クラスターIDと大会ごとの試合数。クラスターIDの掲載順は保持率の中央値順。大会の並び順は開催順
保持率or被保持率とプレーフェーズの散布図。色はクラスターID
クラスター別に保持系のデータを集計。Oppは相手(被データ)
クラスター別に被保持系のデータを集計

上の図表から各クラスターIDの特徴をざっくりとまとめました。

各クラスターIDの保持率(中央値)傾向とプレーフェーズの特徴

多くのデータプロバイダはボール保持率を自チーム:相手チームで計算していますが、FIFAは自チーム:ルーズボール:相手チームの3分割となりました。よって保持率の数値がこれまでの感覚通りにはならないので注意が必要です。

大会別の分類から読み取れるのは、

  • 男子W杯は保持率が近い試合が多いがID=9のようなルーズな展開はなし

  • 女子W杯は逆にこの展開かどちらかが一方的に保持する展開になっている

  • U-20男子W杯は保持率が近い中でルーズ有無が分かれる

  • U-17男子W杯は保持率が分かれやすいが、ルーズな試合もある(女子W杯にちょっと近い)

といったところでしょうか。U-17は暑かった分、強度が落ちたことも影響していそうです。

主なチームのクラスター別試合数

主要国のチームの分類を見ると強国であっても同一大会内で同じような試合にはならないことの方が多いと分かります。この中だとU-17W杯のイングランド、U-20W杯のアメリカが同一クラスターで4試合記録していますが、他は多くても3試合。当然ながらどういった試合展開でも勝てる力が必要になります。ちなみに日本の男子W杯でいうと、ドイツ戦=4、コスタリカ戦=6、スペイン戦=5となっています。

最終成績を「ベスト8以上だったチーム」と「それ以外の敗退チーム」で分類し、試合範囲をラウンド16までにした上でクラスター別の勝敗を計算しました(ラウンド16でPK戦へいった場合はドローで計算されます)。

最終成績別でクラスター別の成績

男子W杯においては参加チームの戦力差はそこまで大きくありませんでしたが、U-20、U-17、女子の大会はまだ大きく、圧倒的な差で負けてしまうケースがあります。そういったチームは保持率の低い方に入るのでこの辺りの成績は悪くなりやすくなります。個人的にこの成績表で気になったのは保持率が近いクラスターでしょうか。ルーズボールが多く試合が不安定化するID=9については成績が少し近付きますが、他のクラスターは差が大きいです。データを見るまでもない意見ではありますが、攻守ともに拮抗した試合になった際に勝てるか勝てないかが、上位進出のポイントと言えそうです。

試合順とクラスター別試合数

試合順でクラスター分けを出してみました。1-3がグループステージで4以降はノックアウトステージ、7は決勝と3位決定戦が混ざっています。このラウンドがこう!って明確なものはないですが、ID=9の変化は分かりやすいですね。最初2試合が多めで一度落ち着き、最後の試合で増えています。ちなみに決勝も3位決定戦もID=9は4試合でした。勝ちたいという思いが一番強い試合なのでバチバチになりやすく、ルーズボールやアウトプレーの時間は長いと思われます。

フィジカルデータの傾向

ということでもう一つの本題であるフィジカルデータを見ましょう。フィジカルという言葉には様々な要素が含まれますが、FIFAのレポートで開示されたフィジカルデータは総移動距離、ゾーン1~5の距離、ハイスピードラン(ゾーン4)とスプリント(ゾーン5)の回数、トップスピードとなります。ゾーンは時速範囲を表しており、男女で下表のように基準が違います。

FIFAレポートより

スプリントの回数はJリーグにもあるデータで今は25km/h以上という基準もFIFAと同じですが、明らかにW杯のレポートの方が回数が多いです。ハイスピードランやスプリントのように動きのデータから回数を取得する処理は、どうしても一定になりづらいので単純比較は避けるようにしましょう。W杯のレポートでもゾーン5の距離が0なのにスプリント回数が計測されている事例をいくつか見ました。この辺りもちょっと謎です。

まずは簡単に大会別でのサマリーを見ましょう。ここから紹介するデータは退場および相手が退場した試合は除外しています。数値がいっぱいの表が増えるので見るのがしんどいと思いますが、分かりやすくするために情報を抜き取るのはあまり好きではないので許してください。

大会別のフィジカルデータ中央値

総移動距離でいうとU-20男子W杯>男子W杯>>女子W杯=U-17男子W杯という数値になりました。U-17男子W杯は開催地と季節次第で変わったことでしょう。男子の高強度の走行距離は男子W杯>U-20男子W杯>U-17男子W杯となりました。総移動距離は一般的には走行距離と表記されることが多いですが、3分の1くらいはウォーキングくらいのスピードで記録しています。最近だと1試合で最長13km記録する選手がいますが、「13km走った」という表現は厳密には正しくないと言えます。男女の差分でいうと、スピード基準が下がっても高強度ランの距離および距離割合は女子の方が数値が小さいです。男子サッカーに見慣れている方が女子サッカーを見ると「ボールに追い付けると思ったら追い付かなかった」みたいなシーンがあると思います。なので女子サッカーは男子以上にボール保持における技術とポジショニングは重要と言えます。上記の女子W杯傾向だとボール保持ができないチームはカオス化して戦うといったところでしょうか。それでもトップスピードの男子との差は思ったほど大きくありませんでしたし、今後女子サッカーを取り巻く環境が発展して練習・研究が進めば、フィジカル系の数値はもう少し上がると思っています。

大会別で勝利チームのデータ傾向。差分は中央値の引き算ではなく、計算後に中央値にしています。自チームー相手チームです。
大会別で勝敗別の分布

後で試合分類別の勝敗差も見ますが、まずは大会全体で。多くの大会において試合に勝利したチームが総移動距離、高強度ラン距離ともに上にはなりましたが、これくらいの差だと「動いた方or走った方が勝つ!」とは言いづらいですね。相手より動いてない試合でも多くのチームが勝利しています。

試合順別でのデータ傾向(男子の大会)
試合順別での分布(男子の大会)

試合順と勝敗別も出してみました。基準の都合上、男子の試合のみを対象にしています。やはり一番興味深いのは高強度ラン距離の相手との差分なのですが、グループステージ1戦目は高い方が勝ち気味、2戦目は分布を見るとそうでもなさそうですが3戦目はまた高い方が勝ち気味です。ノックアウトステージ以降はデータ不足ですが、最終戦(決勝・3決)以外は関係なさそうで、むしろ逆になっています。フィジカルだけでは超えられない壁のように見えますね。
女子W杯の図も似たような傾向かなと思います。

試合順別での分布(女子の大会)

最後に、最初に行った試合分類とフィジカルデータを組み合わせてみます。まずは勝敗関係なく男子の大会のサマリーです。

クラスターID別のデータ傾向(男子の大会)

まずボール保持が偏ると総移動距離が長くなるようです。停滞気味の状態になるのでゾーン1や2の低速の数値が大きくなりやすいですね。ただし被保持の時間が長くてもミッドブロックからそこそこ攻撃に転じることができるクラスターID=0は高強度の数値がやや高いです。また、ボール保持率が近いクラスターIDの2や9もともに高強度の数値が高いですが、総移動距離は全く違います。ID=9の距離が短いのはアウトプレーが多いからだと推測します。

クラスターID別、勝敗別のデータ傾向(男子の大会)
クラスターID別、勝敗別の分布(男子の大会)


これに勝敗区別をすると上図表のようになります。相手との差分の勝敗差において数値の差が激しいのはID=2の試合でしょうか。保持率が近くルーズボールが少ない試合に該当するのでフィジカルの影響を大きく受けるようです。ボール保持で圧倒しているID=3の高強度データを見ると、相手より走るというのもありますが相手を走らせないようにすることが重要に見えます。そういう状況を作らせる前にボールを奪うもしくは遮断しているのでしょう。保持型のうちID=3とID=7で気になったのはゾーン2~3の距離ですね。停滞しやすい状況なので高強度のランは繰り出しづらいのですが、ゾーン2~3のスピード感でもポジションをずらすことは可能です。この辺りはもしかしたら他のFIFAのデータでもう少し解明できるかもしれません。

クラスターID別、勝敗別の分布(女子の大会)

女子の方はデータが少なくなってしまうので分布だけ見ておきましょう。実は女子W杯では違う傾向が出ています。女子W杯はID=9の試合が多いのですが、こちらでは相手より高強度ラン距離で劣っている方が勝利傾向にあります。逆に保持に偏った試合では高強度差が強く勝敗に影響していそうです。これは先に述べた戦力差とも影響しているでしょう。

この記事では男女の比較もしてみたかった都合上、一緒に分類しています。女子W杯のID=9の中でも試合は様々あるでしょうから、もう一段階分けた方が良いのかもしれません。

ということで、試合分類とフィジカルデータと勝敗の関係を見てきました。ちなみに勝敗で分けた分析はあくまで最終スコアで分類しただけなので、試合序盤で先制して逃げ切るケースと、試合終盤で勝ち越したケースが同じ扱いになってしまうのですよね。なのでやっぱり時系列と点差の要素は分析に加えたいところではありますが、現時点のFIFAのデータでは難しいのでここまでにします。これだけでもフィジカルデータと勝敗の関係の難しさはもちろん、ボール保持と勝敗の関係が一定ではないことも見えたかと思います。W杯の影響からかボール保持しないチームが勝つみたいな取り上げ方が増え見かけるたびに思いますが、その傾向は昔からそんなに変わっていないかと。ボール保持率は昔から存在しているため定着していますが、そんな大したデータでもないので変にこだわる必要はないかと思います。
タイトルに①と入れましたが、②があるかは未定。

いいなと思ったら応援しよう!

この記事が参加している募集