サッカーのパス回数からチームの中心を見つけ出す方法:ネットワーク分析について
最近ツイッター上ではスポーツデータ分析の人っぽく振舞っていて,さまざまなデータが目に入るわけです.上記河野さんのパスマップが素敵だったので,ネットワーク分析を試みました.
パスとネットワーク
サッカーの試合中にはボールが選手間を動きます.ボールを持っている選手は味方選手にボールを渡して(パスして)ゴールに近づこうとします.
試合が進んで選手間のパスの回数を数えると,選手同士をパスの有無や回数で結んだ絵(ネットワークとかグラフと呼ばれるもの)が描けます.
ネットワークが描けると,その形から各頂点(選手)の重要度(中心性と呼ばれることが多いです)をさまざまな観点から計算することができます.中心性に関して非常に良くまとまっているのは以下の記事です.
私の職場ではMATLABが使えて,MATLABにはネットワークの中心性指標を簡単に計算してくれる関数が揃っているので,それらを計算してみましょう,という記事です.
MATLABで計算できる有向グラフに対する中心性は8種類.全部計算してみます.
#実はツイッターに上げたグラフは ,元データの転記ミスがあって正しくありません.すみません.
indegree, outdegree (次数=パス本数)
これは「パスを受けた(入ってきた=in)本数」と「パスを出した(out)本数」です.
incloseness, outcloseness (近接性)
次から一ひねり入った指標になります.まずはinclosenessとoutcloseness.「その選手へ至るまでの距離の和の逆数」と「その選手から~」です.選手間の距離はパス本数の逆数としました(実距離ではなく).「パスが多い選手間ほど近いと評価する」という意図です.
定義から,ある選手のincloseness大=他の全選手から平均的に近い,outcloseness大=他の全選手が平均的に近い,と解釈できます.
betweenness (媒介中心性)
betweennessは「任意の二選手間の最短経路を選択した場合に経路上に選ばれる頻度」です.G大阪は5,7,9番(三浦先生,遠藤選手,アデミウソン選手)を経由する構造,名古屋は23,17番(吉田選手,丸山選手)を経由する構造を作っていたことがわかります.
PageRank
pagerankは「ネットワーク上をランダムウォークしたと仮定したときの滞在確率」で,サッカーではボールがその選手にある割合と解釈できます.G大阪は右サイド,名古屋は左サイドを中心にパスを分散させていることがわかります.
hubs, authorities
hubsはその選手がハブになっているかどうか,つまりパスの供給源として中心になっている度合いを示します.authoritiesはその選手がパスのターゲットになっている度合いを示します.不勉強で日本語の訳語を知りません.すいません.
G大阪のハブは15,9,7,5番,名古屋のハブは2,8,17番であったことがわかります.G大阪は7,15番がハブと同時にパス集積地になっているのに対し,名古屋は23番がパス集積地となっている点に違いが現れています.
計算してみてのまとめ
ネットワークの中心性指標でサッカーのパス分布を特徴付ける,というネタを試みました.これは既知のアイデアのようで,既に先行研究がいくつか見つかります.(なので,このnoteは自分の備忘録的なものです)
重要なのはこれが「現象の解釈(何が起きていたか)」であることであって,「現象の評価(その出来事が良かったのか悪かったのか)」ではない点でしょうか.中心性指標の大小はチームがどのような構造・戦略を作っていたかを数理的に解釈可能としますが,「だから良い戦略だった」といいたくなるのはこらえたいところですね.あくまでも目的は試合の勝利であり,そのための構造となっていたかどうか(つまり,得点を増やして失点を減らすことに貢献できていたかどうか)を確かめるには別に作業が必要です.
(補足:センサネットワーク構築のような分野では,目的が直接何らかの中心性指標の平均化,のように解釈できる場合があります.その場合は指標の計算値に基づいた評価,および設計手法の開発などが滑らかにつながります.)