リプレイスメントレベルをテストに喩えてとても分かりやすく説明する
職場の隅に「明らかに何かが壊れている」という張り紙をした機材が置いてありました。壊れているのは明らかだと断定しておきながら、その原因が特定できないというのはいかがなものでしょうか。ちなみに私は最近友達を食事に誘ったところ「予定が入りそうな気がする」と言って断られました。明らかに何かがおかしいと思います。
どうも。ジョブチェンして遊んでばかりの日々を過ごしていたらもう年の瀬が押し迫ってきていて唖然としています。したがって、noteの新作をしたためることにしました。
Replacement Level再考
さて、今回のテーマはReplacement Levelです。日本語でいうと代替可能水準ですね。いわゆるセイバーメトリクス系指標の根幹をなす概念で、まあ多くの人が面倒くさくなるところです。WARとかRARとか、ついったーを見ているといつも戦争が起こっていますよね。名は体を表すとはよく言ったものです。
年度間のトレンドや環境の変化を考慮して相対評価を行う、ということは分かっても、なぜ平均やその他の代表値からの乖離だけでなく、「市場で最も低いコストで契約可能な~」「勝率.290のチームの~」といったまどろっこしい説明が必要な概念で表現する必要があるのか、しっかり説明できる人は多くないのではないでしょうか。わたしもその一人です。
抽象的・野球の文脈を用いたいわゆる「ちゃんとした」説明はFangraphs様や蛭川先生に譲るとして、今回のnoteで目指すのは
できるだけ卑近な例で
できるだけ抽象的に
リプレイスメントレベルを理解することです。難しい難しいと言われている指標なのに、そういうテンションの記事ってあんまり多くない気がするんですよね。ひょっとしたら皆さんが一般的な説明で十分だからなのかもしれませんが、まあせっかくなので残しておきましょう。
ゼロレベルの設定:休んだら何点か?
というわけで早速具体例。皆さん多かれ少なかれ学校に通っていたことがあると思うので、学校のテストを考えてみましょう。100点満点の試験で解答はすべて4択の選択問題とします。クラス平均点や分布は同じ学年の他のクラスとだいたい似たような状況で、そもそも他のクラスと平均点が大きく異なる、すなわちリーグレベルや年度間の環境に違いがある可能性は考慮しないものとします。
さて、そんなテストを欠席した生徒がいたとしましょう。この場合、「欠席」という結果はどのように評定に反映すべきでしょうか。
リプレイスメントレベルのキモはテストを受けた時ではなく、「休んだ場合にどうなるか?」を考える点にあります。もちろんテストを受けた人のパフォーマンスを評価するための指標ではあるのですが、その相対的な立ち位置を知る上での参照基準として、「テストを休んだ人が試験を受けていたらどれぐらいの点数を取るか」を考えるのがリプレイスメントレベルの設定である、と考えていいと思います。以下では、その補完の方法として考えられるものをいくつか考えてみましょう。というかこれこそがリプレイスメントレベルを巡る議論とイコールです。
代わりの評価基準を用いる
テストという文脈で考えるなら、パッと思いつくのは当該生徒のテスト以外の部分を見ることでしょう。平常点や宿題の提出状況、あるいは欠席しなかった試験の成績から「これぐらいは取れただろう」と推定することができるなら、もうあえてリプレイスメントレベルに対する議論をするまでもありません。個別の生徒に対して同じ手法を適用し、テストの成績を穴埋めすることができます。「似たような問題で追試を行う」「当該テストの成績をその個人の成績から除く」というのも同じですね。ただ残念ながら、たとえば故障で全く出場のなかった選手や、試合に出ていたとしても2,3打席程度の成績しかなく、練習におけるトラッキングデータも取得できない選手に対して同じようなアプローチを取るのは難しいことも分かるでしょう。他球団の選手を呼び出して、試合形式の「追試」を行うのも無理があります。
また、直感的には受け入れがたいように思いますが、野球の文脈では、他の教科の成績・1学年前など過去の成績を用いることも少なくありません。二軍や海外リーグでの成績を考慮する方法がそれですね。いずれにせよ、こうした1対1対応の補完方法には計算上のコストも伴い、評価者の主観も入り込む中で客観的にもっともらしいと言えるラインを定めるのはかなり難しいように思います。
0点にする
「白紙で出したのと同じとして扱う」という先生もいたと思います。理由が何であれ欠席は欠席、休んだことに責任を取れ!ってやつですね。出席さえすれば何をしていても取れる点数であることから、これをリプレイスメントレベルとすることに妥当性を認める人は少なからずいるのではないでしょうか。ただ出席したうえで試験中にカンニングを企てるとか、試験中に暴れてみんなに迷惑をかけるようなやつと同じ点数を付けられることに不満を感じるのも分からなくはありません。また、0点を取ることが野球におけるリプレイスメントレベルとイコールであると結論するためには(循環論法的ですが)もう少し詳細にリプレイスメントレベルについて考える必要があります。
クラスの平均点を用いる
次に考えられるのは、「クラスの平均点を取ったものとする」です。これはAbove Average系の指標が表すものに他なりませんが、実際に欠席者の処遇としてこの裁定を取られたら抵抗を感じる人がほとんどなのではないでしょうか。欠席者の集団と出席者の集団とがほぼ同質で、成績のいい人も悪い人も同じような確率で学校を休むのならまあまあ妥当と認められるかもしれませんが、それでも確実に平均点を取れるというのはちょっとやりすぎなきがしますね。野球の話に戻すなら、チームのメンバーでくじ引きをして試合に出る選手を決めている、あるいは契約を更新する人をあみだくじで決めている、とみなすようなものです。
こう書くとまあ注意が必要な指標であることは自明なわけですが、一度平均との比較で評価する方法が認められてしまうとこれが案外通ってしまう。大谷翔平選手がMLBでのルーキーイヤーで新人王を争っていた時に、対抗馬だったMiguel Andújar選手のDRS (UZRみたいなもん) が-21だったことから「Ohtaniは守備に就かないことでAndújarより20点以上の失点を防ぐことに成功している」と主張するジョークがありましたが、あれはまさに「観測されないできごとを平均で穴埋めする」のが受け入れられていることで成立する冗談なわけです。
リプレイスメントレベルの議論
平均だけを基準とすることの危うさが伝わればもう本稿の目的は果たされたようなものなので、このnoteもここで終わってもいいかもしれません。まあ乗りかかった船なので、リプレイスメントレベル=休んだ生徒の処遇 を決めるのが案外難しそうだと分かったところで、少しだけ「ではどうするのか」を考えてみましょう。
観測できるデータから決める
一般的に受け入れられている・実際に利用されているのは、「テストに出た生徒の中で成績の悪いグループの代表値を利用する」という方法です。やむを得ない体調不良や冠婚葬祭などで休む生徒はいるものの、テストを休む生徒は出席したグループよりも成績が悪く、授業には出ていたけど毎日居眠りしていた生徒が解けたのと同じぐらいの成績だろうとみなしてその点数を与えるわけです。計算された結果はほとんど0点に近い一方で、最低限の知識だけで解けるような問題が何問出題されたか、クラス全体の出来がどれぐらいであったかといった細かい要素を拾うことができるのが重要で、全体に共通の、いわば先生やテストを作った業者の責任による部分をある程度はカバーしてあげられることになります。決して良くはないけれど、誰でも解けるような問題すらまともに解答していない、試験時間中すらも寝ていて答案を白紙で解答するような生徒よりはましな点数をあげることで、最低点を与えるのとは異なる解釈を付けるわけです。実際のWARの計算においても、試合に出ている選手の下位グループを見つけてリプレイスメントレベルとするのが(おそらく)一般的で、これが「リプレイスメントレベルの選手だけで試合をすると勝率が3割弱になる」の根拠となっています。「1勝もできない」ではない点が重要ですね。
システムを把握して理論的に導出する
"0点"ではない2つ目は、テストのルール・構造を把握して理論/論理的にリプレイスメントレベルを設定する方法です。野球のように確率の要素がかなり強く絡んでくる・最適な戦略を定量化しにくい競技の評価において実用的ではありませんが、先の例よりも腑に落ちる記述ができるかもという期待だけで記しておきます。
冒頭のルール設定にあえて「100点満点のテストで解答はすべて4択の選択問題とします」という記述を加えた伏線はここで回収されます。選択式のテストにおいては、理論的な根拠のある明確なリプレイスメントレベルが存在します。そうです、「鉛筆転がしても4問に1問は当たるだろ」の25点です。これを素で下回ってくる生徒はさすがに勉強不足、もしくはやる気がないとみなされても仕方ないでしょう。逆に休んだ生徒全員がこれよりも低い点数だとしてしまうのはかわいそうで、体調の悪い生徒が無理に出てくることで起こる全体への悪影響がテストを行うメリットを上回ってしまうかもしれません。テストの難易度や受けた成績といった「データ」を利用しているわけではないものの、理論的に導き出されたこの補完方法に妥当性を認める人は少なくないでしょう。
無論、これらの手法で設定されたリプレイスメントレベルが正しいかは別物ですし、個人的にはここを議論することに最大の意義があると思います。今回使用した喩えからは例えば選手市場の留保水準に関するコメントが丸々抜けていて、MLBに比べて選手の流動性が低く、シーズン中含めて獲得可能なFA選手のプールが小さいNPBでは余計に慎重に考えなければならないポイントです。が、そうした改善のための指摘と、指標がそもそもどのような哲学について考案されるのかは分けて考えられるべきで「ここを考慮していないから使うな」では指標の改善もままならないでしょう。
代替可能水準の意義とそのレベル設定の重要性
以上がぼくの考える、代替可能水準の直感的な理解およびその議論を行う意義の解釈です。算出された値やその計算システムに対する抵抗を語るうえでは、具体化された説明をより抽象的な表現・専門的な技術を用いて説明できなければいけないのかもしれません。しかし一方で、定量的に評価可能な観点から野球を楽しむことができるという範囲であれば、直感的な理解が役立つ場面は少なくないはずです。読めるけど書けない漢字も、使いこなせれば立派な語彙になります。この記事が野球を楽しみたい皆さんにとっての「例文」になることを願って、今回はお開きにしたいと思います。よいお年を。
おまけ
去年は年末にnoteを書かなかったのでね、これを載せておくしかないわけですよ。てか去年は4月に出して以降1本も書いてなかったっぽいです。真面目にやれよ。
もう28になったので奥田民生さんがこれを書いた歳はとうに過ぎているわけですが、こんな曲を書けるほど大人になった自覚が全くありません。一体どうなっているんでしょうか。
今年もお世話になりました。FA移籍から間もなく一年、生活拠点も変えて公私ともにパワーを遣う1年だったように思います。さながらスプラッシュマウンテンです。ほぼマブダチの後輩に喩えツッコミが多すぎると注意されたので、うまぶった講釈は極力控えよう、そんな思いで綴ったnoteで2023年を締めたいと思います。余談ですが一人2万円ぐらい寄付してくれてもいいですよ。