完璧な投票構造
この研究の目的は、あるMVP投票者のグループが、異なる投票パラメーターのセットが与えられた場合に、どれくらいの確率で正しい投票が行われるかを推定することである。 言い換えれば、この投票者数でこのように投票すれば、xx%の確率で正しいMVPを獲得することになり、逆にこの投票者数でこのように投票すれば、xx%の確率で正しいMVPを獲得することになる。
私はこの問題を一連のモデルによって研究している。 これは面白いからではなく、将来誰かがこの研究をフォローアップしたいと思うかもしれないし、その人がゼロからスタートしない方が良いからである。
この問題はもちろん他の方法でも研究できるが、この問題をモデル化する事には2つの利点がある。
ひとつは、sample sizeが大幅に拡大する事である。 現実のMVP投票の歴史は100年分ありますが、何千年分ものsimulationを作成することができます。
もう1つの利点は、model上では最優秀選手が誰であるか絶対に分かるという事です。 現実世界では、誰がMVPになるべきかについて、あなたにはあなたの考えがあり、私には私の考えがあるかもしれませんが、そのテーマについての絶対的な知識はありません。 これらの利点を組み合わせると、MVP投票が90%の確率で最良の結論に達するのか、70%なのか、40%なのか......誰も確信を持って言う事はできない。誰にもわからないのだ。 モデルを使えば、私たちは知る事ができる。
私には友人がいる。彼の名前ではないので、ジェリーと呼ぶことにする。 ジェリーには素晴らしい資質もあれば、本当に腹立たしい資質もある。 後者のひとつは、自分が好きになったときと違うものを非難することだ。 以前は大学バスケットボールが好きだったが、ショットクロックと3ポイントバスケットを採用したときに大学バスケットボールをダメにしてしまった。 私が初めて彼を知ったとき、彼は時々映画が好きだった。...なんだったか忘れたが、1990年代に彼が好きだった映画があった。 彼は見る映画すべてを『カサブランカ』の基準で見るため、すべて拒絶する。 彼とランチに行くことはできるが、彼が行かない理由を見つけられないレストランは街で4軒しかなく、そのうちの2軒にはあまり満足していない。 詩はもう韻を踏んでいないから好きではないのだろう。盲目の豚もたまにはバレンタインをもらうそうだ。 あなたはそういう人を知っているはずだ。かつて楽しんでいたこと、そして今も楽しむべきことを自ら断ち切っているのだから、とても気の毒に思うだろう。
ある時、1985年だったかな、11月にサイ・ヤング賞の発表の準備をしていたんだ。 私はジェリーに誰が受賞すべきだと思うかと尋ねたが、彼はこう答えた。
なんだって?
ジェリーが怒っているのは、サイ・ヤング賞の投票において、各投手がかつてのように1人だけでなく、3人の投手に投票することだということがわかった。 1969年までは、投票者は1人の投手に投票し、最も票を集めた投手がトロフィーを手にした。 1969年には、デニー・マクレーンとマイク・キュエラーが24票中10票ずつを獲得し、アメリカン・リーグのサイ・ヤング賞で並んだ。 誰も覚えていないが、ナ・リーグのMVP争いでは、ウィリー・マコビーとトム・シーバーが24票中11票ずつで同率1位だった。 誰も覚えていないのは、各投票用紙に10人の名前を書き、それぞれの名前にポイントを与えるという賢明な投票方式を採用し、同点にならないようにしたからだ。 しかし、ジェリーの世界では「誰が2位か3位かなんて気にするもんか。 すべてでたらめだ」。
これもジェリーのあまり魅力的でない資質のひとつだ。彼はルー・ドブスのような分析能力を持っている。 私は彼に、投票でより多くの情報を集めれば、より信頼性が高く、より妥当な結果が得られると説明しようとした。 どうなったかは想像がつくだろう。
とにかく、この記事ではその問題を扱っている。 実際に最高の選手がMVPを受賞するのはどれくらいの頻度だと思いますか? 現在の投票システムは、過去数年と比べてどれくらい良くなっているのだろうか? どうすれば今より良くなるのか?
基本モデル
私は、あるリーグに所属する選手を表すために100人の選手を "作成 "した:
100 * ランダム * ランダム
つまり、100×乱数×別の乱数である。 1つの乱数ではなく、2つの乱数で選手の値を作成する理由は、より現実的な値の分布を作成するためです。 もし、それぞれの値を100×乱数として作成すれば、90と100の間には0と10の間と同じ数のプレーヤーが存在することになる。 現実の世界では、もちろん、価値スケールの下限付近には、上限付近よりも多くのプレーヤーがいる。 もう1つの選択肢は、スケールの高いほうに過剰に人が集まるため、誰がMVPになるべきかがはっきりしなくなる。
このシステムでは、100人の選手から選ぶことができるが、インパクトの強い選手の数は限られているため、現実のように誰がMVP候補かが比較的明確になる。 リーグに100人の選手がいる場合、ベストプレーヤーは通常88から90程度の価値を持つが、ベストプレーヤーが75以下になることもあれば、99.5以上になることもある。 平均的な選手の価値は25より少し低いくらいでしょう。 ほとんど同じような選手が3人いることもあれば、他の選手よりはるかに優れた選手が1人いることもある。
選手を作成したら、次に各投票者の各選手に対する認識を作成しなければならない。 私は、各投票者の各選手に対する認識が、その選手の実際の価値に15点を加えたものから乱数を30倍したものを引いたものになるようにシステムを設定した。 実際の価値を "AV"、知覚された価値を "PV "とする:
PV = AV + 15 - (30 * 乱数)
つまり、選手の知覚価値、つまり投票者が見た選手の価値は、実際の価値よりも15ポイントも高くなることもあれば、15ポイントも低くなることもあるのです。 実際の価値が90の選手が、投票者によって知覚される価値は105にもなりうるし、75にもなりうる。 平均的な選手(25)は、40という高い価値を持つこともあれば、10という低い価値を持つこともある。 投票者は、平均的な選手がリーグ最高の選手であるとは決して思わないだろうし、価値が60の選手が90の選手より優れているとは決して思わないだろうが、価値が70の選手が90の選手より優れているとは思ってもおかしくない。
これらのパラメータは、主にリーグMVPを特定する問題をモデル化するために設定された事に注意してください。 例えば、サイ・ヤング賞をモデル化するのであれば、100人ではなく40人の選手を使うことができるでしょうし、チームの最優秀選手を特定する問題をモデル化するのであれば、100人ではなく10人の選手を作ることができるでしょう。 あなたが研究しようとしていることに合わせてモデルを調整する必要があるでしょう。
バイアスとエラー
各投票者は、バイアスとエラーの両方の影響を受ける。 バイアスは組織的なもので、選手集団に適用される。 エラーは個人的なもので、一人の選手だけに適用される。 例えば、ある投票者があるチームのファンで、そのチームのメンバーを過剰に評価したり、あるGroupの選手やあるタイプの選手に対して偏見を持ったり、あるいは個人の価値とは関係なく、ただ投手にMVPを投票したくないだけかもしれない。 それがbiasだ。 その投票者は、優勝チームの選手だけが受賞すべきだと考えているかもしれない。 しかし、その投票者は、ある選手があまり活躍しなかった試合や超活躍した試合をたまたま見たかもしれないし、その選手の走塁技術や守備について誤った信念を持っているかもしれない。 それがエラーなのだ。
バイアスが選手のGroupに適用される傾向があるように、投票者Groupにもbiasが見られる傾向がある。 たとえば、勝敗記録の信頼性という、今となっては信用できない信念は、1950年代から1960年代のSports writerに共通するbiasの一形態であった。
私はbiasとerrorを別々にモデル化する事を考えたが、最終的にはbiasは単にerrorの一形態であり、したがってそれら全てを一度に説明できるという結論に達した。
また、WARやWin Sharesのような統計システムにもバイアスとエラーの両方があることにも注意しなければならない。 これらのシステムは仮定、一般化、推定に基づいて構築されており、それらは計算の中に隠されてはいるが、それでもバイアスとエラーの一形態なのである。
私は最終的にbiasとerrorを1つのものとしてモデル化することにしましたが、このことを取り上げたのは、他の誰かがこの研究を拾い上げ、私が行ったよりも詳細に実行し、その人がbiasとerrorを別々の要素として作成し、biasはある程度投票者の間で共有したいと思うかもしれないからです。 バイアスの定義とは、"妥当でない前提の共有 "である。
最初の結果
最初の質問は、この一連の仮定を仮定した場合、個々の投票者がMVPを選ぶ際に、どれくらいの確率で「正しい」だろうか、というものである。
この仮定を用いた16,384回の試行で、「投票者」は8,457回正しいMVPを選び、7,927回違う選手を選んだ。 投票者は51.6%の確率で正しく、投票者個人は48.4%の確率で間違っていた。
リアリティ・チェック
有権者が52%の確率で正しいという数字を計算した後、私は「現実の世界でこの数字が何%なのかをチェックする方法があればいいのに」と思った。 そして思いついた: あるんです、ちょっとだけ。
MVP受賞者が常に正しい人、選ばれるべき人であると仮定したとしよう。 もしそうだとしたら、MVPの1位投票のうち、何パーセントが受賞者に投票されたかという客観的な質問をすることで、私たちが望む数字を得ることができる。
BBWAAが1931年にMVP賞の投票を開始して以来、2019年を含めてMVP投票には4348票が投じられている。 そのうち48票が未集計であり、つまり早期投票のうち6票では何人の投票者が受賞者に投票したのかわからない。 しかし、4,348票のうち4,300票については99%の投票が行われている。
その4,300票のうち、2,875票がMVP受賞者を1位に挙げている。 これは66.9%。 ほぼ3分の2である。 MVP投票の3分の2は最終的な勝者に投票される。
もちろん、実際のMVP受賞者が最もふさわしいMVP候補であるかどうかはわからない。 しかし、2つの可能性がある。 MVPにふさわしい選手が実際に受賞者であった場合、その選手は1位票の66.9%を獲得する。 MVPにふさわしい選手が受賞者でない場合、1位投票の66.9%より少ない得票率となる。
そして、常に正しい人が選ばれるのでなければ、全体として66.9%より少ない投票率にならざるを得ない。
つまり、最もふさわしい候補者が、第1位の得票率はもっと高くても、全体の得票率はもっと低いという事実が、そこにほんのわずかな余白を生んでいる。 理論的にはそのようなことは起こりうるが、現実問題として、そのようなことはほとんどなく、起こったとしても数学的に重要なことではない。 MVP受賞者が他の候補者より得票数が少なかったのは、過去50年間で1度だけで、その時は1票差だった。 現実的な問題として、正しい候補者が常に勝者でない限り、正しい候補者に投票される全体の割合は66.9%未満でなければならないことが分かっている。
どのくらい少ないのか? それは、有権者がどれくらいの頻度で間違えるかによる。 私の考えでは、受賞の大半は最もふさわしい候補者に贈られるが、間違った候補者に贈られた賞も相当数ある。 1958年、ミッキー・マントルはWARでアメリカン・リーグを大きくリードしたが、MVPの1位投票は1票も集めなかった。 同じ年、フランク・ラリーは投手のWARでは大差をつけてトップだったが、サイ・ヤング賞の投票では名前が挙がらなかった。 サイ・ヤング賞を受賞したボブ・ターリーは、投手のWARではトップ20に入らなかった(サイ・ヤング賞は当時、リーグを合算した賞だったため)。 AL部門のMVP投票でも、サイ・ヤング賞の投票でも、全員が間違っていたと主張するのは妥当である。 NLリーグMVPのアーニー・バンクスもWARでリーグをリードしていなかったので、ナ・リーグMVP投票者24人中3人しか正しく投票していなかったと主張することもできる。 アメリカン・リーグの新人王、アルビー・ピアソンのWARはわずか0.9だったが、他の候補者は2.9、2.3、1.4だった。
私が言いたいのは、少なくとも1958年においては、MVP投票者はほぼ全員一致で間違った候補者に投票していたと主張するのが妥当だということだ。 正しい」候補者に投票した有権者の実際の割合は、66.9%よりもかなり低いという議論は可能である。 それ以上であるはずがない。 51.6%というのは、私にはかなり良い推定値のように思える。
裁判官3人のパネル
仮に3人の審査員で賞を決めるとして、各審査員が1人ずつ選手を挙げたとしよう。 それでどれだけの確率で正しい結果が得られるでしょうか?
3人の審査員によるパネルがよく使われるのは、ポストシーズンシリーズで、シリーズが終わるとすぐに受賞が発表されるような場合です。 ブース内のアナウンサー2人と、もう1人、場内インタビュアーかプロデューサーが素早く投票して賞を決めることが非常に多い。 仮に各投票者の正確さを51.6%とすると、この3人でどれだけの確率で正解になるのだろうか?
これは別にモデル化する必要はなく、単純な計算だ。 各投票者が51.6%の確率で正解するとすれば、次のようになる:
3人の投票者は13.75%の確率で正しい、
3人のうち2人が38.67%正しい、
3人のうち1人だけが正しい場合は36.25%、
そして11.33%である。
明らかに、3人のうち2人、あるいは3人全員が正しければ、正しい人が受賞することになるので、52.4%の確率で正しい人が受賞することになる。 つまり、52.4%の確率で正しい人が受賞することになる。 唯一複雑なのは、投票者のうち1人だけが正解した場合、投票結果が同点になるか、よりふさわしくない候補者が受賞する可能性があるということだ。
もし、3人の投票者のうち1人だけが正解なら、約30%の確率で間違った人に賞が与えられ、約70%の確率で引き分けになる。 どうしてそんなことがわかるのか、私に聞かないでほしい。 3人の投票者のうち1人だけが正解を見たときに、36.25%をどう分けるかということだ。 もし2人の有権者が30%の確率で間違った答えに同意すれば、36.25%のうち10.9%はより劣る候補者に行き、残りの25.4%は三つ巴になる。 従って、3人の審査員で構成される場合、各人が1回しか投票しないと推定できる:
パネルが正しい判断を下す確率は52.4%である、
パネルが正解する確率は52.4%、パネルが誤る確率は36.7%、そして
三つ巴となり、最もふさわしい候補者が3人の受賞者のうちの1人となる確率は10.9%である。
8人パネル、各1票
MVPの投票を8人のパネルで行い、各人が1票ずつ投票するとする。 アマチュアリーグではかなり一般的だが、メジャーリーグでこの方式が採用されたことはない。 例えば昔のビッグ8では、コーチ陣が8票を投じて年間最優秀監督を決め、誰かが3勝2敗とか4勝2敗とかで優勝していた。 仮にその方法でMVPを投票したとしよう。 その結果、どれだけの確率で正しい選手が選ばれるでしょうか?
その方式では、同点と同点の打開方法にもよるが、約68.6%の確率で正しいMVPが選ばれることになる。 同点が多いでしょう。
私は先に説明した方法で問題のモデルを作成し、そのプロセスを512回実行した。 正しい」MVP候補
満場一致で選ばれたのは15回、
8票中7票を獲得 36回
8票中6票を獲得 62回
8票中5票を獲得 89回
8票中4票獲得 104回
8票中3票を獲得 97回
8票中2票獲得 71回
8票中1票獲得 37回
8票のうち1票も獲得できなかったのは1回。
もちろん、"真の "MVPが5票以上を獲得すれば受賞となるので、真のMVPが受賞するのは512回中202回ということになる。
最もMVPにふさわしい選手が8票中4票を獲得した場合、その選手がそのまま受賞するか、同点で受賞する可能性がある。 最もMVPにふさわしい選手が4票を獲得した104回のうち、その選手がそのまま受賞したのは86回、同率受賞(他の4票をすべて獲得した選手がいる)は18回だった。
最もMVPにふさわしい選手が8票中3票を獲得した場合、(a)受賞、(b)完全敗退、(c)他の候補者と3勝3敗のタイとなる。 真の」MVPが8票中3票を獲得したのは97回。 この97回のうち、真のMVPは以下の通りである:
(a)完全勝利は29回、
(b)そのまま受賞を逃したのが29回、そして
(c)同点で39回受賞。
MVPに最もふさわしい選手が8票中2票を獲得した場合でも、他の6人の候補者がそれぞれ1票を獲得する可能性があるため、理論上は受賞することができる。 512回の試行で、最もMVPにふさわしい候補者が2票しか得票しなかったのは71回あったが、それが受賞に十分だったということはなかった。 この71回の試験で、11回が引き分け、60回が完敗だった。
このモデルによる512回のトライアルの結果は、以下の表にまとめられている:
この投票構造では、約13%の確率で引き分けとなる。 引き分けを半数ずつに分けると、「正しい」選手が512回の試行で351回、つまり68.6%のMVPを受賞することになる。
16人のパネル、各1票
では、16人パネルで各投票者が1票ずつ投票する方式に移ろう。 これは、1956年から1960年までサイ・ヤング賞の投票で実際に使われていたシステムである。
私は、先に概説した仮定と16人1票のパネルで640シーズンの試行を行った。 この640回の試行で、最もMVPにふさわしい候補が完全勝利したのは481回で、これはほぼ75%に相当する。 MVP候補が完敗したのは113回(18%)、引き分けに終わったのは46回(7%)だった。 これが結果の詳細である:
この表が理解できるように、640回の試行のうち、最もMVPにふさわしい選手が1位票を7票獲得したのは70回あった。 この70回の試行で、最もふさわしいMVPが受賞したのは57回、受賞を逃したのは9回、引き分けに終わったのは4回である。 640回の試行の中で、最もふさわしい候補者に投票したMVP投票者が1人もいなかったのは1回だけだった。
タイブレークのプロセスがあり、最もふさわしいMVPが50%の確率でタイブレークを勝ち取ると仮定すると、16人のパネルが78.75%の確率でふさわしい選手を選ぶことになる。 79%.
16人パネルとサイ・ヤングについての考察
上記の研究では、1人1票の16人パネルが約79%の確率で正解を導くと結論付けている。 この投票構成は、1956年から1960年までサイ・ヤング賞の決定に実際に使用されたもので、サイ・ヤング賞の競争では候補者が少なく、真剣な競争相手も少ないので、投票結果はそれよりも正確であるべきだと考えるだろう。サイ・ヤング賞の投票結果は、我々のモデルの基本であるMVPの投票結果よりも正確である。
しかし、現実には、サイ・ヤング賞の票を見れば、投票者は5人全員を間違えたと主張することができる。 投票者が5人全員を間違えたというのは、おそらく事実だと思う。 WARによれば、投票者たちは5人全員を見逃し、そのほとんどを大差で逃している。 もしそうだとすれば、実際の結果は、5人というサンプルではあるが、理論モデルと一致していないことになる。 それはなぜか? 私たちはここで何を見落としているのだろうか?
私はバイアスだと思う。 あの時代の投票者は、勝敗記録は信頼できるものであり、したがって最高の投手は最高の勝敗記録を持つものだという共通の思い込みを持っていた。 全員が同じ間違った前提で投票していたために、彼らはそれを見逃してしまった。 それがグループシンクだったのだ。
それが起こったことを示す第二の指標がある。 我々の調査によれば、このような投票の7%は引き分けになるはずである。 このことは、サイ・ヤング賞の投票が実際に行われるずっと前に、おそらく同点になるはずだったことを示唆している。 各投票で引き分けになる確率が7%だとすると、最初の10票で引き分けになる確率は52%になる。 実際、最初の16票では同点はなかった。
なぜか?
集団思考だ。 なぜなら、全員が同じように考え、同じ間違いを共有し、論理や個人の観察ミスではコンセンサスが得られないところである程度のコンセンサスを生み出したからである。
24人、10票の投票用紙
それでは、24人の投票者がそれぞれ10人の選手に投票し、10-9-8-7-6-5-4-3-2-1の順位をつけ、最も優れた選手に10点、10番目に優れた選手に1点を与えるという方式を考えてみよう。 この正確な投票方式がBBWAA MVP賞の決定に使われたことはないが、長年使われてきた方式に近い。 1931年から1937年まで、BBWAAは10-9-8-7-6-5-4-3-2-1という投票方式を採用していたが、投票者は8人で、1チームにつき1人だった。 1938年には2つの変更を行い、8人制から24人制に変更し、さらに10-9-8-7-6-5-4-3-2-1の重み付け方式から14-9-8-7-6-5-4-3-2-1の方式に変更した。 この投票システムは1938年から1960年まで使用され、1969年から1976年まではアメリカン・リーグで、1969年から1992年まではナショナル・リーグで再び使用された。 1961年に最初のエクスパンションが行われたとき、BBWAAは投票者数を各チーム3人から2人に減らし、投票数を24から20に減らした。 そのリーグが拡張されるまでは、各リーグ24票だった。
私の研究では、このシステムは86.7%の精度で最優秀選手賞候補を決定した。 私はこれを2回研究し、2回とも同じパーセンテージを得た。 最初の研究では、128シーズンをシミュレーションした。 128シーズンのうち、このプロセスによって正しいMVPが特定されたのは111シーズン-86.72%だった。 2回目の研究では、より時間効率の良い方法を考え出し、最初の128シーズンよりも少ない作業時間で512シーズンを行うことができた。 このシリーズでは、512試行中444試行で正しいMVPが特定された。 番目のグループに限って言えば、"真の "MVPは以下のようになった:
投票1位は444回、
2位は62回、
投票3位 5回
投票5位1回
裏を返せば、MVPに選ばれたのは
最有力候補444回
2番手候補55回
三番手候補11回
第4候補が2回
512回のトライアルで、引き分けに終わったのは2回だけだった。
不一致の指摘
私の512シーズンのシミュレーションでは、24の投票で満場一致のMVP選出は一度もなかった。 現実の世界では、1931年にBBWAAが投票を引き継いだ以前の賞がいくつか含まれていると思うが、全会一致での選出は18回あった。 全会一致で選出された18件のほとんどは24票未満であり、投票者が増えれば増えるほど全会一致の可能性は低くなると思いますが、それでもモデルと現実の世界との間にはかなり大きな乖離があります。
この不一致には3つの原因が考えられる。
第一に、集団思考、つまり必ずしも真実でないことに全員が同意することから生じる可能性がある。 つまり、「投票者」全員、あるいは投票者のほとんどが、実際には存在しない価値観に同意してしまうのだ。
おそらく、全会一致で選ばれた選手の中には、グループシンクバイアスに起因するものもあっただろう。 例えば1967年、オーランド・セペダは、たった20人の投票者だったとはいえ、ナ・リーグで満場一致のMVPに選ばれた。 セペダがMVPになったかどうかは、今となってはよくわからない。 彼はWARでリーグ5位だったが、RBIでリーグをリードし、当時は大きな話題だった。彼のチームは2シーズンとも5割に近い成績でペナントを制したが、これは一部の投票者に不当に影響したかもしれない。 また、MVPを受賞すべき選手であったロベルト・クレメンテが前シーズンに受賞していたことも、おそらく一部の投票者の投票意欲を削いだのであろう。
しかし、全会一致で受賞した例もある。 1953年のアル・ローゼン、1980年のマイク・シュミットなどである。この選手がリーグ最高の選手であったという事実を見逃すには、かなり鈍感でなければならないように思える。
第二に、私のモデルが許容している以上に、誰がMVPにふさわしいかは明白な場合がある。 価値モデルにもう1つランダムな要素を加えることで、この「時折群れから離れること」を作り出すことができ、その結果、時折1人の選手がより大きな差で自分自身を引き離すことができる。
第三に、現実の知覚誤差が私のモデルよりも小さい可能性がある。 私のモデルでは、各有権者の各候補者に対する認識は、理論的な最大値として、選手の実際の実力より15ポイント良いか、15ポイント悪いかを許容した。 これを14ポイント、あるいは10ポイントに変更するのは簡単なことで、言い換えれば、各投票者の知覚誤差を小さくすることができる。
この投票構造を使えば、投票者は87%の確率で正しい結果を得られると私は試算した。 ここで重要なのは、この食い違いが、実際の投票が私の推定よりも正確であることを示しているのか、つまり投票者が87%以上の確率で正しい答えを出していることを示しているのか、それとも投票者の正確さが低いことを示しているのか、ということである。 もしこの食い違いが投票における集団思考に起因するものであれば、現実の投票はおそらく87%よりも正確ではないだろう。 一方、正しいMVPが私のモデルが考える以上にグループから突出していることがある、あるいは相対的な知覚誤差が私がモデルに組み込んだものよりも小さいとすれば、現実の投票はおそらく87%よりも正確だろう。
というのも、(a)これらの研究は1週間以上の作業であり、私にはこのプロジェクトにもう1週間も費やす時間はない。(b)モデルの再構築において、グループシンクバイアスを組み込むか、知覚誤差を減らすか、時折1人の選手がグループからより大きく目立つような機能を作るか、どの方向に進めばいいのかよくわからないからだ。
また、ここでの真の目標は、完璧なモデルを構築することではなく、さまざまな変数が投票の精度にどのような影響を与えるかを理解することである。 投票者数を増やせば、投票の精度は上がるのか? 10-9-8-7方式ではなく、14-9-8-7方式を使うことで、実際に選出の精度は向上するのだろうか? それが私が本当に得ようとしていることだ。 これらの疑問に対する答えは、この不一致の原因が何であれ、おそらく同じであろう。
1938年のモデル
10-9-8-7-6-5-4-3-2-1方式ではなく、14-9-8-7-6-5-4-3-2-1方式を採用することで、最もMVPにふさわしい選手を特定するシステムの信頼性は実際に高まるのだろうか?
それはない。
私はこれを「1938年モデル」と呼ぶことにするが、これは1938年型フォードか何かのような、時代遅れの、あるいは骨董品のようなモデルであることを示唆する意図は全くない。 1931年から1937年まで、BBWAAは8人パネルを使用し、10-9-8-7-6-5-4-3-2-1方式で票を加重していたが、1938年に24人パネルと14-9-8-7-6-5-4-3-2-1方式に切り替えた。 1938年には24人パネルと14-9-8-7-6-5-4-3-2-1に変更された。投票者の数は20人から32人までさまざまであったが、基本的には同じシステムである。
長年にわたって私の記事を読んでくださっている方なら、私がこのシステムを概して高く評価していることをご存じだろう。 私は常に、一般的に適切なMVPを見つける素晴らしい仕事をする、インテリジェントに設計されたシステムだと説明してきた。 ここでも結論は同じで、このシステムは一般的に機能する。
そして、10-9-8-7から14-9-8-7に変更された理由も理解できる。 当時のBBWAAメンバーは、投票者が考えるリーグ最高の選手が誰なのかを知りたいが、投票者が考えるリーグ最高の選手、ナンバーワンは誰なのかを知ることに特に重点を置くべきだと言っていた。 冒頭で私の友人ジェリーが言っていたようなことだ。 直感的には理にかなっている。
しかし、数学的には意味をなさないし、数学的にもうまくいかない。 数学的には、1位の投票に10点ではなく14点を与えることによってやっていることは、特に信頼できると信じる理由のない区別に、恣意的にさらなる重みを与えていることになる。 これはシステムをより良く機能させるのではなく、実際には若干悪く機能させることになる。
まあ、それを誇張しすぎるのは混乱を招くから避けたい。 実は、1位を特別に重視する数学的な理由がある。 競争的な環境における選手の価値の配列が与えられた場合、1位の選手と2位の選手の差は、2位の選手と3位の選手の差よりも大きい可能性が高い。 1位の選手と2位の選手の差が、65位の選手と66位の選手の差よりも大きいことは事実上確実である。 たとえばWAR、つまりWin Sharesを研究すれば、リーグ1位の選手と2位の選手の差は、平均して2位と3位の差よりもはるかに大きいことがわかるだろう。 この差は、実際、投票者が誰を1番だと認識するかに特別なウェイトを置く数学的モデルを正当化するだろう。
しかし、重要なのは「どの程度」なのか、ということである。 どれだけウェイトが加わるのか?
1位投票に4ポイントを加算するのは、おそらく多すぎる。 おそらく1位投票に1ポイントを与える-11-9-8-7-おそらくそれはやりすぎだろう。 4点の加算は絶対に多すぎる。
1953年のアル・ローゼンや2018年のムーキー・ベッツのように、1人の選手が他の選手よりも明らかに優れている場合もある。 しかし、1人の選手が他の選手よりはるかに優れている場合、投票者はいずれにせよそれを見ようとする。 そのような選手は、余分な助けがなくても受賞するのが普通だからだ。
シミュレーション調査では、14点システムと10点システムを比較するために512チームすべてのデータを再実行するのではなく、単純に10点投票をすべて除外し、すべてを14点投票に置き換えた。 これは数時間の作業時間を節約できただけでなく、両システムをより直接的に比較できるため、より適切な方法だと思ったからだ。
この変更を行ったところ、(512票のシミュレーションの中で)1位投票に4ポイントを加えることで、受賞者が間違った選択から正しい選択に変わったケースが17件あった。 問題は、それが受賞者を正しい選手から間違った選手に変えたケースが20もあったことだ。 正味の効果は、512人中444人だったのが441人になってしまったことだ。 投票システムの精度は87%から86%に低下した。 4点の追加点は、単にランダムな知覚エラーを強調するものだ。
このようなケースを使って説明することもできるが、その場合、「シミュレーション・シーズン378において、選手51の実戦値は83.421であったのに対し、選手74の実戦値は83.247であった。 しかし、投票者番号16の知覚誤差は.. ........」なぜそれが役に立たないか、おわかりいただけただろうか。
その代わりに、1979年のナショナル・リーグのMVP投票という現実のケースをご覧になることをお勧めする。 ピッツバーグ・パイレーツは1979年、当時は見ていてとても楽しいチームでナショナル・リーグ東地区を制覇したが、その数年後に話はこじれた。79年のパイレーツは、シスター・スレッジの「We Are Family」をテーマソングに採用し、とてもクールでレトロな帽子をかぶり、アグレッシブでエキサイティングな野球を展開、98勝を挙げ、3ゲーム差でナ・リーグ東地区を制した。
当時のウィリー・スタージェルは、デビッド・オルティスのキャリア終盤によく似ていた。 クラブハウスでは尊敬を集めるベテランのリーダーであり、デビッドと同じように大衆から愛されるオールドハンドだった。 彼は左利きのパワーバットで、しかも優秀だった。 彼はオルティスよりもさらに速く、驚異的に速いバットを持っており、手首には恐ろしいほどの力があった。
しかし、彼はひどい走塁の持ち主で、ナショナル・リーグにはDHルールがなかったため、また、当時のナショナル・リーグにはセメントのように硬く、スタージェルの痛む足と地獄を演じた原始的な人工芝がたくさんあったため、彼はわずか126試合しか出場できず、そのうち16試合はピンチヒッターとして出場した。 登板数はわずか480で、守備の価値はまったくなかった。 打率は.281、32本塁打と健闘したが、リーグ最高の打者ではなかった。 1973年から1974年にかけてはリーグ最高の打者だったが、1979年にはその足元にも及ばなかった。
しかし、彼は優勝チーム、それもFUN優勝チームの感情の中心だった。 彼は "Pops "であり、"Papi "であったオルティスと平行する存在であった。 9月、彼はゲームブレイクの大ヒットを何本も放った。 実際の記録を見ると、それほど大きなことではなかった。 実際の記録を見ると、9月1日、5日、11日、18日、25日の試合で、わずか5本の大ヒットを放っただけなのだ。この5本のヒットが重要でなかったわけではないが、スタージェルの9月の打率はわずか.222、わずか18RBIで、驚異的な数字とは言い難い。 パイレーツは9月1日に6ゲーム差をつけ、結局3ゲーム差でペナントを制した。 それでも、ポップスはこのチームのザ・ガイであり、9月の躍進でチームがペナントへ駆け上がる中、連日試合を壊すような大ヒットを放つ男だった、という物語が生まれ始めた。
それははっきり言って、でたらめな物語だった。 スタージェルのシーズンWARはわずか2.5で、7.5を超える選手が4人もいたのだから、正確な比較ではないことは認める。
それでも、スターゲルはリーグ最高の選手ではなかったし、MVP投票者の大多数もそれを知っていた。 スタージェルは10票の1位票を獲得し、残りの14票はWARの多い選手に、そのほとんどはWARの3倍の選手に与えられたが、それらの選手の間で票が割れ、4票以上の1位票を獲得した選手はいなかった。 スタージェルは他の14人の投票ではかなり下位に終わった。
もし投票が10-9-8-7で集計されていたら、スタージェルはMVP投票でダントツの2位だっただろう。 しかし、14-9-8-7の重み付けによって40ポイントが追加され、スタージェルは同率1位となり、この賞の歴史の中で唯一の同率投票となり、MVP賞の半分のシェアを獲得した。
もちろん、これは1つのケースであるが、1位投票の14ポイントが、真の最優秀選手を特定する上で実際には役立たない理由を示していると思う。 1位の選出を強調することは、フィールド上の区別よりも、むしろ心の中の区別にさらなる重みを与えることになる。 物語的価値、つまり、なぜこの選手が最も価値ある選手なのかを説明するストーリーがあり、生産的価値がある。 1位投票の4ポイントボーナスは、特定の事実を「重要な」事実として選択する物語を互いに納得させた、興奮した少数派の投票者に重みを与えるが、それ以外の退屈な事実、7月の退屈なホームラン、退屈な二塁打や三塁打、退屈な守備のプレーには重みを与えない。
サーティマン・パネル
失礼、30人パネル
現代野球ではもちろん、各球団から2名ずつ、計30名の投票グループが使われる。 ここで次の疑問が浮かぶ: 30人の投票者は、24人の投票者よりも正解する確率が有意に高いのだろうか?
意味がある」をどう定義するかにもよりますが、はい、30人の投票者の方が24人の投票者よりも正確です。 10-9-8-7の重み付け方式で投票した場合、24人投票では512回の試行で444回「正解」が得られ、他の68回のうち55回は2番手候補が勝った。 同じ方式で投票者数を30人にした場合は、512回の試行のうち449回が正解となり、他の63回のうち56回が2位候補となった。 3位以下になるべき選手に贈られた賞の数は13から7に減少し、「正しい判断」の割合は87%から88%に増加した--そして、正味の効果は、最もふさわしい2番目の候補者から最もふさわしい候補者への賞の移動ではなく、実際には最もふさわしい3番目の候補者から最もふさわしい候補者への賞の移動なのだから。 ある賞は3番目にふさわしい候補者から2番目にふさわしい候補者へ、ある賞は2番目にふさわしい候補者から最もふさわしい候補者へ、つまり、正味の効果は3番目にふさわしい候補者から最もふさわしい候補者への賞の移動なのである。
これが10-9-8-7投票の場合である。 実際に使用されている14-9-8-7投票用紙を使用すると、投票パネルが大きくなる(24人ではなく30人)ため、正しい選択肢の数が441から447に増加し(86%から87%)、また、3番目に優れた候補者に送られる選択肢の数が13から9に減少する。
ある観点から考えれば、投票者のパネルを増やせば、結果の予測可能性が高まることは論理的に明白になる。 もし、MVP投票を単純に「好み」という観点から考えるなら、つまり、私はこの人だと思う、あなたはあの人だと思う、一つの意見は他の意見と同じである、という観点から考えるなら、投票パネルを増やしてもあまり効果がないように思える。
しかし、他のどの選手よりも価値のある選手が1人いるという前提に立てば(これは、最優秀選手に投票する際に必然的に暗黙の前提になると私は考えている)、他の選手への投票は単なる意見の相違ではなく、エラーになる。 そう考えれば、投票パネルを増やせば結果の精度が上がるのは明らかだ。 そうでなければ、誰が実際に最優秀選手であったかを誰もが知ることになる。 そうでなければ、誰が実際に最優秀選手であったかを誰もが知ってしまうでしょう。もし観察誤差がなければ、1人の投票者だけで決めることができます。 より多くの投票パネルが必要なのは、観察誤差のバランスをとるためだ。 好み」は実際の値にあるのではなく、観測誤差にあるのだ。
数学的な言い方をすれば、ある選手が91のWhatsisを持っていて、もう一人の選手が90のWhatsisを持っていたとする。 観察誤差の合計が投票者1人につき1以上小さいほうに有利にならない限り、Whatsisが91のプレイヤーが投票に勝つ。 観察誤差が0を中心とする確率変数であると仮定すると、より多くの投票者が参加すればするほど、観察誤差の平均が2人のプレイヤーの値の差よりも大きくなる可能性は少なくなる。
もしチームごとに3人目の投票者を加えたら?
もし1チームにつき3人目の投票者を加え、投票者数を30人から45人に増やしたらどうなるか。 どんな違いが出るだろうか?
かなり大きな違いが出るだろう。 10-9-8-7の投票用紙を使った場合、30人の投票者パネルでは、前述のように512回の試行で約449回、つまり87%が正解となった。 45人パネルでは512回の試行で463回、つまり90%を少し上回る程度......90点台後半、91点未満である。
実際に使用されている14-9-8-7-6の加重システムを使用すると、正解数は512回中447回から512回中462回に増加し、これも90%である。
86%や87%から90%への信頼性の向上は大したことではないように思えるかもしれないが、代わりに不正解の数に注目すれば、それははるかに大きく見える。 実際の投票構造を用いると、512回の試行で予想される不正解の数は65から50に減り、これは23%の減少である。 これはかなり大きいと私は思う。
しかし..... .
各チームに3人目の投票者を加えることに反対する意見として私が思いつくのは、3人目の投票者は前の2人よりも情報に乏しい可能性があり、その結果、誤差の幅が大きくなる可能性があるということだ。
しかし、その可能性は極めて低いと思われる。 現代の世界は、1960年の世界と比べると、情報の作成と配布が圧倒的にうまくなっている。 1960年代には、投票者はある球団と一緒に旅行しない限り、他の球団のことをそれほど知らなかったのかもしれない。 現代では、多くの人がMLB-TVのパッケージを持っていて、非常に多くの試合を見ることができる。 今シーズン、私はオークランドAの試合を50試合見たに違いない。 1970年代、ピーター・ギャモンズは、とりわけ電話で全米のビートライターと情報を共有することで、彼自身を全国的な存在にした。 現代の世界では、その種の情報は、インターネット以前の世界では詳細な情報にアクセスする資格のなかった人々とシームレスに共有されている。 率直に言って、有権者が不足しているとは思わない。
関連性の高い問題だとも思わない。 この種の研究でできることのひとつは、観測誤差を変化させ、観測誤差のレベルによって結論がどう変わるかを見ることだろう。 つまり、観察誤差が選手1人当たり15点の可能性があると仮定した場合、現在の方法の精度が87%であるとすると、潜在的な観察誤差が選手1人当たり10点、あるいは選手1人当たり20点であると仮定した場合の精度はどうなるでしょうか?
私はそのような研究はしていないが、私の考えを言おう。 大きな違いはないと思います。 長年にわたって5,000回は発表しているはずだが、私の信念は、外界は人間の頭脳よりもはるかに複雑で、何十億倍も複雑である。
有権者の "資格 "を得ることが良い結果を得る鍵だと思われているが、本当にそうだろうか? 私はそうは思わない。 なぜなら、世の中を本当に理解している人などいないと思っているからだ。 私たちは協力することによってのみ理解に近づくことができる。 それが科学の基本であり、私たちは協力することによってのみ理解を生み出すのだ。 そういうわけで、正確なMVPの投票を得るためには、30人のパネルよりも45人のパネルの方が実質的にうまくいくと私は信じている。
お読みいただきありがとうございました。
こんにちはビルは、私はあなたが以前にこれを見たかどうかはわかりませんが、それはあなたがした場合、
それは投稿されていません。いずれにせよ、このエッセイはコンドルセ侯爵の陪審定理を非常によく説明しているということをお伝えし、そのことに気づいていたのか、それとも、サンスティーン&セイラーの『マネーボール』のレビューでトベルスキーとカーネマンに言及したあの瞬間のようなものなのか、お尋ねしたかったのです。実は、今になって、この2つについてどう思いますか?
11月30日 2:15
steve161
Marisさん、今はあなたと私が話しているだけでしょうが、いつかニューヨークでデリランチを食べながらやりたいと思っているので、あなたの最後の段落で表現された疑問は理解できると思いますが、これはおそらくビルが出版のために自分自身を表現できなかった結果です。
11月22日 13:00
MarisFan61
P.S. (編集ができれば、以前のメイン投稿に編集/修正として追加されていたでしょう)
1位票の「追加クレジット」を削除する効果について、誤りを述べたことを指摘されました。
私はビルが述べたパーセンテージのカップルで少し迷子になりました。
30人のパネルでは、その「余分な信用」が取り除かれると、理論的な「信頼性」が実際に悪くなるというのは間違っていました。
しかし、これでは意味のある改善が得られなかったのは事実です。それはほんの数パーセントの増加を与えます。(ほとんどの場合、整数に丸めても変化はありません。
ところで、私が言い訳をしているわけではありません:-)しかし、パーセントに惑わされがちです。
Bill は 1 つのインスタンスで間違った四捨五入された数値を与えました (後者の 87 の 1 つは 88%、つまり 449/512 である必要があります) が、それは私が間違いを犯した理由ではありません。
11月22日 12:12
MarisFan61
.....誤字脱字で申し訳ありません。
「14-9-8-9」は14-9-8-7のはずでした。
「(そして、あなたが仮定しているものが実際には裏付けられていないが、反駁されている場合)」は、「あなたが仮定しているものの1つ」であるはずでした。
11月21日 10:56
MarisFan61
Steve:
たぶん、でも、もしそれが本当にビルの主な意図であり、彼の主な焦点だったとしたら、彼は数学的な結果から一息ついて、全体をまったく異なる方法で提示していたと思います。
もしあなたがそれに焦点を当てているなら、これらの結論に達しないのは難しいと思います:
-- 投票用紙の#1ピックの「余分なポイント」を排除することについて:「気にしないで、それは結果を悪化させます」。
その部分は明確ではありませんか?
Bill の方法では、「10-9-8-7...」は、30人のパネルでは「14-9-8-9...」よりもわずかに信頼性が低く、14-9-8-7よりも確実に「正しい」人を選ぶことがわかりました。45人のパネルで。
-- 30人ではなく45人のパネルについて:検討する価値があるほどの違いはない -- つまり、「30人は思ったよりも完全な信頼性に近づいており、45人はほとんど役に立たない」。
たぶんあなたは正しいですが、私には、疑わしい仮定と、それらの収益を弱く裏付けるための手順で首を突き出しているように思えます(そして、あなたが仮定しているものが実際に裏付けられていないが、反駁されている場合)。だから、おっしゃることが主眼だったのかと疑問に思います。
11月21日 10:52
steve161
Marisは、私が期待するものの一部は、実際に直前のパルジファリアの記事を読んでいるごく少数派である、私は不謹慎にも、そのすぐ下に私が尋ねた質問に注意を喚起したいと思います。
強調しておかなければならないのは、Bill が MVP 投票システムの理想的な表現を使用して、現実世界のシステムが 10 対 1 のスケールで改善され、投票者数が増えることを実証したことです。理想化されたシステムは、彼が明示的に述べたことに反して、彼が「正しい」答えと「間違った」答えがあると信じているという印象を与えます。彼が実際に信じているのは、もし正しい答えがあれば、彼が提案する変更によって、投票がそれを見つける可能性が高くなるということです。確かに、それは微妙な違いであり、私も彼を完全に誤解しているかもしれません。
彼がこのことについてどう思っているのか知りたいのですが、彼は私と同じマイノリティの一員ではないと思いますし、私たちにはわからないと思います。
11月21日 7:35
MarisFan61
深呼吸。:-)
すでに提起された論点の議論は、そのコースを走らないまでも、静かになったように思われるので、私がこれまでに述べたことは、
問題の表面をなぞったにすぎません。
他にもいくつか追加しますが、すぐに紹介しますので、料金が多すぎる場合は、ここでやめてください。:-)
------------------------------------------------ JGFが強調した部分(「実生活では、誰がMVPになるべきかについてあなたの考えがあるかもしれないし、私もそうかもしれないが、このテーマに関する絶対的な知識はないので、投票システムが正解か不正解かを確実に言う方法がない」)は素晴らしい
ですが、以前のコメントで述べたように、 ビルが「MVP」について本当にどう思っているかを明確に示しているように思われますが、記事の残りの部分はそれが言っていることを裏切っているようには見えませんか?
「間違った」結果を得る可能性を最小限に抑えることを強調し、努力することは、すべてそれに反するのではないでしょうか?
特に、「正しい」と「間違った」結果が定義されている方法は(私が知る限り、私が間違っているかどうか言ってください)、単一の特定の方法によるものですか?
そもそもJGFが引用した部分が印象に残らなかったのは、そのせいもある――記事の核心に入る頃には、率直に言って忘れてしまっていたし、私が強調した最後の部分にたどり着いたときには、すっかりなくなっていた。
記事の残りの部分は、冒頭近くの引用部分とどのように一致していますか?
-----------------------
この次のことは、ある種の評価を明確に評価しているという点で、上記に関連しています。
この部分は、最後の方(段落のすぐ上の段落は、"30人のパネル、すみません、30人のパネル")は、ビルは、なぜ彼は投票用紙に#1ピックのために与えられている余分なポイントを愛していないの一部として言った:
1位の選択を強調すると、心の区別に追加の重みを与え、 フィールド上での区別ではなく。物語的価値、つまり、なぜこのプレーヤーが最も価値があるのかを説明する物語があり、数学的ツールによって不完全に測定される生産価値があります。1位票の4ポイントボーナスは、特定の事実を「重要な」事実として選び、他の退屈な事実、7月の退屈なホームランや、退屈な二塁打や三塁打や、退屈な守備プレーには何の重みも与えない、興奮した少数派の有権者に重みを与える。
これが、私が述べた相対的な価値と価値の引き下げをどのように示しているかについては、詳しく説明する必要はないと思います。また、そこにはナゲットがあることにも注意しておきます -- その最初の文 -- それは、相対的な価値付けと切り下げという、より基本的な側面を示していますが、それは印象主義的なものとは対照的に、ストレートセイバーメトリクスと呼ばれるものに関するものなので、ほとんどの人は問題ではないと感じるかもしれませんが、「それで何が問題なの?」ということです。 先に引用したことを裏切っているようです。ここでも、最初の文は「
Emphasizing the first place selec」ですは、フィールド上の区別よりも、心の区別にさらなる重みを与えます。
まぁ。:-)
セイバーメトリクス学者からすれば驚くことではないことはわかっているが、それはその前の部分の中立性を裏切っている。
--------------------
たぶん、何よりも、投票パネルを拡大することの理論的な結果的な利点の大きさ(つまり、非常に小さい)を見てください。このアイデアがどのような恩恵を受けるのか、わかりにくいと思います。ビルは、現在の14-9-8-7でそれぞれどれだけの理論的「改善」があるかについてのデータを与えました。システムと10-9-8-7...。パネルが30人から45人に拡大された場合のシステム。実際の30人制では、「正解」の頻度は87%から90%に上昇する。
すみません。:-)
私が疑問視し、場合によっては悪いとみなすさまざまな根本的な仮定や偏見、一般的に「正しい」答えがあるという考えなど、他の指摘された問題を忘れたとしても、実際には、演習全体はもちろん単なる理論的なものであり、正解の確率が87%から90%に増加するのは有利なポイントであるはずですか?
Bill は、「信頼性が 86% または 87% から 90% に向上しても、大したことではないように思えるかもしれません」と付け加えています。
チェック :-)
...。しかし、代わりに間違った投票の数に焦点を当てると、それははるかに多く見えます.....512件の試験で予想される誤った投票結果の数は、65件から50件に減少し、23%減少しました。これは非常に重要なことだと思います。
だからといって印象が変わるとは思っていません。
ビルは次に、有権者を増やすことは、あまり情報に通じていない有権者を追加することを意味する可能性があり、その可能性は低いと考えていますが、可能性はあり、より多くの「観察誤差」をもたらす可能性があり、ある程度結果を悪化させる可能性があります。私は、この結果を悪化させる可能性のある別の側面があることを付け加えたいと思います:私は、有権者の数が多いと、一般的に、彼らは物事を(やや)あまり真剣に受け止めない傾向があり、それも間違った方向に働くと思います。もしあなたが投票グループに属していたら、10人のうちの1人だったら、あるいは100人のうちの1人だったら、もっと真剣に受け止めますか?(画像をより鮮明にするために、より大きなスプレッドを使用しています。
いずれにせよ、「エラー」を最小限にとどめることにそれほどの懸念があるのなら、もし人がそのようなことを信じて、今はそれが多すぎると感じているのなら、なぜ87%から90%への改善に甘んじるのでしょうか?改訂はより良いものを目指すべきではないでしょうか。98%、または少なくとも95%に増やすには、どのサイズのパネルが必要ですか?もっと大きなパネルが必要になると思います。
これは、どんなサイズのパネルでも好きか嫌いか、そしてパネルの大きさが大きすぎたり、ばかげていたりすると思うかにかかっているように私には思えます。他の条件が同じであれば、個人的には、30人のパネルの方が大きなパネルよりも魅力的だと思います。それはちょうどいい感じです(部分的には私が来るかもしれないことを十分に認識していますジェリーの立場から)。もしあなたが30よりも45の方が好きで、特にその方が「精度」が上がると思うなら、そして現在本当に問題があると感じているなら、もちろんです。(私はしません。
他の人が言ったように(そして私も同意しました)、この記事が調べたのは興味深いアイデアです。私はただ、その中に頭を悩ませるようなものが見られることに感銘を受けました。
11月21日 1:41
MarisFan61 私が言及した記事の部分がJGFによって強調されたことの利点
で、「
実生活では、誰がMVPになるべきかについてあなたの考えを持っているかもしれませんし、私もそうかもしれませんが、このテーマに関する絶対的な知識はありません。したがって、投票システムが答えを正解したか不正解かを確実に言う方法はありません。」
.....それが、ビルが本当に考えていることの答えだと思います。
しかし、問題がどこにあるか(それに加えて、本質的に記事の全体の推進力が上記の部分に反しているように私には思えます):-)それは、最初のうちは、彼の見解とは正反対の表現であるように私には見えた、後の部分です。
私は今、それを違った見方をしています -- Bill の「MVP」に対する見方自体についてではなく、彼が与えられた MVP 投票をどう見ているか、そしてそれは間違っていると私は見ています -- しかし、Bill が「MVP」について考えていることとは別の話として。
11月20日 10:42
steve161
私たちはまだ読者の投稿でこれを議論しています--47とカウントしています。ビル、あなたを理解しようとして、私はこう書きました:「ビルの研究方法は、現実世界を反映しているのではなく、誰がMVPになるべきかを明確にする人工的な環境を作り出したとビルが言っているのが理解されました。」
後者のフレーズは物議を醸しているようです:一部の投稿者は、客観的に最も価値のあるプレーヤーがいると信じており、それを他の誰かだと信じている人は間違っていると信じています。あなたがこれを信じていると信じている人もいますが、それはわからないと付け加えます。あなたがそれを信じていないと信じている人もいます。ジェリーはそれがすべてでたらめであり、彼は正しいかもしれないと信じています。
あなたはあなたが信じていることを明確にすることに気を配っていますか?(そうすると信じている人もいれば、そうでないと信じている人もいます。
@jgf704:乱数の範囲に関する私の最初の投稿は可能性を定義しようとしましたが、.NET Frameworkは、より大きい、より大きいなどの記号によって曲線を投げられたようです。可能性として、0 (包括的) から 1 (排他的) までの実数を生成する Excel RAND 関数と、包括範囲内の整数を生成する RANDBETWEEN 関数を挙げました。記号を使って、半分の言葉で同じことを言いました。
11月20日 6:14
MarisFan61 読者の投稿に関する進行中の議論
から、私たちのさまざまな意見の相違の核心点が、以前に引用した記事のこのこと、下の方から、タイトルのセクションの5番目の段落に、うまく目覚めた方法で含まれているようです:-)
30人パネル すみません、30人パネル
「しかし、他のどのプレイヤーよりも価値のある選手が1人いると仮定するなら、その仮定は、最も価値のある選手に投票する際に必然的に暗黙の了解であると私は信じています。他のプレイヤーへの投票は、単なる意見の相違ではなく、誤りです。」
ビルは、より多くの有権者がいる方が良い理由の一部として、これを述べています。
しかし、そこにある概念は、ここで他の多くのことに関連しています。
それを見てみましょう。
ビルは、そうだと言っているし、私もそう思っているし、信じているし、確信しているのだろう。つまり、それが「必然的に暗黙の前提であると私が信じている」と言うとき、それを他にどのように受け止めればいいのかわかりません。
彼が間違っているとしたら?
それが真実ではないと仮定しますか?
まあ、実際、それは間違っています。本当じゃあいません。
私が完全にユニークでない限り、それはお世辞にも言えませんが、それは明らかに誤りです、なぜなら、それは私が投票でそれを見る方法、または私たちがこのサイトでしばしば行うような模擬投票を行うときに私がそれを見る方法とは絶対に違うからです。
そして、私は断言します、ここには同じようにいる他の人がいるに違いありません...言い方...私はそれを謙虚な心と呼ぶか、オープンマインドと呼ぶか、曖昧で混乱していると呼ぶことができます。あなたの選択を取る.....例えば、今年のア・リーグMVP投票でトラウトが1位、ブレグマンが2位だったとしても(私もそうでしたが)、それは「他の選手への投票は単なる意見の相違ではなく、間違いだ」と考えているという意味ではまったくない、同じように謙虚な考えを持っている人がいるはずです。ましてや、(ビルが言うように)それらが誤りであることははるかに少ない。
私たちは、自分自身が「正しかった」という自信を必ずしも持っているわけではありません。私はトラウトを選びました。私はほとんどブレグマンかルマシューのどちらかを選びました。確かに、私自身の投票用紙を基準として使っても、それは決して「エラー」ではないだろう(誰かがブレグマンやルマシューを最初に選んだのか、コールやバーランダーやセミエンを最初に選んだのか、投票用紙の背後に何があるのかを正しく把握すれば。
読者の投稿の議論で見たものから、私は何人かのメンバーがまだ(どういうわけか)ビルが言ったことが正しいと思うと確信していますが、率直に言って、私はどのように見ていません。たぶん、それは私の十分なオープンマインドの欠如のせいです - しかし、そのような主張 - それは本当にこの記事の思考プロセスの多くの基礎です - それが私自身の投票が何であるかについての正しい理解を反映していないのであれば、どのように正しいのかを理解するのに苦労したことを責めないでください。 そして、私が強く推測しているように、ここにいる他の人々の投票でもありません。
11月19日 22:04
MarisFan61
.......少し違った言い方をすれば、私はそれに反対するという意味ではありません。
最も興味深いのは、さまざまな見方があることです。
20:41 11月19日
shthar
もし彼らが毎回「正しい」と言ったら、一体何について議論するのでしょうか?
私は研究とコメントが好きです。MVPには「完璧な」定義がないので、それについては常に議論の余地があることに同意します。そのようなものです:どの年でも最も美しい女性は誰ですか(私は知っています、性差別的な質問)。まあ、男性の世論調査(現在行われているMVP投票)を取ることができます。体重、身長、年齢、身体測定値、映画のチケット販売数など、美しさを定量化しようとすることができます。そして、男性の世論調査をかなり頻繁に予測する式を得ることができるかもしれませんが、外れ値があるでしょう。MVP/ビューティーの選択を定量化する試みは、非常にうまく機能し、「その他」の基準に基づいて選択されたMVPを示すという点で気に入っています。これらの選択が他の基準に基づいていたからといって、これらの選択が間違っているわけではなく、定量化基準外の情報が選択に使用されたことを示しているだけです。
モデルでは、プレイヤーレベルの特定のビニングを想定し、乱数を使用してビンに「プレイヤー」を配置する方が良いでしょうか。たとえば、歴史的に見て、プレイヤーの3%のみが特定のレベルに到達し、そのビンに0.97を超える乱数を割り当てます。次に、モデル化された年(100個の乱数)では、最も高いビンにプレイヤーがいない場合もあれば、複数のプレイヤーがいる場合もあります。ビンは同じサイズではないことに注意してください.....
11月19日 19:01
エバネカーブ 一体
誰が気にするんだ?とにかくすべてでたらめです!
署名、
ジェリー
11月19日午後2時29分
jgf704
steve161 は、「技術的な質問、研究の再現や拡張を望む人のために:使用される乱数の範囲はどれくらいですか?」と尋ねています。
ビルは明確には言っていませんが、状況証拠は、それが一様な分布を持つ0から1までの乱数であるということです。
11月19日 13:14
MarisFan61
Bill: 多分、あなたから説明を受けることができます。
これについては、読者の投稿で議論しています。私は、この記事の最後に、あなたが言うことのこの部分を強調し、私には記事の基盤であると思われる:
"もしあなたが、他のどの選手よりも価値がある一人の選手がいると仮定するなら - 私は、その仮定は、私は必然的に最優秀選手に投票する際に暗黙のうちに信じている - その後、他の選手への投票は、単なる意見の相違ではない。 しかし、エラー。
(太字追加) しかし、私たちのメンバーであるJGFが強調したように、記事の最初(ジェリーの部分の直前)
で、あなたは
「実生活では、誰がMVPになるべきかについてのあなたの考えを持っているかもしれませんし、私もそうかもしれませんが、このテーマに関する絶対的な知識はないので、投票システムが答えを正解したのか間違っていたのかを確実に言う方法はありません」と述べています。
これらすべてを二乗するにはどうすればよいでしょうか?
ところで、これは私が最初のコメントで言ったこと、セイバーメトリクスの執筆でそのようなもののいくつかを文字通り受け取る方法を知るのは難しい場合があるということです。
11月19日 11:39
MarisFan61
私は実際にロビンのリードインに同意します:「私はこれが投票ルールを分析する面白くて賢い方法を見つけました」(非常にそうです)--「正しい」と「間違っている」と実際の最も価値のあるものを忘れている限り。
11月19日 11:11
ロビンソン:
これは、投票ルールを分析するための興味深く巧妙な方法だと思いました。1979年のMVPレースは魅力的だと思うし、投票を拡大すれば引き分けの可能性は減るだろう。しかし、WARやWin Sharesの普及や情報へのアクセスは、投票プロセスを根本的に変え、有権者数の少なさを気にする必要性を減らせたと思います。個々の投票者のエラー率は、何が勝つかの理解が広がり、情報に簡単にアクセスできるようになったため、大幅に低下しました。このモデルは、誤差の相関関係を著しく過小評価していると思います。
11月19日 10:11
MarisFan61
スティーブ:ありがとうございます。
私は少し待って、ビルに、もし他の誰も言わなかったら、彼の返事は悪臭を放つと言った。:-)
それから私を排除してくれてありがとう。
9:27 11月19日
steve161
技術的な質問、研究を複製または拡張したい人のために:使用される乱数の範囲はどれくらいですか?
Excel の RAND 関数を使用して目的の範囲を指定する方法を引用して、より具体的に説明しようとしましたが、この機能が明らかに実装されている Microsoft .NET Framework からエラー メッセージが表示されました。ウェブマスターが興味を持っているなら、いつでも複製できます。
マリスは正しいだけでなく、彼は明らかに正しい、とジェリーのブラシで彼をタールは不適切であるだけでなく、それは安いショットだ私には思える。
スタージェルの例は良い例であり、カーク・ギブソンの例もそうだと私は推測する。この記事全体は、客観的に最も価値のあるプレーヤーがいるという仮定に基づいていますが、それが誰であるかについて誰もが同意するわけではありません。なぜなら、プレイヤーの価値を高めるものすべてが定量化できるわけではないからです。スタージェルもギブソンも、有権者が彼らを価値あるものとして認識する資質を持っていた - 彼らを「無形資産」と呼ぶ - そして、それらの有権者が間違った投票をしたと主張する唯一の方法は、それらの資質の存在を否定することである。
もちろん、その議論をすることもできますが、それは明らかに意見の問題です。客観的に正しくありません。
11月19日 7:27
MarisFan61
WDR:素晴らしい例です。
1961年は脇に置いておくが、それは誰が関わったかだけでなく、主に私がそこでカバーしたからだ。
1941年を見てください:素晴らしい例です。
私の常套句であるように、そして私は本当に多くの人々がそれを彼らの愚痴にしたくない理由がわかりません:-)....何が正しくて何が間違っていたのか、まったく感じません。
私はただ、競合する問題や議論が何であるかを見ているだけで(どうしてそうできないのだろう?)、一方の側が単に正しいと断言できるわけがない。:-) :-)
私はジョーに投票したと思います。しかし、私はそこに行ったことがないとわからないし、もちろん、テッドを選ぶ方法はわかります。
テッドの論拠:
--彼の打撃成績ははるかに良かった。
--当時の人々はこのことを知らなかっただろうし、驚いたかもしれない(私もそうだった):彼の状況統計はジョーのものよりも優れていた。
--彼は打率.406を記録しました(当時はそれがどれほど特別なことなのか、まったくわかりませんでしたが)。
-- 彼はWin Sharesでリーグトップ(ただし、このサイトのデータによると42対41!! --Soapを上回り、Baseball Gaugeでは41.8対41.7)、「WAR」(baseball-ref.com あたり、Joeに対して10.6対9.1)でトップでした。
[timeout:実際には、これらのデータ自体が、ここにいる全員に、ここに非常に合理的な質問があることを認めさせるのに十分だと思います。
ジョーの引数:
-- 彼はペナントの勝者にいた。テッドのチームは2位と非常に遠い存在でした。
--56試合連続安打を記録しました。
-- 彼のホームパークは彼に不利に働き、テッドは彼のために働いた。
-- 彼はテッドよりもずっとオールラウンドなゲームを持っていました。
-- ......おそらくそれに関連して、彼はもっと「計算不可能な価値」を持っている可能性が高いと考えられるかもしれません(私はそう思います)。
私は、リーグのさまざまな選手にはほとんどの場合、合理的な競合の考慮事項があり、特定の年におけるそれらの間の優先順位をどのように見るか(そしてゲーム全体をどのように見るか)に応じて、異なる答えを出すことができると提案します。
洗練された人たちが「正しい」答えがあると想像し、「正しい」答えと「間違った」答えを信じることで、現在のやり方には大きな欠陥があると簡単に考えてしまうことに、私は非常に困惑しています。
20:31 11月18日
wdr1946
MVP投票で異常かつ記録破りの偉業にどのような重みが与えられているか、または与えられるべきかを知ることは興味深いでしょう-たとえば、ロジャーマリスは1961年にAL MVPを獲得しましたが、彼はWARで最高の選手ではありませんでした-しかし、61HRは報われなければなりませんでした。1941年のジョー・Dはテディほど優れていなかったのかもしれないが、これは議論の余地があるが、勝った。1962年のモーリー・ウィルズ。記録破りを考慮に入れるべきかどうかはわかりません.
17:35 11月18日
MarisFan61
ところで、「正しい」と「間違っている」は、ここで間違っていることの核心です。
11月18日 17:31
ボブ・ギル
「3人の有権者全員が13.75%の確率で正解し、3人のうち2人が38.67%正解、3人のうち1人だけが36.25%正解、
3人全員が11.33%正解になる」
エイブラハム・リンカーンはそう言わなかったのか?
11月18日 17:05
MarisFan61 インターベンショナル精神科医
?:-)
11月18日 15:57
ジェームズ・
マリス、私の友人のジェリーを紹介したいと思います。お二人はお互いを知っているはずです。
11月18日 15:43
MarisFan61
(第3投票者の質問には触れていませんが、あまり重要ではないと思います。
私がここで言っていることは、以前に私のコメントを見たことがある皆さんには驚くことではありません。
sabermetricsの領域では、基本的にすべてのそのような部分にあるように、ここで行われていることには根本的な問題があります(ただし、それらが言っていることを文字通りに意味しているのか、そして文字通りの読みが実際の思考プロセスをどの程度反映しているのか、私にはわかりません)。
額面どおりに受け取ると、この記事は MVP の 1 つの特定の意味を前提としています。
(ビルは、それが誰であるかについての明確な答えがないことを認めていますが、それはそれが何を意味するかについての正当な相違の認識に基づいているようには見えません。
そして、実際には2つの別々の問題があります。
(「IMO」は必要ありません。それには2つの別々の問題があります。
問題#1:言語学にこだわっている。
それは、その用語に「価値がある」という理由だけで、必然的に価値に関するものであると仮定しています。
私は、物事はその正確な言葉についてであるべきだという正当な見解であることに異議を唱えることはできません。しかし、反対の見解(私の見解)が不合理であるとか間違っているとか、合理的に論じることはできないと思います。他の場所でも申し上げたように、私の見方では、物事の意味は示され、それによって本質的には時間の経過とともに使用法によって定義され、IMOは、野球に限らず、すべてのスポーツや会場で、「MVP」が個々の状況に応じて複数の意味を持つことは明らかです。文字通り「最も価値がある」こともあれば、ベストプレーヤーの場合もあれば、最も大きな違いを生んだ選手である場合もあれば、特定の傑出した功績を称える場合もあります。
問題#2:タイトルにあるので、価値についてでなければならないと思っていても、「最も価値がある」が何を意味するかについての正しい見方は1つではないことに気づいてください。
セイバーメトリクスは、ほぼ一様に、playerのperformanceの定量的価値だけを考え、仮定しているようです。
(......というのも、通常は計算可能な値に関するもので、計算可能なものは実際の定量的な値と同じではないので、まだそこには到達していないし、そうなる可能性も疑わしいからです。
しかし、それは忘れましょう。
ここで問題なのは、セイバーメトリクスが上記を前提としているのと同じくらい強く、「最も価値のある選手」とは「最も大きな違いを生んだ選手」を意味すると想定する大きな学派が残っていることです。
これには、ラルフ・キナーの古い言葉「私たちはあなたと最後に終わった、あなたなしで最後に終わることができる」のようなものが含まれます。また、非常に優れたチームが、リーグで最高の選手とは言い難く、自teamでもBestではなかったかもしれないが、「TOP」と感じた選手を、時にはfield上のperformanceの領域外も含めて加える場合、その選手は最大の違いを生んだと見なされ、したがって「最も価値がある」と見なされることもあります。
らせん 状。クレージー。もちろん、それを感じることは許されています。しかし、"MVP" が複数の異なる意味を持つことを認識していないと、全体像の重要な部分が欠けているため、その仮定から派生するものは、実際には主題をカバーしていません。
11月18日 14:51
この記事が気に入ったらサポートをしてみませんか?