見出し画像

[一般TCG理論]データを見ることは人の話を聞かないこと

こんにちは、ウーパールーパーです。
私は本職のデータエンジニアというわけではないのですが、仕事の関係上データ分析的なこともそれなりにしています。
そんな私が「データ」について常日頃私が考えていること、気をつけていることを紹介します。


1. データとは何か?

まずそもそもですが、データとは何でしょうか?
困ったらgoogle先生に聞いてみましょう。

データは情報ではない。 情報の原石にすぎない。 それが情報 となるには、目的のために体系化され、仕事に向けられ、意思 決定に使われねばならない

ドラッカーの言葉らしいですが、よく出典がわからなかったので真偽不明です。それはさておき、私の言いたいことには大体合致しているので都合よく使わせていただきます。多くの場合、こういった出典不明の名言が私のような人間によく引用されているので皆さまは引っかからないようにご注意ください。

さて、このように定義するならば、「データ」は「情報」の裏付けとして用いられる事実の羅列です。ここで最も重要なことは、「情報」として目的のために体系化されるということは、情報には見たものの解釈、もっと言ってしまえば主観が入ってしまうという点です。そして、主観は歪みを与えます。
それ即ちデータが正しくてもそれを発信している人の「情報」が正しいとは限らないということです。

2. 良いデータと悪いデータ、あるいは情報

たまにSNSで、データに良いも悪いもない、といった趣旨の発言をしている人を見かけます。
データは事実の羅列なのでそうとも言えるかもしれません。しかし、「情報」を抜き出そうとしたとき、そのデータが本当に適切かどうかを考えてみると、良いデータ、悪いデータというものは間違いなく存在します。
もしも本当にデータに良いも悪いもないと思っているのであれば、それは詐欺に騙される危険が非常に高いのでデータを見せられそうになったら急いで目を閉じることを推奨します。
それでは私の考える悪いデータ、もしくは情報についていくつか例を挙げてみます。

2-1. 「行動」に繋がらないデータ

例えばTCGでよくあるもので言えば、先手勝率です。最近は後手に色々な有利をつけて先手有利を解消しているカードゲームも多くあるので、一概には言えないのですが、例えばマジック・ザ・ギャザリングでは殆どの場合先手が有利です。
そんななかで、各環境での先手勝率を割り出し、この環境では55%だ、この環境では57%だ、というデータが出たとします。
はっきり言うと、だから何なの?という話です。
元々先手が有利といわれているゲームで、先手が有利だと言われても何の価値もありません。例えば、一般には言われていないが自分の体感が事実かを確認したり、一般に言われることが誤っていることを見つけるために使われるべきです。
データから情報を抜き出すのならば、その前後で自分の判断基準や行動が変わらなければ意味がありません。
変わらないならそのデータはただ面白いだけです。
たとえばこのデータから更に踏み込んで、先手有利の要因を割り出し、そのカードに対して有利なカードを採用するとか、企業の意見ボックスに投稿して先手有利を解消してほしいと訴えるのであれば意味がありますが、57%なんて酷い先手ゲーだ!というだけでは言うだけ無駄です。

2-2.不足しているデータ

これが最も多いと思っています。
端的に言うと、その「情報」を抜き出すには不十分なデータを見せられるパターンです。もっとはっきり言うと論理が飛躍してしまっているパターンです。

たとえばある商品の人気を測ろうとしたときに、商品のGoogleでの検索数を基に人気がある、ないという「情報」を抜き出そうとしたとします。
これはこのデータだけでは判断できません。
何故なら、まずはユーザーがどの程度Googleを使っているのか?という問題があります。中国やロシアで人気がある場合、国産ブラウザを使っている可能性も高いです。それが昔から変わらなければまだ良いですが、Googleのシェアが変わっていればそのグラフは商品に関わらずGoogleのシェアに追従してしまいます。

その商品自体がシェアを確立し過ぎていて検索されない、といったパターンも考えられます。
リリース直後に検索数もDL数も伸びたものの、慣れてくれば検索頻度も下がってくるかもしれません。検索が減っているからといってユーザー数と検索数は必ずしも一致しないでしょう。
他の商品と比較すれば価値のあるデータになるでしょうが、その商品の検索数のデータだけを見せられても判断は不可能です。
さらにはアプリの登場なども関係するでしょう。
昔はインターネットサイトにしかカードのデータが無く一生懸命検索していたが、アプリが出てからはアプリで検索するので見なくなった、なんてこともあるかもしれません。

ざっと考えつくだけでもこれだけの問題点があり、これらを解消して結論を出すには一つのグラフでは出来ないことは明白です。

アカデミックな論文を見たことがある人は分かるかと思いますが、たった一つの結論を出すために実に多くのデータを出してきます。
ひとつのデータで結論が出ることはまず有り得ないからです。

たった一つのグラフを基に何かを語っている人がいれば、黄色信号だと思いながら聞くべきです。

2-3. 偏っているデータ

不足しているデータとかなり被ってしまうので悩みましたが、これもよくある例なので取り上げます。
一番身近なもので言うと、街の100人に聞きました、といった街頭インタビューの集計です。
100人が少ない、という話も勿論あるのですが、それ以前の問題として「平日の日中に外を歩ける人間」のデータしか取れていないという問題があります。
仮に100万人に聞こうとも、研究職や事務や学校などで日中は屋内にいる人や、寝たきりの人の意見が反映されることはありません。
また、インタビューという性質上、インタビュー相手の選定や質問の仕方、態度などで少なからずインタビュアーの主観が反映されてしまいます。

もうひとつ例を挙げるならば、「トッププロでも勝率は60%程度だからTCGは運ゲー」というよく語られる言葉もそうです。
この言葉はすごく浸透していますが、私は非常に懐疑的です。理由は以下の2点。
①そもそもプロは同じくプロと戦っている
②スイスドローが主流
①については明白で、プロはそもそも我々と同じ土俵で戦っていません。対戦相手も同様にプロである場合が多く、実力の高い相手と戦っているので勝率が上がりきらなくてもそれは運のせいばかりではないでしょう。
②は、なぜかあまり語られないのですが、スイスドローという形式は勝率が上がりにくい可能性がある点です。
トーナメント方式は一回負けてしまえば終わりなので、一回の大会では負け星はひとつしかつきません。つまり、勝率が下がりにくい仕組みになっているのです。
対してスイスドローは数回負けても突破できるケースもありますし、さらに言えば大会によってはID(合意による引き分け)もあります。つまり、勝率が高くなくても勝ち上がれる仕組みなのです。
極端なことを言えば、大勢がひとつの試合に臨んでたった一人の勝者を決めるレースやゴルフのトップ選手の勝率は非常に低いでしょうが、それらを運ゲーという人はいないでしょう。

「トッププロの勝率60%程度」というデータから「TCGは運ゲー」という情報を引き出すのは私にとっては全く納得感がありません。ちなみに複数負けを重ねるスポーツで最初に私の頭に浮かんだ相撲では現横綱でも勝率65%程度でした。ただし、朝青龍は80%程度あったそうです。化け物ですね。
ここで勘違いしてはいけないのは、「だからTCGは運ゲーじゃない」とは言っていないことです。
「トッププロの勝率が60%程度であることは運ゲーであるかどうかとは必ずしも関係ない」ということです。


上記のように、「抜き出された情報に対してデータが適切に取られているか」ということは常に気をつける必要があります。

2.4 見せ方が適切でないデータ

データとして見せ方が適切でないものも多くあります。
この原因としては、グラフは「情報」と「データ」を繋ぐものであり、「情報=筆者の主観」の影響を受けるからです。
これは必ずしも筆者に悪意があるわけではありません。
筆者の到達した結論をわかりやすく表現するためにグラフが存在するため、必然的に筆者の意見が強調されたもの、あるいは意見に対して顕著な結果が出たものが選定されますし、そうあるべきです。(でなければ意味がわかりませんからね)

学術論文でも最も傾向が顕著に出たデータをチャンピオンデータと呼んで、意図的に選定したりしています。
問題なのは、これらの思いにより強調されたデータが誤解を招いたり、無視してはいけないデータを無視してしまうケースです。

例えばTCGの環境ごとの平均キルターンを表した以下のグラフがあります。

縦軸がキルターンを表しているので、BはAよりもキルターンが早く、テンポが重要な環境といえます。

・・・本当にそうでしょうか?
縦軸を見ていただいたらわかる通り、Aは9.4~9.5ターン目、Bは9.2~9.3ターン目になります。ここにどれほどの差があるのでしょうか?
どちらにしても平均して8ターンか9ターンで終わることには変わりありません。たった0.3程度の差がどれほどのものなのか、そもそも「差がある」と言ってよいのかを考える必要があります。
こういった差を考えるうえで標準偏差や分散といった値は非常に重要です。細かい説明は省略しますが、標準偏差や分散はそのデータの「ばらつき」を表現したデータです。例えば同じ平均値9.4であっても、1~19までばらついたうえでの値なのか、8~10の間でしかばらつきがない値なのかで大きく意味が異なります。
基本的には分散に基づいて「差がある」かどうかを判定するため、そもそもこのグラフをもとに「BはAより早い環境だ」という情報を抜き出すべきではありません。

ちなみにこのデータはスケールを変えてほかのデータも追加してみるとこんな感じになります。

このように縮尺とデータ数を変えてみると随分印象が変わります。
データを見るときは、サンプルサイズ、縦軸と横軸の単位とスケール、そして分散がどうなっているかに注意を払う必要があります。

もう少し詳しく知りたい方は「有意差検定」といったキーワードで検索してみてください。
ただ有意差検定絡みでひとつ重要な考え方を紹介しておくと、「差がある」といえないとき、その事象は「差がない」のではなく、「差があるとはいえない」ということです。
「差がある」と「差がない」の間には、実は「なんともいえない領域」が大きく広がっていると常に意識しておきましょう。

3. では悪いデータに意味はないのか?

ここまで悪いデータ、正確に言うと「主張する情報を裏付けするには不十分なデータ」の例を上げてきました。我々がもし研究者であるならば、こういったデータの不完全な点を補完するために多くのデータを取って完全性を追求していく必要がありますが、残念なことに、あるいはありがたいことに、我々は一般人です。

従って、データに多少不完全な点があったとしても、その不完全な点が無視できる範囲ならばそれは価値のあるデータであり、情報です。
乱暴な言い方に聞こえるかもしれませんが、我々に重要なのはデータから情報を抜き出し、自らの行動をよりよくすることです。
「大勢に影響なし」ならそれはそれで構わないのです。

どこかで「完璧なデータ」という幻想に見切りをつける一方で、データを出してきた人の主張、はたまたデータそのものを疑いながら、自らに必要な情報だけを掬い取ることがデータ活用の基本だと私は考えています。

「データの取り扱いに長けた人ほどデータもデータを使って論じている人も信用していない」というのが仕事でこれまでデータエンジニアを見てきた私の感想です。

4. さいごに

以上が私がデータを見るうえで気をつけている内容です。
ここまで読んでくださった皆さんの中には、「そもそもお前の言うことも間違っているのでは?」と思ってご自身でデータを調べ始めている方もいるのではないでしょうか。
もしそうであれば本望です。

データは常に間違っている可能性があり、疑ってかかる必要があります。いわんやデータを出して自らが見つけ出した「情報」を主張している人がいるならなおさらです。
逆に一つのことを述べるためにデータとにらめっこを繰り返しているような人がいれば、その人は信用に値すると思います。

常に出てきたデータを疑う一方で、そんなもんは誤差だ!と言って自らの行動指針に加えてしまう大胆さを同時に併せ持ちながらぜひデータと向き合っていただければ幸いです。


この記事が気に入ったらサポートをしてみませんか?