見出し画像

【Suphx論文解説③】5つの戦術モデル


前回は「Suphxの全体像を知ろう」というテーマでSuphxの行動決定フローを紹介しました。


Suphxの行動決定フローでは「5つの戦術モデル」が用いられています。このモデルはどれくらい正確なのでしょうか?今回はその精度について補足していきます。

5つの戦術モデル

Suphxでは下記の5つの戦術モデルを用意しています。

・打牌選択モデル(Discard model)

・リーチ判断モデル(Riichi model)

・チー判断モデル(Chow model)

・ポン判断モデル(Pong model)

・カン判断モデル(Kong model)

※モデルというのは「学習済みのAI」みたいなイメージです。

行動決定フローの緑の◇で各モデルが使われています。

画像1



戦術モデルの精度

論文では各モデルに関する評価について言及されています。

画像2

真ん中のTest Accuracyというのが「人間のトッププレイヤーの判断とどれだけ近いか」を表す数値です。後述しますが、ここでいうトッププレイヤーとは鳳凰卓でプレイしている七段以上の打ち手だと思われます。鳳凰卓のプレイヤーとどれだけ近いかを表していると思ってください。

まず打牌選択モデル(Discard model)は精度が76%と低いですが、これは仕方がありません。他のモデルは「〇〇する/しない」の2択で精度評価しているのに対して、打牌選択は麻雀牌34種類で精度評価をしているからです。とは言え、既存研究の68.8%と比べれば飛躍的に良くなったと言えます。Suphxの打牌選択は従来のAIよりも正確です。

リーチは85.7%とまずまずの精度です。天鳳ではラス落ち回避のためリーチ判断はかなり難しいと思われます。平場ならリーチだけどここはダマ…というのは割とあるはず。トッププレイヤーこそリーチ判断は繊細になると思われるので、精度が伸び悩むのも仕方ないですね。Suphxにツモ切リーチが多いのはここに原因があるのかもしれません。それだけリーチ判断というのは難しいものなのでしょう。なんでもかんでもリーチというのは時代遅れなのでしょうか?

ポン、チー、カンは90%超の精度。ほとんど人間に近いです!Suphxの鳴き選択はかなり信頼して良さそうです。ただし、チーに関しては「どう鳴いたか」の晒し方について言及がありません。「鳴くのはいいけどその形か?」という疑問は謎のままです。

論文には明記されていませんが、おそらく鳳凰卓の牌譜が学習データとして用いられていると推測されます。Suphxのデータセットの規模は東京大学の麻雀AI「爆打」とほぼ同じで、爆打は鳳凰卓の牌譜だけを用いているためです。


今回は5つの戦術モデルの精度に関して補足しました。次回はそれらがどのように設計・実装されているのかをまとめたいと思います。

いいなと思ったら応援しよう!