【Suphx論文解説③】5つの戦術モデル

sen1113

2020年10月12日 16:52

前回は「Suphxの全体像を知ろう」というテーマでSuphxの行動決定フローを紹介しました。

Suphxの行動決定フローでは「5つの戦術モデル」が用いられています。このモデルはどれくらい正確なのでしょうか？今回はその精度について補足していきます。

5つの戦術モデル

Suphxでは下記の5つの戦術モデルを用意しています。

・打牌選択モデル（Discard model）

・リーチ判断モデル（Riichi model）

・チー判断モデル（Chow model）

・ポン判断モデル（Pong model）

・カン判断モデル（Kong model）

※モデルというのは「学習済みのAI」みたいなイメージです。

行動決定フローの緑の◇で各モデルが使われています。

戦術モデルの精度

論文では各モデルに関する評価について言及されています。

真ん中のTest Accuracyというのが「人間のトッププレイヤーの判断とどれだけ近いか」を表す数値です。後述しますが、ここでいうトッププレイヤーとは鳳凰卓でプレイしている七段以上の打ち手だと思われます。鳳凰卓のプレイヤーとどれだけ近いかを表していると思ってください。

まず打牌選択モデル（Discard model）は精度が76%と低いですが、これは仕方がありません。他のモデルは「〇〇する/しない」の2択で精度評価しているのに対して、打牌選択は麻雀牌34種類で精度評価をしているからです。とは言え、既存研究の68.8%と比べれば飛躍的に良くなったと言えます。Suphxの打牌選択は従来のAIよりも正確です。

リーチは85.7%とまずまずの精度です。天鳳ではラス落ち回避のためリーチ判断はかなり難しいと思われます。平場ならリーチだけどここはダマ…というのは割とあるはず。トッププレイヤーこそリーチ判断は繊細になると思われるので、精度が伸び悩むのも仕方ないですね。Suphxにツモ切リーチが多いのはここに原因があるのかもしれません。それだけリーチ判断というのは難しいものなのでしょう。なんでもかんでもリーチというのは時代遅れなのでしょうか？

ポン、チー、カンは90%超の精度。ほとんど人間に近いです！Suphxの鳴き選択はかなり信頼して良さそうです。ただし、チーに関しては「どう鳴いたか」の晒し方について言及がありません。「鳴くのはいいけどその形か？」という疑問は謎のままです。

論文には明記されていませんが、おそらく鳳凰卓の牌譜が学習データとして用いられていると推測されます。Suphxのデータセットの規模は東京大学の麻雀AI「爆打」とほぼ同じで、爆打は鳳凰卓の牌譜だけを用いているためです。

今回は５つの戦術モデルの精度に関して補足しました。次回はそれらがどのように設計・実装されているのかをまとめたいと思います。

【Suphx論文解説③】5つの戦術モデル

5つの戦術モデル

戦術モデルの精度

いいなと思ったら応援しよう！