【Suphx論文解説③】5つの戦術モデル
前回は「Suphxの全体像を知ろう」というテーマでSuphxの行動決定フローを紹介しました。
Suphxの行動決定フローでは「5つの戦術モデル」が用いられています。このモデルはどれくらい正確なのでしょうか?今回はその精度について補足していきます。
5つの戦術モデル
Suphxでは下記の5つの戦術モデルを用意しています。
・打牌選択モデル(Discard model)
・リーチ判断モデル(Riichi model)
・チー判断モデル(Chow model)
・ポン判断モデル(Pong model)
・カン判断モデル(Kong model)
※モデルというのは「学習済みのAI」みたいなイメージです。
行動決定フローの緑の◇で各モデルが使われています。
戦術モデルの精度
論文では各モデルに関する評価について言及されています。
真ん中のTest Accuracyというのが「人間のトッププレイヤーの判断とどれだけ近いか」を表す数値です。後述しますが、ここでいうトッププレイヤーとは鳳凰卓でプレイしている七段以上の打ち手だと思われます。鳳凰卓のプレイヤーとどれだけ近いかを表していると思ってください。
まず打牌選択モデル(Discard model)は精度が76%と低いですが、これは仕方がありません。他のモデルは「〇〇する/しない」の2択で精度評価しているのに対して、打牌選択は麻雀牌34種類で精度評価をしているからです。とは言え、既存研究の68.8%と比べれば飛躍的に良くなったと言えます。Suphxの打牌選択は従来のAIよりも正確です。
リーチは85.7%とまずまずの精度です。天鳳ではラス落ち回避のためリーチ判断はかなり難しいと思われます。平場ならリーチだけどここはダマ…というのは割とあるはず。トッププレイヤーこそリーチ判断は繊細になると思われるので、精度が伸び悩むのも仕方ないですね。Suphxにツモ切リーチが多いのはここに原因があるのかもしれません。それだけリーチ判断というのは難しいものなのでしょう。なんでもかんでもリーチというのは時代遅れなのでしょうか?
ポン、チー、カンは90%超の精度。ほとんど人間に近いです!Suphxの鳴き選択はかなり信頼して良さそうです。ただし、チーに関しては「どう鳴いたか」の晒し方について言及がありません。「鳴くのはいいけどその形か?」という疑問は謎のままです。
論文には明記されていませんが、おそらく鳳凰卓の牌譜が学習データとして用いられていると推測されます。Suphxのデータセットの規模は東京大学の麻雀AI「爆打」とほぼ同じで、爆打は鳳凰卓の牌譜だけを用いているためです。
今回は5つの戦術モデルの精度に関して補足しました。次回はそれらがどのように設計・実装されているのかをまとめたいと思います。