ベンチマーク・評価関数を売ります(仮)
皆様は"Holiday Hole(日本語訳は例えばこちら)"という企画をご存知でしょうか。意味もなく大穴を掘るだけのクラウドファンディング企画で「5ドルごとに5秒ぐらいドリルが回せる」と謳って賛同者から資金を集めてアメリカの大地に大穴を穿ったそうです。凄くないですか。同じ企画をやってみたくなりませんか。Qhapaqチームはやりたくて仕方ないです。これをコンピュータ将棋語に翻訳すると以下のようになります。
皆様から資金を集め、100円につきV100換算で一時間程度(+手元のGPUが空く限り)学習を回します。採掘した出来上がった評価関数を資金提供者に配布します。onnxはもちろんpthファイル(追加学習ができるモデル)も配布します。深層学習モデルがサイズアップするたびに強くなることを鑑みれば、今公開されている評価関数よりも大きいモデルで学習させることで、より強い評価関数が作れる可能性は十分あるでしょう。本企画が無事に回れば巷に公開されている教師データをdlshogiで再学習するといった、ここ1年で将棋AI開発者の4割ぐらいは試したであろう無意味な二酸化炭素排出を大幅に削減することができます。電竜戦の後援にデジタル庁がいるにも関わらず、SDGsを無視してほとんど中身の違わないSGDを回しまくる開発者たちが環境保護団体に野菜スープをかけられる危険性も大幅に下がることでしょう。
この企画を行う上での我々の強みは、ある程度の強さを持った深層学習モデルを作った実績があることと、振り飛車評価関数作成の実績があることです。第三回将棋世界電竜戦でQhapaqチームが作った評価関数(2021年に公開されたdlshogiと同程度の強さ)を作るときにはV100で200時間の計算が必要でした。これを作るにはV100クラウド換算で数万円オーダーのお金がかかる計算ですが、元々のdlshogiの学習に比べれば10倍程度効率的であると思われます。また、我々は将棋世界電竜戦で3年連続で「振り飛車AI最強」の称号を手に入れるなど、棋風調整をした評価関数作成についても経験と実績があります。振り飛車深層学習モデルなどのニーズにも応えることができるでしょう。
本企画は大会で勝つための施策というよりは公共事業に近い意味合いを持っています。Qhapaqチームは来年の大会でも資金提供者が希望しない限りは手元にたまたま転がってたGPUとCPUで参加して飛車を振る(そして多分負ける)ことになると思います。上位ソフトに土をつける仕事は他の開発者に任せて我々は土を掘ります。しかし、車輪の再開発を止めることやご家庭で使われる将棋ソフトの質が上がることは、将棋盤にAIを嵌めるための大規模な定跡を掘ることを越え、アメリカの大地に穴を掘ることにも匹敵する意味をもたらすだろうと信じています。
【現状の探索計画】
・まずは、第三回将棋世界電竜戦でQhapaqチームが作った評価関数と同じアーキテクチャ(dlshogiの15layerの1.1倍程度のサイズ)に対して教師データを倍増させたもので再学習を行います。予想される計算時間はV100換算で200~300時間程度であり、互角局面での強さ換算でdlshogiの公開モデルと同等(期待通りに動けばそれ以上)のものができる見込みです。
・仮に賛同者が一人も出てこなかったとしても、第一回将棋世界電竜戦の賞金で買ったRTX3080がある(計算条件次第ではありますがV100の20%〜30%ぐらいの速度?)ので2ヶ月弱ぐらいかければ学習はできる見込みです
・学習が終了し次第、学習結果を解析して教師データを増やすか20layerでの学習を行うかを検討します。
・必要とニーズに応じて深層学習モデル以外の掘削も行う予定です。また、ベンチマークなどの各種検証記事も提供します。
【調査・検討中の事項】
・頒布価格を検討中です(twitterでのアンケートによると100円ぐらいで済ませて欲しいという人と500円以上でも欲しいという人がいるので、例えばonnxは100円、pthは500円とかでしょうか)
・各種モデルの学習にはDeepLearningShogi(dlshogi)、やねうら王、および、強い将棋ソフトの創りかたのコードやデータなどを使っております。これらのデータやコードを使って作成した評価関数を売ることが可能であるか(現状、可能だと理解しています)を確認することに加え、これらのデータを公開している人たちに利益が還元される仕組みを作ることを考えています。dlshogiを用いた評価関数の追加学習可能なモデルについては以下のようなライセンスが追加される見込みです(よーは、本を買って山岡さんたちに還元してねということです)
・教師データを公開する予定はありません。巨大な教師データの維持コストが高いのと、上述のように他の開発者が作ったデータを含んでおり「俺達のデータだ」と主張するのが適切ではないからです
強い将棋ソフトの創りかたの購入者は、このモデルから追加学習したモデルを公開、各種将棋大会でご利用いただけます。ご利用の際には本モデルを使ったことを明記していただければ幸いです。 DeepLearningShogiの利用、および、強い将棋ソフトの創りかた付録のnotebookを利用する際にはそれらのライセンスにも準拠するようにしてください。