【書評】kaggle初心者にオススメの一冊「kaggleのチュートリアル」の紹介
技術書典6にて第3版が販売されることに合わせて、noteで販売されている内容も更新されていたので読み直しました。
本の特徴
日本語で Kaggleの使い方を説明している日本で唯一の本。
第一部の内容はKaggleというプラットフォームに備わっている機能・要素の説明、コンペに自分の結果を登録するSubmitまでのやり方の紹介しているのでリファレンス代わりに使うと良いと思う。
第二部がタイタニックデータを用いた、Kaggleの精度を上げるポイントの説明、キモはここだと思います。本の内容と共にKaggleのカーネルを動かしながら進めると理解しやすいと思う。
付録は本編の補足が書いてあると思いきや本人のメダル取得までの何をやったかや過去コンペをどう取り組んだかの日本語解説ありとどの部も見逃せない内容になっている。
購入した理由
技術書典4で第1版が発売された際にnoteの電子版を購入しました。第3版までの更新が無料でされているため最新版が読めています。
約1年前私もkaggle初心者で何をしたらいいかわからないという状態でしたのでちょうどタイミングよく技術書典4でこちらの本が販売されるということを知り購入、kaggleに挑戦することでたくさんのことを学ばさせていただきました。
対象読者
対象読者はKaggleやったことない人向け、とありますが個人的に付録に記載されている著者のcurrypurinさんのkaggleに9ヶ月取り組んで学んだこと 、Santander Value Prediction Challengeで金メダルを獲得しました 、くるぴーさんの寄稿、HomeCreditコンペ 銀メダル獲得するために行ったことを読めるという点ではkaggle経験者も対象に入ってくると思います。
Leaderboardの説明(p14 ~16)
Kaggleのスコアと言うとPublicスコアとPrivateスコアが存在し、これらの違いを理解しようとするとちょっとややこしい。初見からするとわかりにくい仕様のため、図を使ってわかりやすく説明されていたのは嬉しい点だと思います。
Optunaを使ったハイパーパラメータの最適化(p75~)
去年の末頃に登場したOptunaについて言及していたところは常に本の内容を更新しているからこそできる良い点だと思いました。
「とりあえずSubmitする」の重要性(p94 / p107)
この点についてはcurrypurinさんもくるぴーさんも言及されていました。Submit→スコア表示→改良のループに入るためにはまずなんでもいいからSubmitしないと始まらない。1Submitするとそれを超えるようなアイディアを盛り込んで改善してゆくだけなので精神的に楽になるかなと。
コンペにどれだけ時間をかけられるか(p91 / p108)
なお、私の場合は大量に時間を投入できたという特殊性がありますので、簡単にゴールドメダルを獲得できるということではないと思います。
専業Kagglerになったからこそ大量に時間をかけられた。我々平均的な社会人にとって平日や休日に大量に時間を割けるかというのは結構大きな問題だと思います、それができるかできないかでメダルがとれるかとれないかの境目になるため、取り組むコンペにどれだけ時間を割けるのかというのは参加する際にある程度見積もっておくとよいのかもしれません。
ただ最初に挑戦するコンペはどれだけ時間がかかるか目安を立てるのも難しいと思うので深く考えずに参加してしまってもいいと思いますよ。
最後に気になったのはcurrypurinさんがゴールドメダルを獲得できた際はどれだけ時間をかけたのかという点ですね。リアルで会うことがあるので聞いてみたいなと思います。
まとめ
「kaggleのチュートリアル」を紹介させていただきました。また内容の更新があれば読み直して書評も更新したいと思います。
気になった方はnoteで販売してますので是非!
読んでいただきありがとうございます😄 Twitterでも呟いています 👉https://twitter.com/wakame1367