Kaggleとは何か 【Kaggle チャレンジ1日目】
KaggleでExpertsを取れるまでの間、考えたことを残そうと思いました。
見てくれる方よろしくお願いします。
Wikipediaによると
Kaggle(カグル)は企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社である。
とあります。
2017年3月8日、GoogleはKaggle社を買収されたようです。
@IT Kaggleはじめの一歩:Kaggle入門という記事がわかりやすかったので少し紹介させていただきます。
Kaggleでできること
Competitions
Kaggleといえばこれという感じですが、課題投稿者に与えられた課題に対して取り組むというもののようです。
Datasets
Competitionsに関連するデータを投稿して共有したり、他の人が投稿したデータを探したりできるというもののようです。
Notebooks
Kernelとも呼ばれるようですが、PythonやRのコードを書き、実行することができるページのようです。
高速で処理ができるGPUやTPUを無料で使うことができて、データがあらかじめインプット(input)された状態となっているところが便利そうです。
Discussions
Competitionに関連する議論が行われているようです。
いろんな記事で始めたらKernelを読めと書いてあるので、Kernel読みながらCompetionに出てみるというのが良いかもしれません。
Kaggleのランクは5つのTierがある
上記の4つのKaggleの機能でランクが付与されるようです。
Grandmasters :5つの金メダル、単独での金メダルを獲得
Masters :1つの金メダル、2つの銀メダルを獲得
Experts :2つの銅メダルを獲得
Contributors:
・プロフィールを完成
・コミュニティに参加
・Kaggleのプラットフォームを一通り見る
・1回NotebookかScriptを実行する
・1回Competitionかtaskを提出する
・1回Commentを残す
・1回upvote(賛成票)を投じる
Novice:初期のランク
最近ではデータサイエンティストとして入社したら、Expertを取らせる会社などもあるようで、Expertsは登竜門的な位置のようです。
今回Expertsを目標にしたのもこれが理由です。
ちなみに金メダル、銀メダル、銅メダルが付与される条件です。
Competitionで取りたいので、Competionだけ載せておきます。
Kaggleの公式から引用
参加者数によりますが、ざっくりTop10%のラインが銅メダルのようです。
コンペティションの種類
Getting Started:入門コンペティション。有名なタイタニックコンペティションはこの形式。
Playground: 入門よりも難易度が一段階上の「お楽しみ」コンペティション。小額の賞金や景品が獲得できる場合が多い
Featured: 一般的なコンペティション。賞金やメダルが獲得できる
Research: Featuredよりも「実験的な問題」を扱うコンペティション。賞金やメダルが獲得できる。
上からやっていくのが良さそう。
初心者向けコンテンツ
オンライン学習プラットフォームのCoursera
・Andrew Ng先生のMachine Learningコース
・「How to Win a Data Science Competition: Learn from Top Kagglers」
公式→Coursera
の順番でやろうと思います。
これからやること
ここまで読んでいただきありがとうございました。
機械学習やデータの扱い方についてまだ怪しいところがあるので、まずは公式の教材からやろうと思います。ページ開いたら60hと書いてありました。
週に20hやって3週間ほどかなと思いました。
その後でCourseraを見ながら、Kernelなどを読んでいく。
Andrew先生の講座は59hでした。同様に3週間くらいかかりそうです。
Learn from Top Kagglersは52hでした。2.5週間と考えると8.5週間。
そしてなんとなく流れがわかったらCompetionに取り組んでみるの流れにしたいと思います。
2ヶ月と少しかけて基礎が終わるという感じでしょうか。
このペースで行けるならこんなにスムーズなことないですが笑
また進捗をNoteで書こうと思います。読んでいただきありがとうございました。
この記事が気に入ったらサポートをしてみませんか?