データサイエンスを独学した一年のまとめ
こちらの記事は、Towards Data Scienceの記事【How To Learn Data Science If You’re Broke】の一部の翻訳記事となりました。皆さんがデータサイエンスを勉強する時に少しでもお役に立てれば嬉しいです。\(^o^)/
__________________________________
過去一年間、私は未経験からデータサイエンティストを目指して、データサイエンスを独学しました。 オンラインコースを毎日平均6~8時間勉強すると同時に、アルバイトをしていました。
過去数ヶ月で、大きなの成果をあげました。 自分のウェブサイトができあがって、そしてコンピュータサイエンス院生向けの奨学金を得ました。
本記事では、一年でデータサイエンスをどのように勉強したか、つまりデータサイエンスの勉強法と学習リソースを伝えていきます。すこしでもお役に立てればうれしいです。
この記事の「データサイエンス」とは、データによってあらゆる事柄を客観視するためのツール集合を指しています。 それには機械学習、データベース技術、統計やプログラミングなどが含まれます。
使用した学習リソース
ネットでの学習リソースが非常に多くて、勉強しようとするとき、どんな学習から手をつければ良いのかわからないことがあるでしょう。
Dataquest、DataCamp、UdacityなどのWebサイトでは、データサイエンスについての知識が充実しています。 すべては体系的に学ぶことができるためのコースを設置しました。
問題は、上記のコースは価格が高すぎることです。 そして、実際の環境にコンセプトを活用する方法が教えられない上に、自分の深層の思考も制限されます。
edXとcourseraのコースは無料で、特定のテーマ向けののコースがあります。 もしあなたがビデオやコースの環境から知識を吸収するのが得意であれば、これらはデータサイエンスを学ぶ素敵な方法です。
Free Online Education Platforms
Class Centralで多くのデータサイエンスのコースを挙げています。その中に、いくつかのコースが無料です。
David Venturiの 記事または、 Open Source DS Mastersの伝統的な学習計画も参考となれます。
もし本を読んで勉強するのが好きなら、以下の教材を見てみよう。この教材に対応するオンライン学習コースもあります。
Data Science From Scratch
http://math.ecnu.edu.cn/~lfzhou/seminar/[Joel_Grus]_Data_Science_from_Scratch_First_Princ.pdf
データサイエンティストになるために身に着けるべきなスキルを明確にするために、これからは、具体的な学習計画を紹介します。
学習計画
Python
プログラミングはデータサイエンティストとしての基本スキルです。 Pythonの言語に熟練し、さまざまな方法でPythonプログラムを実行する方法を学ぶ必要があります。 (Jupyter notebook VS コマンドライン VS IDE)
PythonのドキュメントとCodeSignal上のプログラミングの課題、私はほぼ一か月をかかって勉強しました。
https://docs.python.org/3/tutorial/
https://docs.python-guide.org/intro/learning/
統計と線形代数
これは機械学習とデータ分析の前提条件です。この方面で基礎知識を持っているなら、コンセプトを理解して整理するのに1〜2週間かけることをお勧めします。
記述統計に特に注目してください。データセットを理解できることは非常に重要なスキルです。
Numpy,Pandas,Matplotlib
データの読み込み、操作およびデータ可視化の方法を学ぶこと。 これらのライブラリを習得することは、個人的なプロジェクトにとって重要です。
http://pandas.pydata.org/pandas-docs/stable/
https://docs.scipy.org/doc/numpy/user/index.html
https://matplotlib.org/tutorials/index.html
これらのライブラリを習得する唯一の方法はよく使用することだと覚えてください。
機械学習
機械学習アルゴリズムの理論と応用を学んで、学習したコンセプトを実際のデータに応用すること。
ほとんどの初心者は、UCI ML Repositoryのデータセットの使用からはじめ、データを利用して機械学習のチュートリアルを参照します。
Scikit-learnのドキュメントに、アルゴリズムのアプリケーションに関する質のよいチュートリアルがあります。
http://scikit-learn.org/stable/
生産システム
タスクを引き受けることは、実際のデータを取得して行動に変換することです。従って、業務のリソースを利用することでデータを取得、変換、および処理する方法を学習する必要があります。
これは、データサイエンスコースにおける最も基本的な部分です。 使用するツールは業界によって異なります。
ただし、データベースの操作は必須のスキルです。 ModeAnalyticsやCodecademyでコードによってデータベースの操作を学ぶことができます。また、 DigitalOceanで自分のデータベースを実装できます。
もう一つの必須のスキルは、バージョン管理のことです。このスキルを身につけるには、 GitHubアカウントを作成し、コマンドラインでコードを送信するのをお勧めします。
ほかのスキルの学習といえば、まず興味か関心がどこにあるかを考えるべきです。 Web開発に興味がある方は、この業界の企業に使用されているツールに注目してください。
まとめ
データサイエンティストになるのは絶対簡単なことではありません。学習を続けていくには、忍耐力と自己制御力が必要です。 データサイエンティストとしては、いつも好奇心を持って答えを見つけようとしています。