Courseraのデータサイエンス専門講座を受けた感想その2
Courseraのデータサイエンス講座の2コース目、3コース目を受講しました。1コース目の受講感想はこちらになります。
Rプログラミング
2コース目はRプログラミングについてのコースです。Rプログラミングが生まれた経緯から、基本的な構文を学べました。こちらに関してはRプログラミングに関するWebサイトや書籍がすでに多くあるので、時間に余裕がなかったり、もうすでに知っている人は飛ばしてしまっても良いコースだと思いました。
また、この講座だけでRプログラミングをかけるようになるには少し厳しく感じました。もししっかり学びたいのであれば、講座が推奨する書籍やWebサイトを閲覧しながら学習すると良いかと思います。
このコースの1番のメリットは他の受講生と相互にコードレビューをしてもらうことができることだと思います。これだけを試してみても良いかと思いました。
データの取得とクリーニング
このコースではまず最初にデータの概要を学びます。綺麗なデータとは何かということから始まり、様々なデータ形式をについて学びました。本講座では綺麗なデータは、
●測られた各変数は1つの列に入る
●その変数を観測した各観測結果は1つの行で表される
●1つのテーブルには各変数で様々な値を取る
●もし複数のテーブルがあるなら、テーブル同士を関連づけられる列を含んでいる
の4つを満たしているものとしています。そしてそのデータは、Excel、XML、JSONなどのデータ形式で表現され、その読み取りをRプログラミングでどのように読み取るかを解説しています。
さらに高度なデータの読み取りとして、MySQL、HDF5、 Web、APIなど様々なデータソースが紹介されています。MySQLはすでに有名で多くの資料があります。HDF5は階層化データ形式のことで、こちらは日本語の記事があまりないので、これを読み取る方法を学習できるのはよかったと思います。他にもWebスクレイピングや公開されたAPIを叩く方法などを学習できます。ただ、この2つは気をつけて使わないいけないので要注意です。その他にも公開されているデータセットの紹介がされています。今ではKaggleやGoogleなどでもデータセットの公開がされているのでそれほど困らないと思います。
データセットを取得しても、ほとんどのデータセットはそのままではとても綺麗なデータとはいえないので、まずデータを整形する必要があります。次はRプログラミングでどのようにデータを綺麗にするかについて学びます。データの平均、分散を知り、必要な変数を追加してよりデータを扱いやすくする方法から、複数のデータを整形し、マージすることでデータを綺麗にするまでの方法を学ぶことができました。
その他にも、Rプログラミングでの正規表現や日付の扱いを学べます。これらを駆使して、データを綺麗にする方法を学びました。
まとめ
Rプログラミングの基本的なことはこの講座で受ける必要性はあまり感じませんでした。もうできる人は飛ばしていいし、知らない人もこの講座でなければいけないということはないと思います。
データ取得とクリーニングは、データを取れる場所を知るのにはいいかと思います。また、知らないデータ形式については導入として学べるのも利点かと思います。特に、クリーニングの流れは知っておくと役に立つのではないかと思いました。
この記事が気に入ったらサポートをしてみませんか?