Googleデータアナリティクスで、データを「クリーンに処理」することについて学んでみた(全8コース中、コース4を終了)
みなさん、こんにちは。
ぼくは最近、データサイエンスに興味を持ち、Googleの「データアナリティクス」というオンライン講座を受講しています。
今回ご紹介するのは、4つ目のコース「処理」の内容です。(過去分はこちら→ 1、2、3)
このコースでは、おもにデータを「クリーンに処理」することについて学びました。
講座では、SQLやGoogleスプレッドシートといったツールを活用し、データを分析しやすい形へと変換していく方法を重点的に学習。
とくに印象に残っているのは、たんなるデータ処理の技術にとどまらず、「履歴書の書き方」までレクチャーされていたこと!
これは、データ分析で得た知見を、実践的なキャリアに活かすための、非常にユニークなアプローチだと感じました。
今回は、このコースのなかで特徴的な3つの内容をザックリとご紹介!
SQLは奥深い!
以前、42Tokyoの課題でSQLに触れたことがありましたが、今回の講座ではより実践的な内容を学ぶことができました。
具体的には、DISTINCT、TRIM()、SUBSTR()、CAST()、CONCAT()、COALESCE()といった関数の使い方を学習。
これらの関数はどれもはじめて使うものばかり。
しかし、丁寧な解説と演習を通して、それぞれの役割と使いどころを理解することができました。
また、講座のなかでは興味ぶかい事実もいくつか学びました。
たとえば、「標準SQLは、データベースによって自動的に他の方言に変換されない」ということ。
つまり、データベースの種類によってSQLの方言が異なるため、方言ごとに、書き方を変えなければいけないということです。
Googleスプレッドシートでデータクリーニング
Googleスプレッドシートは日常的に使っていましたが、今まで知らなかった機能を活用したデータ処理方法を学びました。
具体的には、空白文字の削除、重複データの削除、検索と置換、グラフの挿入といったテクニック。
なかでも役立ったのが、VLOOKUP関数、TRIM関数、LEFT関数、RIGHT関数、SPLIT関数といった関数の使い方です。
これらの関数は、それぞれ異なる役割を持ちますが、組み合わせることで複雑なデータ処理を効率的に行うことができます。
効果的な履歴書の書き方:PAR形式
データ分析で培ったスキルを活かすためには、分析結果をわかりやすく伝える能力も重要です。
講座では、PAR形式と呼ばれる履歴書の書き方を学びました。
これは、Problem(課題)、Action(行動)、Result(結果)の3つの要素を順番に記述することで、自身のスキルや経験を具体的にアピールする方法です。
たとえば、「月に2つのブログを運営した」という経験を、単に羅列するだけでは印象に残りません。
しかし、「戦略的なブログ運営により、マイナーなウェブサイトで2,000以上の新規クリックを獲得した」というように、PAR形式で記述することで、より説得力のある表現になります。
まとめ
4つ目のコース「処理」では、GoogleスプレッドシートとSQLを使ったデータクリーニングの仕方を学びました。
このコースは「約9.5時間」で修了することができ、これまで受講してきた全コースのトータルの受講時間は「37時間」ほど。
データ分析は、一見難しい学問のように思えますが、Googleデータアナリティクスのようなオンライン講座を活用することで、比較的短期間で、基礎的な知識とスキルを身につけることができるのではと考えています。
今後学んだ知識を活かして、実際にデータ分析に取り組んでいきたいと思います。
当ブログ記事が、データ分析に興味を持っている方にとって、少しでも参考になれば幸いです。
・・・・・・・