見出し画像

データ分析初心者向けおすすめ本のご紹介 〜第3弾・データ集計力編〜

メルカリAnalyticsチームの@na0です。

今回は、データ分析初心者の方向けのおすすめ本 第3弾として「データ集計力」に関する本を紹介します。

同シリーズのものはこちらをご覧ください。

おすすめの本を@nambさん、@takeさんに聞いてみました。
@nambさんも@takeさんも、Analytics Infraチームで、データ分析を行う環境全体の改善に取り組んでいます。

データ活用を支える側の目線で、データ活用を学びたい方におすすめしたい情報をまとめております。

はじめに 〜データ集計力の重要性について〜

前回紹介した「分析設計力」で描いた道筋を実現するために、「データ集計力」が重要になります。良質な問いを見つけたら、それを正しく検証する必要があります。検証手段を知ることで、問いを検証可能な形に落とし込むことができます。それに加えて、継続的に問いを検証するには、データ集計の効率を考える必要があるかもしれません。
今回は、問題を検証する手段としての「データ集計力」の重要性と、それを学ぶための書籍を紹介します。

1. 10年戦えるデータ分析入門

@nambさんおすすめの本がこちら。SQLを使ったデータ分析に関する書籍です。@nambさんが5年前、デジタルマーケティングの一貫でアクセスログを解析する際に、初めて読んだSQL集計に関する本だそうです。当時、先輩から業務で必要と言われたため真面目に全部読んだそうですが、実際のところどうだったのかをnambさんに聞きました。

この本はどんな内容ですか?

nambさん:データベースとは何かの説明から入り、簡単なSQLから、徐々に複雑なデータ分析に向かって説明してくれる本です。例えばWHERE句で行を絞るところから、ウィンドウ関数で複雑な集計を行うところまで解説があります。アクセスログにおけるセッション分析なども章立てされており、当時のチームの実務に近かったことを覚えています。
実際のクエリ例が書いてあるため、この本で縦持ち変換などの概念を理解した上で、ウェブ検索で他のクエリ例も確認する、というように組み合わせて使うことが多かったです。「こういう集計はできないのかな?」という時にこの本を見て、「あるぞ!BigQueryでどう書くんだろう」をウェブ検索して書くという形で役立てていました。

この本のおすすめの点は何ですか?

nambさん:ある程度技術が網羅されており、初めてSQLで集計・分析する環境に飛び込んだ人などにはおすすめです。できること別に目次が組まれているので、必要そうなところを探しやすいのもおすすめです。この本は2015年の本で、最新の内容を知るためには別な本も併せて読みたいところですが、SQLを使ったデータ分析全体の基礎的な理解に活用できます。
もっと分析クエリの具体例を知りたい場合には、クックブック系の本(『ビッグデータ分析・活用のためのSQLレシピ』など)も参照すると良いと思います。

この本のおすすめの使い方を教えてください。

nambさん:目次だけ読んでおいて、実際の集計で気になった時に引く、という使い方がおすすめです。例えば、「一緒に購入されやすい商品を集計する」といった具体的なユースケースが目次に載っているため、データ集計のやり方で悩んだ時に見ると一発で答えが見つかるものもあるかもしれません。関数名や変換の仕方などが分からず、検索キーワードが思い浮かばない時でもユースケースで調べられるのが便利です。
この本以外にも入門書を調べると大量に出てくるので、何冊か目を通して、その後は利用する環境に合わせたやり方を調べていくと良いと思います。できると知らなければやろうと思えず、知識がボトルネックになってしまいます。SQLでこれができる、という索引が自分の中にあることが重要だと感じています。

2. 集中演習 SQL入門 Google BigQueryではじめるビジネスデータ分析 できるDigital Camp

次に、@takeさんに紹介してもらった本がこちら。この本もSQLを使ったデータ分析に関する書籍ですが、より演習に重きが置かれています。@takeさんが以前勤めていた会社では、クエリとデータの品質を確保するため、データ抽出を行う部門がレビュー等を経て各部門にデータを渡していたそうで、メルカリの各部門で自由にデータを使っている環境(BigQueryの月間利用者が900人以上)に驚き、データ利用者のことを理解するために読まれたそうです。

この本はどんな内容ですか?

takeさん:この本には、基礎的なSQLの書き方からウィンドウ関数の書き方までの説明に加えて、演習系の課題が豊富に載っています。演習を一通りやると、どういった分析にどんなクエリが必要で、どんな形でデータがとってこられるのかが理解できます。BigQueryを利用するのが初めてだったので、演習がBigQuery向けに作られているこの本は都合がよかったです。

また、データが整備された環境で、データを取得し分析することに軸をおいた本になっています。既に基盤があることが前提にはなりますが、十分に整備された環境のアナリストにとっては読みやすい本だと思います。細かい関数の使い方も載っており、ある程度高度な分析までがターゲットになっています。

読んで得た知識を業務でどのように活用していますか?

takeさん:私が所属しているAnalytics Infraチームでは、各部門のBigQuery利用者の方が参照するテーブルやテーブルを作成するためのパイプラインを作っています。この本を読んで、実際に利用者が行うデータ分析の目的の理解に繋がりました。例えば、BigQueryは配列などの複雑なデータも保存できますが、そうした複雑なデータが活用可能かどうか、利用者にとって優しいデータの提供方法を想像しやすくなりました。

また、どこまで利用者にやってもらうかを想像しながら検討できるようになったのもよかったです。データが広く共有され、利用者自身が必要なデータを簡単に取り出せる環境を十分に活かすためには、利用者全員が正しくデータを扱うための知識を持つ必要があります。これは非常に難しいことで、利用者全員にその知識を持ってもらうべきかは考え続けたいと思っています。例えば、マーケティングのチームの仕事の大半が検証用のデータ作成に費やされていたら問題になるはずです。引き続き、メルカリの自由なデータ活用文化を活かすデータ環境を整えていきたいと思います。

一方で、私の業務で必要なクエリの効率的な書き方やパフォーマンスを上げる方法、非正規化を行う方法は記載されていません。大規模なデータの分析を運用するためにはパフォーマンスの良いデータとクエリをつくるスキルが必要です。本書で学んだ利用者にとって優しいデータのあり方とは別な観点として、学んでいきたいと思います。

おわりに

今回、2人のデータアナリストから「データ集計力」について聞きました。良質な問いを、正しく検証するために、データ集計の能力を欠かすことはできません。今回紹介した2冊の本は似たような本も多いため、何冊か読んで自分自身の中に索引をつくり、実践の時に思い出せるようにしておくと、データ集計の能力を補ってくれます。
データ集計する方法を知ることで、より良い問いの設計やより良い検証ができるようになります。今回はSQLに関する本の紹介になりましたが、他にも大規模なデータと戦うための言語や環境はたくさんあります。他の検証方法の得手不得手も知ることで、たくさんの検証方法の手札を持ち、事業に貢献していきましょう。

第4弾は「データ可視化力」に関する本をご紹介する予定です。ぜひ @mercari_data をフォローしてチェックしてください。お楽しみに。

▼採用情報サイト・関連記事はこちらから

いいなと思ったら応援しよう!