データサイエンスものがたり #1 2020年8月〜2021年1月
※何を持ってデータサイエンティストであるかの議論は置いといて、こんなやつもいるぞ面白いなー、のテンションで見ていただけると幸いです。
何もわからず始まったデータサイエンス
統計分野は大学で少しかじってはいたのですが、ほぼ未経験の状態でした。社長に会社をデータサイエンスが強い会社にしたいと言われ、何もわからず始めました。
数値を扱うの自体はそこまで苦じゃなかったことと、会社のビジネスモデルや色んな業界の動向を見るのは好きだったので、ドメインやビジネスの全体的な理解はOK。データサイエンスの知識はやりながら身につけてくれというのがアサインの理由でした。
プログラミングに関してはPython, JavaScript, Node.jsなどは軽くAPIを叩いたり、ちょっとしたスクリプト書くくらいなら書けました。
ごくたまにですが、役立ちました。
今のところはコードを書かなくても大部分の業務は事足りてしまっています。
SQLはデータサイエンスをはじめてからSELECT文はかけるようにしました。
メルカリのテックブログに出会う
とにかく何をして良いかわからなかったので、参考になりそうな会社をひたすら探しました。メルカリのテックブログの記事を見て、データサイエンスのざっくりとした構造がわかったような気がして、とにかく漁りました。
スプレッドシート、Google Bigquery、Google Data Portalがあれば一旦できそうだとなったのを覚えています。
またデータサイエンティストの一日やプロジェクト手順のようなことも書いてあってイメージを少しだけつけることができました。
ちなみに一番最初のプロジェクトは社内にとってあるGoogle AnalyticsのデータやFacebookやFacebook ADなどのデータをひたすらBigqueryに移して、Google Data Portalで出力しようというものでした。
過去1の愚策、Bigqueryに全部ぶち込もうプロジェクト
今考えるとその頃のMySQLなどのDBを含めても1000行いくデータがあるかないかのデータ量しかなく、Bigqueryに入れて管理するほどのものはなかったので、ギャグみたいなプロジェクトなのですが、良い思い出です。
相談に乗っていただいた他社のマーケティング担当の人に、データの保存はうちの会社でも大変だったんだけど、管理しようってなったときに残せるものを残したら良いと言われたのは覚えています。
ないものは分析できませんが、もったいない精神で無理に残そうとするのは運用コストが跳ね上がるだけだなと思いました。
後でわかりますがよかった点もあります。
Bigqueryはもっと先にならないと使わないのですが、Google Data Portalの知識をこのタイミングのインプットがあったおかげで、別プロジェクトで役立ちました。愚策でしたが、収穫も少しだけありました。
そうだ!ダッシュボードを作ろう
何きっかけで始まったかが全然覚えていないのですが、いきなり思い立ち作り出しました。
ちなみにダッシュボードが何かよくわからずに、ダッシュボードを作ると社内で言いまくってたのは覚えています。
仕組みはかなりシンプルでDBや使えそうなデータをスプレッドシートに落として計算、それをData Portalで出力するというものでした。
一番最初のダッシュボードは主要KPIを並べた表形式の期間ごとに数値が並んでいるものや、それぞれのセグメントの顧客の登録者数、取引金額の推移などをグラフにしていきました。
この辺では色んなビジネスモデルに興味があって自分なりに分析していた経験が少し役立った気がしています。
何回もロジックツリーを書き直して、何を並べるべきかを考えました。
かなりもがきながら1つ1つ作って行ったので、Count Unique IFsのような普通に生活してたら使わないような関数、スプレッドシート上でクエリ書いたりをガチャガチャ組み合わせながら作りました。
この期間で社内で誰よりも関数などの計算方法などの知識はつきました。
ダッシュボードができてからは営業の人や経営幹部からMTGでいつも見ているよと言われて嬉しかったです。
この辺でグラフでもデザインの大事さを学びます。
詳しくはこちらへ
エクセル使えない人の作り方やぞ!
ダッシュボードを使ってもらえるところまで来ました。スプレッドシートのセルの上限数には500万セル(関数を使うともっと少ないみたい)で、限りがあり、データが増えるにつれ重たくなって来ました。
4ヶ月前に20万円くらいだして買ったノートPCのファンがうるさくなるくらいには重たくなりました。
そろそろいるデータといらないデータをわけないとと思い出したときに、資金調達の関係でCFOからデータの集計をして欲しいと言われスプレッドシートで集計をすることになります。
グラフと数値を出力できればよかったので、1枚のシートのあっちこっちにデータが散らかります。
その時にCFOに言われたのが「それエクセル使えない人の作り方やぞ!」と言われ笑われたのを覚えています。
考えてみれば困ったらその都度調べるやり方だったので、体系的なことは全然学んでいませんでした。
察したのかCFOが指標自体に番号を振ってピポッドテーブルを使うやり方を丁寧に教えてくれました。
ちなみにまだ教えていただいたやり方はちゃんと活用できるほどマスターできていません。ごめん、CFO。
現在はひたすらインサイト探し 2021/2/8
色んな部署の効果測定をしたり、データサイエンス関係なく業務自動化スクリプト書いたりもしていますが、主には売れるときはなぜ売れるのかを計算してデータと睨めっこしています。
残念なことに、これだ!となるものを見つけてもまだ大きな会社ではないのでデータ量もおそらく十分ではないのでしょう。
シグナルではなくノイズなことが多く、営業の人にヒアリングをして個別事象を聞かされ納得が行ってしまうレベルのものに止まってしまっています。
今月の目標は顧客指向性を3つ見つけるになっているのですが、大丈夫でしょうか。書いてるときは正直見つかるイメージがないのですが、こういうときは一度大きく捉え直すことに尽きると思います。来月の自分、見つかりました!!ってかけると良いね。
まとめ
結構自分がその時に何を考えてたか残していなかったのですが、残したら変化もわかって面白そうだったので書いてみました。月1くらいのペースで書けたら良いなと思っています。
最後まで読んでいただきありがとうございました!
この記事が気に入ったらサポートをしてみませんか?