見出し画像

初めて任されたデータサイエンス案件は地獄だった

なんとか与えられた最初の仕事であるソーシャルゲームの離脱者要因解析の案件を終えたあとは、次に建設資材のレンタルの会社の需要予測案件へと配属となった。

ここでは、モデルを作るのではなく、様々な要素を可視化して基礎集計していく仕事だった。

例えば、建設資材が運ばれる現場の床下面積が大きければ、それだけ資材を必要とするはずだから需要に影響を与えているはず、なのでその2要素を散布図などで可視化していく仕事だ。

この仕事も今ならなんなくできるが、Pythonで都道府県ごとに集計するためにgroup byを使うが、この概念を理解するのに時間がかかり、(研修でやったのに!!知ると使えるは別物!)、先輩の想定よりも多くの時間がかかってしまった。

しかし、ここでも人の力を借りながら、土日も勉強し、案件を進めながらなんとかこなした。

そんな頑張りが認められたのか、入社して3ヶ月目にして初めて、データ抽出からモデル作成、評価までを1人で任せてもらえるようになった。

これは某大企業のポイント事業で、そのポイントに加盟している加盟店さんのクーポンや新商品情報を興味ある人へ届けるための最適化をする案件だった。

怖かった。しかしやるしかない。出来る、出来ないではない、やるんだ。
そんな覚悟を持って臨んだ。

まずデータ抽出から難関だった。大企業であるため、テーブル数が膨大なのだ。SQLが100行を超える。。頭が追いつかない。

テーブル同士がどう繋がって、欲しい情報を取得すればいいのか。

何回もER図を見ながら、SQLを読み返して、何度も何度も、やりたいことを見失いながら、理解していった。

めちゃくちゃ苦労しながら、なんとかデータを抽出できた。(もう一回出来る自信はない。)

その後、データを可視化しながらどんなユーザーにどんな興味関心があるかを可視化をしていった。クーポン情報や新商品の情報が配信された時にクリックしてくれたユーザーとそうでないユーザーの差を解析していく。

そして、興味関心などのデータを説明変数に入れてモデルを作っていった。
この時点で明日プレゼンでもう22時なのに、まだモデルを作っている段階だった。(データ抽出に時間がかかり過ぎた。)

なんとかモデルができたが、評価の仕方が分からない。(研修でやったのに!)

23時から先輩が、発表の練習相手になってくれたが、全然上手く発表できない。そりゃそうだ、評価の仕方が分からないんだから。

もう終電が終わるのに先輩は、正答率、適合率、recall-curveなどの概念を丁寧に説明してくれる。自分も必死に研修の時の資料を読み返し、理解しながら、発表練習をしていきながら資料を作っていく。もう時計は朝の4時を回っていた。

ある程度形になった朝5時くらい、発表が10時からなので、3時間ほど漫画喫茶で仮眠をしようとした。朝起きたら、今まで理解したモデル評価の概念を忘れてしまうんではないか、というのが怖くて寝る直前まで発表練習を繰り返していた。

朝、無事起きることができ、概念も覚えている。ふらふらになりながらお客様先へ向かいながらも発表練習をした。

発表は、、、、、無事終わった。先方からの質問にも問題なく答えられ、次の課題をもらったのだ。

初めて自分が任された案件で、データ抽出から可視化・モデル評価までできた。(朝まで発表に付き合ってくれた先輩のおかげなのは言うまでもないが)

こうして地獄の経験を経て、だんだんと一人で仕事を回せるようになっていったのである。

いいなと思ったら応援しよう!