見出し画像

求人媒体・調査会社・アプリのデータ解析案件などの経験を積んでいく

先輩の助けもあり、なんとか案件を一人で回せるようになってきた。
するとこの案件はコイツ1人に任せても大丈夫という雰囲気になり、契約社員から正社員になることもでき、安心して仕事ができるようになった。

ただし、このポイント事業の案件を回せるようになったら、会社としてはそこをずっと担当して欲しいもの。

しかし、パンダは、もっともっと様々な経験を積みたい。ポイント事業の案件でやることが変わらなくなってきたタイミングで、会社に別の案件にして欲しい旨を伝えても動いてくれなかったため、別の会社の内定を取ってきて、変えてくれないなら辞めますと伝えた。

そこまでしたら、なんとか会社も動いてくれて、ようやく別の案件をもらうことができた。

それが求人媒体の案件で、自然言語解析で、どんな求人を書くと、求職者のクリック率・応募率が上がるかを解析するもの。ここで初めて自然言語解析に触れて、文章を数値で解釈するって意味が分からんぞ・・・となりながら、カウントベクトライザーやTF-IDFの概念を勉強していって、こんな考え方があるのか、、、と衝撃を受けていた。文章すら数値で置き換えて、パソコンに解釈させようとする人類の、面倒くさがりには驚きである。

文章を数値ベクトルに直したあとは、どのような単語を入れるとクリック率が上昇するかを回帰分析することで、求人広告のタイトルに入れる必須ワードは何かを分析した。

求人広告の文章からトピックに分類できないか、LDAによるトピック分類を行なった。(この取り組みはあまり上手くいかなかった。トピックにうまく分かれない。まぁ既に業種や業界で分かれているのでそれ以上に上手く分ける方法はないだろう。)

その後、某調査会社でアンケートのクラスタリング分析や売上の時系列分析を行なった。アンケートのクラスタリング分析はk-meansで行なった。クラスタリングは分類した後に人間の解釈で、クラスターに名前を付けていくので、結構こちらの匙加減になるなぁと思いながら解析を行なった。

以下のサイトはk-meansがどのようにクラスターを作っているのかを感覚的にリアきできるので、クラスタリングを理解したい人におすすめのサイトである。

売上の時系列分析は非常に勉強になった。回帰分析で行っていたデータと異なり、時間という概念が入っているデータを扱う、ということを理解するのに苦労した。
ARモデル、ARIMAモデル、SARIMAモデル、状態空間モデルなど様々な時系列モデルを作成して、精度を比較していった。

時系列モデルで、ピンポイントで売上を予測するということはそもそもできないので、95%信頼区間を出し、その区間の間に実測値が入っているかを確認するためにモデルを作成していた。

信頼区間から実測値がはみ出るようなことがあれば、過去6年間の週次データを使っていたが、6年の傾向の中では確率的に5%しかあり得ないような異常値が出たということである。そんなことが起る、社会的要因・マーケティング要因はなんだったのかを振り返りたい、という目的で行われた解析だった。

他にもアプリのユーザーログの集計・可視化など、様々な案件をものすごいスピードでこなしていった。

社内でもコイツに任せても大丈夫という雰囲気になり、様々な案件を担当することができた。

こうして、要件定義からデータ抽出、データ可視化、モデル開発、解釈と、入社して1年ほどで仕事を十分回せるようになったため、もっともっと経験を積むために副業をしようと画策していく。


いいなと思ったら応援しよう!