見出し画像

Data Gateway Talk vol.2 に参加してきました。

2019/7/5に株式会社 FiNC Technologies さんを会場として開催された Data Gateway Talk vol.2  に参加してきました。
ブログ枠で参加させていただいたので、皆さんに会の模様をお伝えします。

自己紹介

はじめに簡単に自己紹介すると、津田 真樹(つだ まさき)と言います。
進化生物学の分野で博士号を取って、研究所で任期付研究員をやったあと、無職期間を経て、テクノスデータサイエンス・エンジニアリング株式会社という会社で受託データ分析のコンサルタントをしていましたが、今度の8月から Global Fishing Watch という国際NGOでアナリストとして働くことになりました!

データサイエンティストとしてのキャリアは前職に入社してからなので、ちょうど丸5年がすぎたところです。その間、ご縁があっていくつかの書籍の執筆・翻訳にも関わりました。

データサイエンティスト養成読本 ビジネス活用編
パーフェクトR
みんなのR 第2版
みんなのRcpp

もう Gateway という感じではなくなってきましたが、経歴を見てもわかる通り絶賛キャリア模索中です。

発表内容

今回は以下の方々から、発表をいただきました。(微妙にタイトル間違えてたりしたらすみません。)
・FiNC Technologies紹介(@sugartaker)
・数学出身でデータ分析をやっている人の話(瀧本篤志さん)
・管理栄養士のエモい?データ分析(@tanji_uk さん)
・キャリアチェンジと可視化とUnity(@Keijipoon さん)
・契約書データでリスク予測のアプローチ事例(@inazo18 さん)
・データ分析とキャリアを見据える話(@vaaaaanquish さん)

それぞれについて、感想を交えつつ、簡単に内容を紹介したいと思います。

FiNC Technologies紹介

スポンサー紹介として @sugartaker さんから FiNC Technologies さんの紹介です。こちらのmeetupスペースはとても綺麗!トップの写真にあるように前方が全面スクリーンになっていてかっこいいです。

FiNCさんは企業理念として「一生に一度のかけがえのない人生の成功をサポートする」ということを掲げ。ダイエットや健康管理のためのアプリや、遺伝子検査などの事業を展開しているそうです。

私も個人的に3回くらい体を壊しているので健康には関心が高いのですが(ちなみに今は健康です!)、病気などで自分の将来のための努力もできなくなることは本当に辛いものです。そこまで大きな病気などではなくてもデスクワークに伴う肩こりや腰痛などによって集中力が低下することも無視できない問題です。

FiNCさんの面白いところは、ヘルスケアの企業として社員が健康でなければ説得力がないということで、社員の健康にも気を使っているところです。今回は話は出なかったですが、前にFiNCさんでTokyoRがあった時に、FiNCさんでは仕事の合間に会社のトレーナーの方がリードしてストレッチをする時間があると言っていました。ちなみに私も時々仕事の抜けてオフィスの隅っこで体操したりしてますが、体操マジでオススメです。やりましょう。是非やりましょう

データ分析という点でも、FiNCさんは、サービスの改善サイクルを回すために、データに基づく仮説&検証に積極的であるような印象を持ちました。例えば、ユーザーのモチベーションアップやユーザーのデータ入力を促進するための、分析&施策を実施しているとのことでした。

健康にしろ、ビジネスにしろ、当たり前のことを当たり前に実施するのが最も大切で難しいところだと思います。健康なら「食事・運動・休養」だし、ビジネスなら「PDCA」だと思うのですが、FiNCさんは王道を着実に進めている印象を持ちました。健康に関心のある・健康になりたいデータ分析者にとっては良い環境なのかもしれません。とはいえ、この辺りは中に入ってみないとなかなか実態はわかない部分ではあるのですが、少なくとも今回のように、中の人に詳しく話を聴ける機会を作ってくれる会社はいい会社だと思います。

数学出身でデータ分析をやっている人の話

続いては、瀧本篤志さん(前職の同僚!)から、数学を学んだ経験がデータ分析の実務でどのように活きているか、自受託データ分析での経験からのお話してくれました。

発表では、受託データ分析のコンサルタントとしての仕事を以下の形で振り返りました。
・日々の仕事
・働く前の想像
・働いてわかったこと
・まとめ:何が役に立っているのか

コンサルとしての仕事は、顧客の課題を解決することが目的で下の4つのプロセスに分けられるとのことでした。
1.顧客の話を聞く
2.問題の定義
3.データの準備
4.分析

しかし、働く前の想像では、4の分析のことしかイメージがなかったとのことでした。

確かに、分析の技術については統計や機械学習の書籍などで学習することが可能ですが、それ以外の部分の実務の本というのは数年前にはとても少なかったと思います。今なら、手前味噌ですが「データサイエンティスト養成読本ビジネス活用編」とか、ブレインパッドさんの「失敗しない データ分析・AIのビジネス導入」などがあるので、実務に関わる前の学生さんとかでもイメージを持つことができると思います。むしろ、本に書いてある内容が真実すぎることをいずれ知ることになるでしょう(意味深)。

結局、瀧本さんによると、データ分析の実務をする上では、そんなに高度な数学の知識が必要な訳ではないけれど、数学を学ぶ過程で身につけた「知識の獲得・創造のための汎用性のある思考法」は仕事をする上で活きていると感じているそうです。

実際のビジネスの世界は複雑ですが、顧客と話をして情報を構造化して考えることは顧客とのコミュニケーションにも役立ちますし、多くの情報から重要な部分を取り出して綺麗なモデルとして当てはめることは、分析の問題設計でも大切な考え方だと思います。

この「知識の獲得・創造のための汎用性のある思考法」のビジネスにおける有用性については、瀧本さんも言っていましたが、数学の以外の学術分野にも共通することだと思っています。

最後の瀧本さんの言葉

「数学をやっていた人材として恥ずかしくないように仕事をしたい」

に最大限のエールをおくります!

管理栄養士のエモい?データ分析

こちらは FiNC の丹治朋子さんから、管理栄養士としてデータ分析でサービス改善するためのドメイン知識の重要性についてお話をいただきました。

ちなみに丹治さんのお仕事については以下のブログに詳しいそうです!
もしグロ 〜もし管理栄養士の女性社員がヘルスケアアプリの「グロースハック」をしたら〜

丹治さんは、元々管理栄養士であるので、人体や栄養学・栄養指導・給食栄養管理などのドメイン知識を活かした「仮説立案」でデータ分析の仕事に貢献しているとおっしゃっていました。

例として、「ユーザーの体重記録の時刻は朝方に偏っている」という集計結果に対する対応を聞かせてくれました。丹治さんは管理栄養士として多くの人たちとコミュニケーションをとった経験から、「ユーザーは体重が一番軽い朝方に体重を図りたいと思っている」という仮説を立て、そこからさらに「夜に体重を測ることへの心理的抵抗を下げること」が夜の記録を増やすために重要ではないか施策のアイディアにつなげました。そこで、ユーザーには、1日の中の体重の変動を知ることが重要だと理解を促すプッシュ通知を送る施策を打つことにしたそうです。

丹治さんの主張としては、統計知識を持つことは前提として重要であるが、ドメイン知識による仮説立案も同じくらい重要だということでした。統計自体は、仮説立案というよりは、仮説検証のための道具なので、施策の後に本当にその施策に効果があったのか検証する際に特に重要だと思います。

しかし、データを可視化しデータが持つ意味を考える際にはドメイン知識が重要であるという点には激しく同意します。そもそも「ユーザーの体重記録が行われた時刻」に着眼すること自体が「1日の体重変動が重要である」というドメイン知識に基づいたものなので、健康やダイエットに関心のないデータ分析者には思いつきにくかったりします。

データ分析はあくまでも手段なので、何をデータ分析するべきか、という点についてはドメイン知識が重要であるという点は疑問の余地はないと思います。その一方で、データ分析で何ができるのか発想するためには多くの分析の手法についての引き出しが必要だと思っています。

キャリアチェンジと可視化とUnity

航空会社でフライトシミュレータのエンジニアからデータサイエンティストにチャリアチェンジした Keijipoon さんのお話。

そもそも Keijipoon さんがエンジニアからサイエンティストにキャリアチェンジするきっかけになったのは、フライトシミュレータの保守のためにシミュレータの劣化状態の推定ができないかと上司から依頼されたからだそうです。しかし、シミュレータって何百億円もするんですね...。

未経験で独学でデータサイエンスを始めたとのことなので、最初は Youtube の資料などを参考に勉強を始めたそうです。Keijipoon さんとしては、データサイエンス自体は理系のバックグラウンドがあれば3ヶ月から半年くらいでそこそこできるようになるのでは、とのことでした。

Keijipoon さんによると、データサイエンスは年功序列、終身雇用に代表される硬直した日本の人事制度から抜け出してキャリアを築くための、美味しい仕事と表現しています。確かに、現在データサイエンス関連の求人は数多く、大企業が中途で人を求めたり、新卒を比較的高給で募集したりという話はよく聞きます。

確かに、データサイエンスは多くの企業にとって新しいスキルなので、求職者にチャンスを与える効果があるのは確かだと思います。とはいえ、サイエンティストが企業で成功するためには様々な前提条件が必要なので、データサイエンスでキャリアを成功させるには入社先を見極める必要があるとは思います。これは後のばんくしさんの発表でも出ていました。

Keijipoon さんはデータ可視化に関心が高いようで、可視化情報シンポジウムのような学会で発表もしているそうです。ゲームエンジンのUnityを使って高度な3Dでの地理情報の可視化や、仮想的な3D空間で物理エンジンを用いて機械学習を使ってボールをコントロールしたりするデモを披露してくれました。

ゲームエンジンは3Dの高度な可視化やシミュレータを実現できますが、UIを作れるフレームワークでもあるので、データ分析の結果をユーザーに届けるアプリ開発の環境としても面白いのかもしないと思いました。

契約書データでリスク予測のアプローチ事例

Legal Tech の分野でMLエンジニアをしている @inazo18 さんからは、契約書に潜むリスクを機械学習を用いて予測するという話題を聞かせていただきました。

しょっぱなから話題が逸れて恐縮ですが、スライド資料のヘッダにスライドの進行を示すプログレスバーのアイディアは素晴らしいです!今度パクらせていただきます。

で、そもそも契約書のリスクって何ぞ?というところなのですが、契約書の内容を正しく認識できていないと、条文の効力によって思わぬ損害賠償を請求されたり、逆に請求できると思っていた賠償が請求できなかったりする可能性があります。

なので企業間で契約書を交わす際には法務が内容をチェックするわけですが、多忙であるなど必ずしも十分にチェックできない可能性があります。そこでAIを用いて条文に潜むリスクを推定したいというモチベーションがあるそうです。

また、契約書は基本的に紙の状態で金庫にしまいこまれているため、データベースなども整備されていないため機械学習などの技術の適用がまだ進んでいないということでした。

発表では「ミラーパターン文」という契約書によくある違約金の条項のような文章において、「甲」「乙」のそれぞれがどちらの企業を指しているのかを推定するタスクの分析例を紹介してくれました。

形態素解析器で品詞分解して、TF-IDFなどで特徴量を作ってというのが基本とは思うのですが、結局主語と助詞を合体させた特徴や、主語と述語の係り受けを考慮した特徴を作ったり、ドメイン知識に基づく特徴量職人の世界なのかなという印象を持ちました。私は自然言語をデータとして使った機械学習などは未経験なので興味深かったです。

あまりAIや機械学習の理解が進んでいない人からの分析依頼では、テーブルデータ、画像解析、自然言語それぞれの特殊性が理解されていなかったりするので、この辺の理解が広まって欲しいところです。

データ分析とキャリアを見据える話

今回の先輩枠は、ばんくしさん(@vaaaaanquish)でした。ツイッターでばんくしさんを知った頃は、一人鍋パの人だったのに、今やイケメン!扱いが完全にアイドルです。すごいです。運動は嫌いって言ってましたが体操はした方がいいですよ!

ばんくしさんからは、自らの転職の経験からデータサイエンティストのキャリアの話をしてくれました。できるだけ会場でしか聞けない話をしたいということで、ここには書けないこともあるのが残念です。

ばんくしさんは、高専→大学編入・大学院→sansan→Yahooo!→M3、と主にWeb系の企業でMLエンジニアとして強いキャリアを歩まれてきています。現在は、「マネジメント:分析:モデリング&開発=2:3:5」位で、マネジメントもしているというのはちょっと意外でしたが、一通りの分析プロジェクトを回せる人は、まだ多くはないので当然かと思い直しました。

sansanは分析チームがまだ小さい頃にジョインしたので、データの収集→アノテーション→データ加工→モデリング→開発→運用と一人でやっていたりと、この環境で生き延びれる人にとっては多くの知見が得られそうです。

Yahoo!では、得られるデータの規模がかなり大きくビッグデータのための分析基盤が強い、社内にML・DSのプロが多いなどが特色だそうです。とはいえ分析経験の浅い人とも仕事をするようなので チームリーダーとしての役割が期待され、一時期はマネジメント全振りなんて時期もあったとのこと。ヤフオクの分析をしていたとのことですが、分析のために商品のカテゴリ(4万個くらい…)を自力で振り直したりと、なかなか泥臭い部分は教科書に載っていないデータ分析のお話という感じです。

M3では、ばんくしさんが何をしているのかちょっと聞き漏らしましたが(おい!)、企業としては医療ドメイン知識を活かして医師のプロファイリングなどの事業をやっていますが、会社や分析チームのフェーズとして「常に考えることがある」のが楽しいと言っていました。

で、結局分析者のキャリアについてですが、ばんくしさんによると、3社経験したことで言えるのは「会社やフェーズによって、働き方やデータサイエンスのあり方は異なる」ということでした。本来データサイエンスが必要な場面は限られているはずだけど、まだそこに到達していない企業でも多く募集している。つまり人材バブルであるという認識だそうです。

私も受託データ分析コンサルとして、いくつかのフェーズ・業種・規模の会社で働きましたが、本当に会社によって全然違うとことを実感しました。フェーズでいえば、立上期・普及期・安定期で会社として求められるDSの役割の範囲は大きく異なる印象です。

で、データサイエンティストはどうするべきか?という点については、市場動向を把握しつつ自己分析・企業分析を行って、「得意分野で・自分のレベルにあう、かつ幸せになれる企業を見つける」のが大事だと言っていました。

その他にも、市場の変化に注意すること(半年で市場・企業のフェーズは変わる)、情報収拾のために勉強会に出ること、アウトプットをして他者からのフィードバックをもらうこと、技術だけではダメで企業で働く以上ビジネス・政治からは逃れられない、「実力」と「成果」は違うこと、などなど、色々示唆に富む話を聞け有意義でした。

個人的にも、データ分析者として市場と志向と適性を見つつ、将来的には何の事業ドメイン・技術ドメインで強みを出していくのか選択することはキャリア構築の上で大切だと考えています。私の場合は、志向の影響が強すぎることは自覚していますが、一応、市場と適性も検討しているんですよ!この辺りについては気が向いたら書くかもしれません。

最後に

Data Gateway Talk vol.2 に参加させてもらって非常に楽しめました。データサインティストは歴史が浅く、働き方やキャリアのモデルもまだない状況なので、コミュニティとして知見を共有しながらやっていくのはとても大切だと思っています。なのでコミュニティの運営の方々には大変感謝いたします!ありがとうございました!



この記事が気に入ったらサポートをしてみませんか?