教育に興味のなかった自分がデータサイエンス研修を本気でやっている理由
はじめに
キャッシュエンジンになっている事業に想いがないのか?と言われれば、答えはノーだ。そこで、弊社のデータサイエンス研修事業は誰のために何を伝えているのか?この事業を通じて、どういう社会にしたいと思っているのか?をまとめたい。
国も人材育成を急いでるくらい、ほんとうに人材不足が大きな問題になっている
文部科学省はAI人材を育成するためにつぎのように目標を設定している。
社会人にいたっては、年間100万人がデータ活用に関する知識を習得し、日本の働き方をもっとよくしたり、社会を豊かにすることを求められている。
実際にデータサイエンス領域でお仕事をさせていただく機会に恵まれた自分は、人材不足を肌で実感している。こういうデータがあれば、今の課題を解決できるのに!っていう気づきさえあれば、もっとはやく、もっと良いサービスを世の中に届けることができる。でも、そういうノウハウが全然浸透していない。
現在のデータサイエンス研修が抱える課題
法人向け研修は高額だ。基本的には誰もが聞いたことのある大企業から順に、外資系コンサルティングファームや有名な専門家、AI企業が提供している研修カリキュラムを受講する。
学生の場合は、私が大学生だった頃よりは民主化が進んでいる。東京大学、京都大学、早稲田大学、滋賀大学などがオンライン講義コンテンツを無償提供している。
しかし、ここに大きな課題が3つある。
1. 基礎知識がない人は、高度な専門知識を吸収できない
データサイエンスと聞くと響きはいいのだが、データサイエンスは総合格闘技に近い。Excelみたいな関数ソフトで簡易集計、分析もできるし、Pythonを使って機械学習もできる。可視化もBIを使ったほうがいいこともあれば、シンプルな数表で表現したほうがいいこともある。
データサイエンスには基礎教養として数学的知識と統計学の知識がいる。加えて、プログラミングの素養がないと分析プログラミングのハードルは高い。つまり、データサイエンスのスタートラインに立つために習得すべき基礎教養の量が多すぎるという課題がある。
しかし、大学受験のために条件付き確率を学んだはずなのに、忘れてしまっている数年後の今の私たちを振り返って考えよう。基礎教養は実践の場がないと忘却していく。データサイエンスは習得した後に即効性のあるスキルにアウトプットしないと、習得した知識が無駄になってしまう可能性が高い。
2. ほとんどの学生はデータサイエンティストとして就職しない
すでに世の中には優秀な専門家や企業が高品質なAIや機械学習を中心にデータサイエンス研修プログラムを提供している。しかし、そこで学ぶ高品質で高度な知識を受講生全員がすぐに実務に応用できるか?といえば、イエス!と自信をもって答えづらいのではないだろうか。
社会人の場合は、データサイエンティストという職種で働いている人はごく僅かだ。ほとんど人は別職種として本業がある。マーケティングであったり、営業であったり、ITシステム部門であったとしても、今のシステムを守るミッションをもっていたりする。学んでもすぐに高度な知識を応用する機会が少ない。
学生の場合も同じような課題がある。データサイエンスの素養を持って大学を卒業することは大切だ。大きな価値がある。他方、現実的な問題として将来の夢や仕事にデータサイエンスが直結しやすいか?といえば、こちらもイエス!と答えづらい。
いわゆる東京の一流大学の学生であったとしても、高度なデータサイエンススキルを活用できる職種に就く人はごく僅かだろう。学んでもすぐに高度な知識を応用する機会が少ない。
3. ほとんどの日本企業は高度な分析を実現できるデータがない
さいごに、データサイエンススキルを持っていたとしても、社会に出たときにデータサイエンススキルを存分に発揮できるデータがないことだ。日本ので分析用にデータを整備している企業はごく僅かだろう。
すごく悔しい。けれど、残酷な現実だとおもう。
今あるデータで何ができるか?の引き出しの数を増やせるヒトを増やす
そういった葛藤を抱えながら、自分自身もデータサイエンティスト時代にデータサイエンス研修の講師を担当させていただいていた。でも、これは本当に重要な問題だとおもった。そこで、弊社が提供するデータサイエンス研修プログラムを抜本的にコンセプト変更した。
1. 高度な分析よりも、伝わるレポーティングを
実際に研修を受講した人自身が手を動かしてデータを操る機会は少ないかも知れない。しかし、ほぼすべての職種においてデータを使ったレポートをまとめる機会がある。
そこで、徹底的に伝わりやすいレポーティング手法を実務経験をもとに一緒に学んでいる。また、エンジニアと円滑なコミュニケーションをできる人材になるために、テック企業ではよく使われるドキュメント管理ツールを使いこなせるために、Markdown記法を使いながら文書を作成する。
2. 抽象的な企画や依頼よりも、テーブル定義情報を
実際にデータ分析をやらなくても、「あのデータを使って、これを検証して欲しい!」と頼むビジネスパーソンは多い。抽象的な依頼をしてしまったり、エンジニアの気持ちを考えて依頼できないから、データサイエンスやDXは進まない。
そこで、弊社の研修では誰もが必ずテーブル定義情報を作成できるように徹底する。テーブル定義情報はデータのカルテのようなものだから。
テーブル定義情報はExcelでも作れてしまうから、Pythonなどのプログラミング言語で機械学習プログラミングをかじってみることよりも、新しいことを学んでいる実感はない。しかし、実用性と即効性は保証する。
テーブル定義情報を用意できる人材は、そのデータを一番理解している人だ。データを理解していれば、正しい仮説を立てやすいし、そのデータを使ってできること・できないことを分析する前に判断できる。これがビジネスでボディーブローのように効いてくるのだ。
3. 仮説検定も、仮説検証を
ここでいう仮説検証とは、探索的データ解析(EDA)を意味する。仮説検定とは、統計学でよくでてくる手法のひとつだ。
基礎知識、教養レベルが未達のままデータサイエンス研修において統計学に触れると、ほとんどの人が挫折する。でも、統計学の教養レベル知識がなくても、ビジネスアナリティクスは可能だ。もっとシンプルにデータサイエンスを楽しめるし、挑戦できる。
実際に手を動かしたり、プログラミングして分析する前に、シンプルな仮説を立てることを徹底する。すると、複雑な分析をやらなくて済むようになる。簡単な分析で仮説を検証できれば、それに越したことはないのだ。
4. 高度なAIよりも、データ活用の引き出しの多さを
もちろん、Pythonというプログラミング言語を使って機械学習を実行できるとシンプルに楽しい!でも、Pythonを使ってデータサイエンスできることは目的じゃない。データを使って、誰かの役に立つ・社会の役に立つことが目的だ。つまり、データを使って役に立つ引き出しの数のほうが大切だ。
そこで、Excelでできることも伝えるし、BIツールでデータを可視化し、他の社員に共有する研修を実施している。BIツールが登場したのは10年以上前だが、BIツールを使った企業内データの可視化はまだまだ浸透していない。
だから基本的なことから愚直に一緒に学んでいく。基本的なことでも多くの人に役に立つことができる。
また、受講生が研修中に構築したダッシュボードをこれからもアジャイルにアップデートし続けられるように、仕様書を作成するところまでコミットさせることを目標にしている。
作って終わりの研修ならば、実務に応用できない。実務に応用できないならば、研修の意義がない。
さいごに、分析プログラミングに挫折してしまった受講生でも、機械学習やデータサイエンスに興味を持っているならば、継続して取り組めるようにAutoMLも一緒に学ぶ。大事なのは圧倒的な引き出しの多さだから。
おわりに
自分自身もデータサイエンスに触れたのは、社会人になってからだ。作りたいWebアプリケーションに機械学習を実装したほうが良いというアドバイスをいただいて、データサイエンスの門を叩いた。
今の自分があるのは、優秀なエンジニアが無料でデータサイエンスを実行できるライブラリを提供しているから。そして、多くの人たちが私にデータサイエンスについて教えてくれたからである。
今度は私自身が誰かのために、これまでの実務経験でインプットしてきたことをアウトプットしていきたい。
そして、研修に高額投資できる一部の大企業や一流大学だけでなく、ほんとうにすべての人がデータを使って世の中を豊かにできるスキルを持てるように、機会があれば最大限役に立っていきたい!
この記事が気に入ったらサポートをしてみませんか?