キャリアセミナー向けメモ
某キャリアセミナー向けに作成したメモです。多少私見も織り交ぜながら、データ分析者、データエンジニア、データサイエンティストなどの仕事の様子と、それらの仕事に就くために必要なことなどをメモします。
データサイエンティストとは?
定義いろいろ
IPAの定義によれば、データサイエンティストとは「DXの推進において、データを活用した業務改革や新規ビジネスの実現に向けて、データを収集・解析する仕組みの設計・実装・運用を担う人材」とのこと。
しかし一方で、(一社)データサイエンティスト協会のサイトを覗いてみると、「新しい職業である「データサイエンティスト」には明確な定義がなく、対応領域も広い」とあります。
「データサイエンティスト」の他にも、データアナリスト、データエンジニア、データアーキテクト、データストラテジスト・・・など、データが付く肩書きが最近たくさん現れていて、いろんな人がいろんな見方で定義をしています。よって本稿でも私から見た「データなんとか」の仕事を概括するに留め、あとは歴史に任せます。
何を仕事の目的としているか?
データ分析者やデータサイエンティストの仕事の目的は、ビジネス上の課題を解決することです。但しその解決方法の特徴として、主に(大量の)データと何らかの高度な分析手法を用いることが挙げられます。
「ビジネス課題を解決する」だけなら実は昔からビジネスパーソンなら誰でも取り組んでいることですが、昔はそんなにたくさんのデータがありませんでした。(注:あるところにはあったのですが、それはビジネス意思決定とは無縁のところにあった。)
ところが2000年代頃以降からインターネットが普及し、それまで対面と紙と電話で行われていたビジネス(今では信じられません)が、コンピューターにシフトしていきます。その結果、ビジネスの現場で大量のデータが使えるようになってきて、そのデータを回せる人に注目が集まった。それが2012年頃からのデータサイエンティストブームに繋がります。
データなんとかの仕事の種類
上にも書いたように、名前の付け方は人それぞれなので話半分で。
データ分析者(アナリスト、コンサルタント)
データ分析者、データアナリスト、データ分析コンサルタントなど。ビジネス課題の解決を掲げるコンサルタントで、その中でも特に解決手段として様々なデータを駆使する人がこう呼ばれることが多い。アウトプットはレポートであることが多く、そのレポートによってクライアントは経営判断を行ったり、個別の業務改善や新規企画の実現可能性評価を行ったりする。
昔ながらの経営コンサルタントに似た動きをすることもあれば、もうちょっとデータ分析側に振って、仮説検証だけをする場合もある。また、何らかのシステムで用いるソフトウェアのプロトタイピングをするような場合もある。
クライアントの要望に応じて様々な形でビジネスをサポートするのが特徴で、これと言った定型はあまりなく、人や会社によって得意分野や実績が大きく異なる。ただ、大量のデータを回せる、高度な解析手法を用いることができるというところは共通している。
データサイエンティスト
話題の「データサイエンティスト」。ある意味でバズワードなので、意味がわからず使われていることが多い。というより、誰も真の定義を知らない。私も。
ただ、ざっと周囲を見回してみると、データサイエンティストという言葉で区切られる仕事をしている人は主に、大量のデータと高度な分析手法を組み合わせた、何らかの自動化されたシステムの開発に取り組んでいることが多い印象。上のアナリスト、コンサルタントがレポートをアウトプットにしているのに対して、データサイエンティストはソフトウェアやシステムがアウトプットであることが多いです。例外はたくさんあります。
例えばECサイトなどで、ユーザーの行動履歴から次のお勧めアイテムを自動で抽出し、ユーザーの画面に表示するシステム、などの裏側の「お勧めリスト作成システム」などを作っています。もちろん、開発しようという業務意思決定、例えば、こういうお勧めのシステムを作ったらいいんじゃないか、という議論から参加するような、コンサルタントに近い動きができるデータサイエンティストもたくさんいます。
データエンジニア
データエンジニアについても様々な定義があるのですが、他の定義は他でみて頂くとして、ここでは私の定義です。
データエンジニアと呼ばれる仕事は、データの収集、加工、品質管理、モニタリングなど、データに関して毎日起こる様々なことを管理する人です。図書館の司書に似ています。司書さんは図書館にある本を管理し、常に新しい本を仕入れ、メンテナンスし、リクエストがあればすぐに取り出し、図書に関する相談にのり、学校や会社の知識の一切をまとめて面倒見ていますが、データエンジニアはデータについてそれをやる人です。
企業活動は毎日様々なデータを生み出します。特にインターネットでビジネスをしている会社では、一日数ギガ~数テラのデータが生まれ、格納されます。合わせて、インターネットを介して余所から購入するデータ、モニタリングするデータ、データ、データ・・・とまあ本当に大量のデータが飛び交っています。これらの全てを理解し、適切に管理するのはめちゃめちゃ大変です。
しかし、データは生ものなので、ちゃんと管理しないとすぐに腐ります。データ分析者がよく、GIGO(Garbage in, garbage out)と言うのですが、素晴らしい分析ツールにゴミデータを入れてもゴミしか出てきません。腐ったデータとは、例えばどうやって作られたかわからないデータ、数値の意味が不明なデータ、欠損の傾向がわからないデータなど。そのようなデータを使って行った分析や意思決定は、占いと大差ありません。常日頃からの適切なデータ運用、それを支えるデータエンジニアの育成こそがDXの本質なのですが、今まだそれに気づいている経営者は少ないです。
従来のシステムエンジニアとの違い
データサイエンティストやデータエンジニアは従来のシステムエンジニアと何が違うのか。これは守備範囲、ミッションの違いです。
システムエンジニアは、決定論的なシステムを、高い確実性の元に作り上げ、それを高い可用性の元で運用することがミッションです。何よりも確実性が重要視されるので、テストやチェックに膨大な時間を割き、将来長期にわたって安定的にシステムが動くことを目指します。確実に作り、確実に動かすことが、システムエンジニアの評価軸です。
一方でデータサイエンティストは、確率論的に動く仕組みを作ります。統計解析にしろ機械学習にしろ、データサイエンティストの作るプロダクトはほぼ確率的な挙動を行います。確率的な挙動は、様々な仮定を置かないと統制できないので、その機能が組み込まれたシステムは従来のものと比べると不安定です。不安定なものを動かすのですから、リスクに備え、常に挙動を監視し、トラブルの種になりそうな事象を発見して随時修正しなければなりません。従来型のシステムよりも大きな保守コストがかかります。評価軸も、システムなのである程度の確実性は求められますが、それよりも高付加価値であることの方が優先になることが多いです。ある程度の失敗は織り込んでも高付加価値なことをするのがデータサイエンティストっぽい動きです。(もちろん、失敗した部分をどうフォローするかまで考えますが。)
データエンジニアはもっと違います。システムエンジニアもデータを取り扱います。なんなら、日頃から大量のデータを動かしているのはシステムエンジニアだったりしますが、それらの人をわざわざ「データエンジニア」とは言いません。決められたルールの元でデータを収集したり、加工したり、表示したりするならばそれはシステムエンジニアの役目です。システムエンジニアはそれらの仕組みを、確実に遂行することが価値です。では、わざわざデータエンジニアという名前を付けた仕事は何をするのか。
データエンジニアは、不確実性です。システムエンジニアと同じく、データに対して何らかのアクションを行うところは似ているのですが、システムエンジニアの方は「決められた方法で」「確実に」遂行することに重きが置かれるのに対して、データエンジニアの方は「方法はわからない」「不確実」「何がほしいかもわからない」「迅速に」です。
図書館に本を借りに来る人を想像してみるとよくわかります。「キツネが撃たれるやつ」とか、「おばあさんが髪を抜く話」とかから、これじゃないかな?とおもわれる本を出す。もしくは、「1950年頃の水道管の地図」や「1980から現在までの内閣の顔ぶれの写真が載っている本」など、どこに存在するのかもわからないようなリクエストについて、膨大な図書の中を探して見つける。データエンジニアも同じで、経営者や社内の様々な部署から「○○のデータない?」「△△のデータがほしいんだけど」「□□を知りたい」「こういうことをしたいんだけど、何を見たらいいか」などなど、いろんなリクエストが来るものを適切に、対話をしながらあたりをつけて捌いていくのが仕事のイメージです。そしてその動きができるためには、データベースに格納されているデータの全てをよく理解し、整理し、すぐに取り出せるようにし、さらには外部にあるデータもどこに何があるかを知っておくなど、裏方としての顔も必要です。そう思うと、データエンジニアは、システムエンジニアとは方向性が全く違う仕事だということが理解できると思います。
なお、最悪なのが、システムエンジニアがデータエンジニアを兼任することです。価値の方向性が真逆なので、どちらを向いても不幸になります。システムエンジニア的な「確実性>スピード」な動きはデータエンジニアとしては低評価ですし、データエンジニア的な「確実性<スピード」な動きはシステムエンジニアとしてNGなので、よほど上司が内容を理解していない限り、どちら側もネガティブ評価しかされません。
どんなところで働いているか?
実はどこにでもいる
データを用いて意思決定を行う、という動きは全てのビジネスの現場で程度の差こそあれ行われていることですので、その意味で「誰でもデータ分析者」です。
とはいえ、比較的大きめのデータを使って分析っぽいことを行っている現場という意味では、会社の中の企画部やマーケティング部などに多い印象。
あと、「データなんとか」という名称こそ付いていないものの、いわゆる理系の現場は常日頃から大量のデータを扱っています。工場の配管の圧力計のデータとか、電圧計のデータとか、生産ラインの歩留まりのデータとか。ただシステムの裏側に隠れてしまっていて意識していないケースも多いです。
というだけだとあまりにもイメージが湧きにくいので・・・
企画部、マーケティング部
会社の企画部やマーケティング部には、経営データや売上データを用いて様々な分析をし、その結果を会社の意思決定支援に使っている人がいます。企画部では自社の製品を取り巻く市場の分析から、今後どの事業にどれだけ投資をするか、どのような新商品を開発するか、などを考えていますし、マーケティング部では自社商品のプロモーションの効果測定やテレビCMの投下戦略策定などを考えています。
ネット企業のシステム部隊・分析部隊
「データサイエンティスト」と呼ばれる人が最も多いのはここだと思います。ECサイト運営会社、SNSの会社、ソシャゲの会社など、一般消費者をターゲットとしたビジネスをインターネットで展開している、中規模以上の会社には必ずデータサイエンティストがいて、自社サービスの付加価値向上のために働いています。
自社サービスを利用する一般消費者の動きを確率的に把握し、できるだけうまいフィードバックを返してあげることによって、自社サービスの利用を促進するのが、事業者内のデータサイエンティストの仕事です。場合によっては他社のサービスの利用者のデータをなんとかして(オープンデータやアンケートなど)収集したりもします。
データ分析専業の会社
データ分析専業で、様々な会社から依頼されて分析、開発を行う会社も存在します。数ヶ月~数年程度の期間限定プロジェクトの中で新しいサービスを開発したり、事業課題解決プロジェクトを遂行したりします。クライアントの中に課題解決に必要な知識や経験が乏しかったり、人はいるけれども忙しくて手が足りなかったりするときに呼ばれます。
課題解決がミッションなので、課題が終われば仕事も終わります。よって、複数の会社から業務依頼を受けることで、それらをうまく間断なく詰め込んで日々の仕事にするのですが、どうしても仕事が重なったり、逆に全く仕事が無かったりして、事業会社よりは不安定です。
また、課題解決のために他社に向かうので、向かう先の会社のデータサイエンティストよりも広く深い知識と経験が求められます。対象事業そのものについては当然先方がよく知っているので、短期間でその課題の背景を勉強し、吸収するという能力も必要です。
コンサルティング力が大きく求められるので、コミュニケーションも重要です。コミュニケーションの中からクライアントの本当の課題を引き出し、解決策を考えなければなりません。クライアントが本当に欲しいものは何かを考え、これですか?それともこれですか?と問いかけながら、課題を探します。見つかったらそれを解決する方法を考えます。データをあれこれ触りながら、何が問題か、何がうまく行くかを試行錯誤しまくります。うまく行く方法が見つかったら、それをレポートにしたり、システムにしたりして、期日通りに納品するとミッション達成です。
大学
実は大学にもたくさんデータサイエンティストっぽい仕事をしている人がいます。(サイエンティスト、という名称そのものなら本来大学にこそ居るべきなのですが、「データサイエンティスト」で一つのワードだと思っておいた方がいいです。)
機械学習やAI関連はいま最先端の学問なので、大学で開発されたプロダクトがそのまま外部で使われたり、大学や大学院に在籍する学生や教員が起業したりすることもままあります。大学の先生がコンサルティングを請け負っていることも少なくありません。
必要なスキル
データ分析者、データサイエンティスト、データエンジニアに必要なスキルはデータサイエンティスト協会が出している「スキルチェックリスト」などが詳しいですが、解釈含め下で概説します。
データ分析者・データサイエンティストに必要なスキル
(データサイエンティスト協会スキルチェックリストより)
ビジネス力
課題背景を理解した上で、ビジネス課題を整理し解決する力
データサイエンス力
情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
データエンジニアリング力
データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力
但し、学生の間や大学を出たばかりでは「ビジネス力」はほぼありませんし、期待されていません。よって、社会人になる前に勉強できることは、
数学、統計学
コンピューターサイエンス
プログラミング(システム、サービス、アプリ開発)
です。
大学・学科の選び方
大学の選び方は、データ分析のできるビジネスパーソンになりたいのか、それともデータ分析の腕で生きていける分析者、データサイエンティストになりたいのか、もう一つ、企業のデータを活かすデータエンジニアになりたいのか、で異なります。
データ分析のできるビジネスパーソンになりたいならば、大学、学科はどこでもOK。好きな勉強を頑張って結果を残してください。ビジネスはほとんどの学生さんが未経験ですから、やりたい勉強をして、やってみたいビジネスを探してください。
但し、就職後にデータ分析ができる人材になりたいと言うことなら、数学と統計学は勉強しておくべきです。単位があればなお良いです。社会に出て自分のスキルが役立つレベルは、文系なら数学検定準一級、統計検定二級程度です。高度な数学や統計を使う場合は専門の人を呼べばいいのですが、そこに至るまでの意思決定で全くわからないと丸投げになってしまいます。上記資格程度のスキルがあれば、ちゃんと専門家の話題にもついていけます。
データ分析者、データサイエンティストとしての腕で勝負したいなら、大学理系学部で、最低でも修士、できれば博士があるとよいです(注:心理学、経済学、経営学からのパスのことを書き忘れたので、下に注記しました)。学科は数学科、物理学科、情報・コンピューターサイエンス学科が適しています。実はこれら以外の学科でもダメではないのですが、これら以外の学科は製造業やインフラ業など魅力的な就職先が多いので、そちらに行くケースが多いです。基礎スキルとしては問題ありません。
数学・物理学出身者は、高度な数学力と論理的思考力を様々な職種に応用できます。博士課程まで出れば九年間、論理的思考力を徹底的に深めるので、他の学部・学科出身者と比べて思考や論理に厚みがあり、その点を知ってもらえるとビジネスでも重宝されます。一方で、研究内容と直接的に繋がっている業界が無いので、企業への就職ではポテンシャル採用頼みになってしまう傾向があり、定評のある大学出身でないと就職に苦労します。また、情報系のスキルは大学ではあまり学べないので、自力で勉強しておく必要があります。
情報系の学部・学科は最近非常に人気が高く、入学には苦労しますが、その分出口の採用熱も高く、給料も高めです。AIや機械学習など、時代の最先端の研究に修士、博士で取り組むので、就職してもそれに近い業務に就ける可能性が高いです。また、大学在学中に起業する方も多く、片手間で稼ぎながら研究もそつなくこなす人もしばしばいます。インターンで出向いた企業にそのまま就職する人も多いですね。一方で、数学・物理学出身者と比べるとどうしても技術に寄りがちで、自分で気をつけていないと論理面を強化できないおそれがあります。データ分析、データサイエンスはデータの後ろに隠れた論理(モデル)を追求する仕事なので、論理的背景を常に意識して研究に取り組んでいれば大丈夫でしょう。
(注追記)心理学、経済学、経営学側からデータ分析者に来るパスのことを書き忘れていました。ビジネスシーンでは本流はこちらで、理系からの方が亜流です。現在ビジネスの現場にいるデータ分析者はこちら側の方の方が多いですし、在学中からポテンシャルとしてではなく実学として経営、経済、金融、消費者心理などについての勉強をするので、めちゃめちゃ強いです。そして文系学科ですが、みなさん数学・統計学強いです。
データエンジニアに必要なスキルと学歴
(データエンジニアだけ別枠にしたのには理由があって、ここは他のデータ関連の人達と意見が分かれるところです。私見ではあるのですが、データエンジニア職こそがDXを支える要所であり、そういうジャンルを作っていきたいと思っているところです。)
データエンジニアには、実は最先端の技術はあまり必要ではありません。よって、基礎力(数学、統計学、コンピューターサイエンス、プログラミング)さえあれば大学・学科はどこでもいいと思います。実は大学卒がマストではないとも思います。
これは、データエンジニアは誰でもなれる簡単な仕事、という意味ではありません。尖った知識を持っている必要は無いのですが、非常に幅広い知識と経験が必要になるので、実務経験から常に学び、また実務の一環として新しいことを勉強する必要性は非常に高いです。
なお、高度な技術はもちろん、持っていればそれは差別化できる武器になります。一方で無くても実務経験でカバーできるのは、データエンジニアリングは日頃の備えだからです。安定した技術を使って、地味にコツコツと経験値を積み重ねていることが何より重要です。セキュリティやデータベースの運用などシステムエンジニアリングの知識は必要ですが、これも尖ったスキルではなく、その分野の技術者が当たり前に知っていることを当たり前に抑えておくということが重要になってきます。
最先端の技術はあまり必要ではないと言いましたが、最先端からすこし一般的になってきた技術は常に勉強してキャッチアップする必要があります。情報の世界は進度が非常に速いので、それだけでもかなりの勉強量になります。
また、データエンジニアに必要なもう一つのスキルであるコミュニケーションですが、これは本を読んで勉強できるものではありませんし、就職前に準備できることでもありません。
このように、データエンジニアになるには学歴よりも基礎力と言っては見たものの、世の中のイメージはまだそうではありません。言葉の定義の違いというのもあるのですが、基礎力のある人は確率的にはだいたい理系大学にいる、というイメージがあります。
しかし実は、高卒、高専卒だったり、文系大学出身でも、実は基礎的な数学がちゃんとできて、実務統計もできて、エンジニアリングもできるようになって、なによりコミュニケーション力が強いという人に何人も出会いましたので、これはまだ人材を発掘できると確信しています。ですので、後の方で「力」のアピール方法についても触れます。
データ関連業務に向いている人、向いていない人
データをなんとかする仕事の特徴は、「未知のことに取り組む」こと、これに尽きます。世の中には二種類の仕事があって、わかっていることを正確に、確実にこなす仕事と、未知の世界に切り込む仕事です。前者は失敗するリスクをギリギリまで小さくして、確実な成功を目指しますが、後者はある程度のリスクを許容したうえで、確率的に価値の最大化を目指します。このリスクが好きな人と嫌いな人がいて、データ関連業務は未知の世界に切り込む仕事、不確実性が高い仕事なので、リスクが嫌いな人には向いていません。他方、リスクを取っていくのが好きな人は、未知の世界に切り込むことは楽しくてワクワクする仕事になると思います。そういう人がデータ関連業務に向いています。
データ○○の働き方
働く時間
一昔前は無茶な働き方をする人は多かったですが、最近は社会問題化したこともあって、会社も従業員も労働法をちゃんと守ろうという雰囲気になってきています。よって、残業の量や早朝、深夜なども法に守られて制限されています。
とはいえ、忙しいときとそうでも無いときの差はあるので、多少の無理をすることはあります。ですが、コロナ後のリモートワークの普及も相まって、昔よりも柔軟な働き方ができる会社が増えているように思います。
働く場所
コロナによってリモートワークがかなり普及しました。最近は終息しつつあり、またオフィスに戻っている傾向もありますが、そのままコロナ後もリモートを継続するところも多いです。
コロナ後のリモートワークを機に従業員が移住したケースも多いです。完全リモートならば、インターネットさえあればどこにいたって同じです。東京の会社でも従業員は札幌や九州、沖縄に住んでいたり、海外に居住しているケースもあります。データ○○の仕事では、最近はデータがすべてクラウド上に存在している会社が増えてきたので、どこで仕事をしても同じという環境は整ってきています。
一方で、工場や店舗などを持っていたり、また、極度に機密性の高い情報を扱う会社など、出社が必然であるような現場を持っている会社は、出社はある程度は仕方が無いでしょう。そういった会社に所属していて、自分だけリモートでというのはなかなか認められないと思います。一方で、そういった会社でも一時的にリモートとか、今日はリモート、といった働き方は増えています。ちょっとしたプライベートの都合、例えば通院や子供の世話、介護などで数時間あける際は、その前後をリモートワークにすると言ったような働き方が可能であることがコロナで証明されました。
但し、リモートワークは従業員にもある程度の責任が生じます。会社にいれば、ある意味、いるだけで仕事中とみなされたわけですが、リモートワークでは仕事を自分でコントロールしなければなりません。自由には責任がついて回りますし、その責任を果たせなければ自由も奪われてしまいます。
働き方は選べる
なお、コロナでリモートワークとなり、それで十分仕事ができていたにもかかわらず、ここ数年でまた出社を強制されるといった会社も、実は少なくありません。「リモートで十分仕事ができていたのに、なぜわざわざ出社しなければならないのか?もう通勤電車には乗りたくない!」という声もちらほら聞きました。そしてそういった会社からは、出社を理由に転職する人も少なくありません。
別の理由でリモート限定の働き方をする人もいます。子育てや介護など、家庭で何らかの拘束時間がある人は、リモート以前は会社を辞めるしかなかったのですが、リモート以後はそんな人でも十分働けることがわかりましたので、リモートワークができる会社に転職していきます。
さらに、IT系の仕事では2000年頃以降から転職が当たり前になってきました。従来の日本企業のように、一つの会社で定年まで勤め上げるという人は希で、新しいことをしたかったり、業務内容や処遇に不満がったりという理由で転職するのは、IT系では普通ですし、会社の側も従業員の転職はよくあることです。働く環境は自分で選べるような社会になってきています。
起業も一つの選択肢
なお、自分で自分の会社を作れば、自分の働き方は自分で決められます。
(追記)新卒リモートワークのリスク
働き方は自分で選ぼう、と言う一方で、新卒社会人一年目にとってリモートワークは本当にそれで大丈夫か?という懸念があります。既に働くことについてのイメージができている人、働くことに慣れている人は、「自分でコントロールする」こともできますが、そもそもそのイメージが全くない状況で、何をモデルに働くイメージを持てばいいのか、と考えると、もしかしたら新卒即リモートワークは当人にとってリスクが大きすぎるかもしれません。今後様々な実験と修正が行われていくと思います。
能力の見せ方
先の章で「働き方は選べる」と言いましたが、そのためには就職先、転職先の会社に自分の力をアピールする必要があります。ここでは、データ分析、データサイエンティスト、データエンジニア志望の学生がどのように能力を見せることができるかを考えます。
何をおいても高学歴は強い
まず学歴は最重要です。特にデータ分析、データサイエンスは勉強力、研究力が必要な仕事なので、勉強力が必要なランキング上位の大学出身であることや、その中でどのような学部・学科で研究してきたか、またどこまで研究してきたか(修士、博士)は重要視されます。
研究室も、分野によっては効きます。○○先生の研究室なら間違いない、とか、△△先生のお弟子さんならちゃんとトレーニングされている、という定評がある研究室があります。
面接等では研究内容の説明を求められることも多いと思います。データ分析者はクライアントや経営者に向かってデータや現象を説明する機会が多いので、相手のわかる言葉で簡潔に要点を伝える、というスキルを見られます。自分の研究内容を、素人にもわかるように丁寧に説明することができれば、この人は仕事になってもちゃんと分析内容を説明できる人だなと思われます。
論文や学会発表の実績などもアピールポイントになります。有名な学会での発表ならば、訪問先の会社にも学会員がいるかもしれません。そうすれば、「あのとき○○の発表をした人」という手がかりになります。
ところで、専門が数学、統計学、情報、コンピューターサイエンスなどでしたら、この仕事を選ぶことにあまり違和感はありませんが、それ以外の学科の場合は、なぜこの仕事を選ぼうとしているのかについて問われる可能性が高いです。
資格
学歴の見栄えが良い人にはあまり必要ありませんが、そうでなければ基礎力を証明する資格はあるとよいです。例えば数学科で博士ならば数学、統計学は当たり前にできるとみなされますが、文系学部出身や高専出身などの場合は資格で基礎力を示すことができます。
数学は、理系大卒ならば特に問題ないです。そうでない場合は数学検定などを持っておくと便利です。数学検定は準一級で理系高卒程度、一級が理系大学教養程度なので、すくなくとも準一級レベルの数学は使えないと話が通じません。
統計学は、今の社会人は理系大学でもあまりやっていないので、統計検定を持っていると安心できます。文系出身なら二級、理系出身なら準一級程度があれば最低限の基礎力はありそうに見えます。他方、今の高校生、大学生のカリキュラムには統計は必修で入ってくるので、今後はもっと上の級をもっていないと意味が無いという時代になるかもしれません。
英語はあるに越したことは無いですが、無くても大丈夫です。少なくとも英語の論文を読めればOKですし、最近の翻訳は高性能なので、翻訳ツールを使いながらでも英語を読めれば大丈夫。但し、外資系企業などに行きたい場合は普段のコミュニケーションが英語になるので、話せないとアウトです。
システムエンジニアリング系の資格など、実務寄りの資格は、データ分析、データサイエンスでは学生のうちから持っていてもあまり意味が無いかもしれません。もちろん、あればあったでよく勉強する人だなとは思ってもらえますが、その程度かも。実務の資格は就職してからいくらでも取るチャンスがありますし、会社によって必要な資格が違うので、それよりも基礎力があった方がいいです。
コンテストの成績
コンピューターサイエンスは、アルゴリズム、プログラミング言語、データ構造、ハードウェアなどの基礎学問から、機械学習、バイオインフォマティクス、システムエンジニアリング、画像解析、言語解析などの応用まで幅広いのですが、データ分析、データサイエンスに向けた基礎という意味では、機械学習とアルゴリズムはある程度理解があるとよいです。こちらについては資格よりもコンテストが合います。
データ分析のコンテストには、kaggle が有名です。最近は SIGNATE というのもあるんですね。面白そう。これらは主催者によってデータが用意され、何らかの目的と制約の下でそのデータを分析し、成果を競います。常にインターネット上で何らかのコンテストが開催されていて、いつでも誰でも参加できるので、自分の力がどのくらいの位置にあるのかがわかりますし、参加すれば常に成績がアップデートされるので、成績向上に向けて自己研鑽することができます。他にも様々なコンテストが開催されているのですが、参加資格や開催頻度などの制約があるので、まずはこの二つのどちらかを手っ取り早く始めてみるのがよいです。
アルゴリズムのコンテストには、AtcoderやCodeforcesなどがあります。こちらも開催頻度が非常に高いので、自己研鑽に適しています。自分のリズムに適したコンテストを選んで参加し、自分の力を客観的に観察して、自己研鑽していけるとよいです。
これらのコンテストは世界中から凄腕の猛者達が集まるので、ここで上位の成績を持っていればそれだけで就職先に困らないくらいのステータスですが、そこまで上位ではなくても実力を示す指標にはなります。
自作のサービスやプロダクト
今や、パソコンが一台あればインターネットの世界では何でもできる時代ですので、学生のうちからでもソフトウェアやサービス、アプリ、ゲームなどを作って公開したり、さらにはそれを副業にして稼いだりすることが可能です。自分の実力を示すために、そういった自作のプロダクトをもっていることは非常に有効です。
但し、どこかの書籍に書いてあるものをそのまま作っただけとか、チュートリアルにかいてある Hello World! だけではあまり評価されません。(全くされなくも無いですが。)自分なりの目的、目標、それを作る意味、なぜそれを作りたかったのか、そういった動機があって、開発にあたっての苦労や改善などの努力があって、最後に何らかの達成や課題の解決があると、確かにそれはあなたのプロダクトですね、と評価されます。
なお、本当に凄いプロダクトを持っているならば、それは他人に評価してもらうのではなく、それを使って自分で起業すればいいです。今は起業のハードルもさほど高くありませんから、自分で世の中に直接価値を提供できるならば、敢えて他人に評価してもらわなければならない理由はどこにもありません。
まとめ
ということで、データ分析、データサイエンティスト、データエンジニアという仕事の概説と、それらの仕事につくには何が必要かをざっと書いてみました。キャリアセミナー以外でも使えそうでしたので、この note にして残しておこうと思います。
ところで余談ですが、この note にも AIアシスト(書いている時点ではベータ)の波が来ていますね。昨年の画像AIにはじまり、ここにきて chatGPT などの大規模言語モデルは、ビジネスやデータ分析の世界にも大きな影響を与えそうで(というより根本からひっくり返しそうで)、目が離せません。これから社会に出る中学生、高校生の皆さんはこれらを絶対に使っておいた方がいいです。今の20代、Z世代が「デジタルネイティブ」と呼ばれるように、今の中高生は「AIネイティブ」と呼ばれるようになるのでは?将来当たり前のように AI がいる時代を切り開けるのは、子供の頃から AI が身近にいた世代だけです。
但し、くれぐれも自分の能力をエンハンスする方向に使ってください。間違って使うと、自分が全く勉強しなくても、勉強しているかのように学校や先生をごまかすことができてしまうのですが、それによって鍛えるチャンスを失うのは自分の脳です。AI に使われる自分か、AI を使う自分か。AI をどう使うかで、どちらの自分になるかが決まります。もちろん、AI に使われる人生も悪くないと思います。その方が幸せかもしれません。決めるのは自分です。
(追記)ちょうど東京大学から学生に向けて、chatGPT等生成系AIへの向き合い方についての記事が出ました。参考になると思います。「生成系AI(ChatGPT, BingAI, Bard, Midjourney, Stable Diffusion等)について(東京大学理事・副学長(教育・情報担当)太田邦史)」