
データサイエンスの各国の現状 〜米国〜
過去10年間で、データサイエンスとデータサイエンティストは、米国のビジネス界で注目される用語になった。 データサイエンティストは人気のある仕事になり、データサイエンスは現在ビジネスにおいて不可欠な部分として広く認識されている。
このレポートの目的は、米国のデータサイエンティストを調査することである。 そのために、データサイエンティストとは何かを精査し、採用パターンを調査する。
A.データチーム
データサイエンティストを理解するためには、データチームを全般的に見る必要がある。データチームの全員がデータサイエンティストというわけではない。通常は、データサイエンティスト、データエンジニア、データアナリストのスキルが必要になる。より複雑なプロジェクトでは、機械学習エンジニアやAIエンジニアが必要になることもある。 データエンジニアは、データモデルを作成し、データパイプラインを構築する。中でも最も重要なのは「抽出、変換、ロード」を管理することである。これを“ETL”と呼ぶ。
ETLとは、混乱した生データをソースから取り出し、コンピュータが認識しやすいデータに集約し、データウェアハウスに転送するプロセスである。データサイエンティストは、クリーンなデータを使用して予測モデルを構築および改善する。 データサイエンティストも多くの分析を行うため、単純な分析タスクをデータアナリストやビジネスアナリストに委任することは珍しくない。 その後、データサイエンティストは、データチームの外部の人々に結果を提示する。 さらに、予測モデルの結果に基づいて、データサイエンティストは、新しい予測モデルを構築するか、既存の予測モデルを改善することができる。
データエンジニアとデータサイエンティストは熟練した専門家であり、その結果、米国では彼らの平均給与は100,000ドルを超えている。データアナリストはスキルや経験が低い傾向にあり、平均給与は70,000~80,000ドルとなっている。前述の通り、データチームには他の職種もあるが、これらが最も一般的である。
B.データサイエンスとデータサイエンティスト
データを保存・処理する能力が進化するにつれ、データサイエンスも進化してきた。データサイエンスがより複雑で洗練されたものになるほど、それを定義することが難しくなる。その結果、米国の多くの人々、特にデータサイエンス業界以外の人々は、データサイエンティストが何をしているのかを説明するのに苦労している。この問題を解決するために、業界内の一部では、この言葉を明確に定義しようとしている。
例えば、MITのデータサイエンス部門の責任者は、次のような定義を提案している。データサイエンスとは、「データから価値を引き出すための複雑で複数のステップを踏むプロセスの包括的な用語である。」報告書では、データサイエンスが複雑になるにつれ、データサイエンティストも複雑になっているとも述べている。 これは、必要とされるスキルの高さによるものと思われる。データサイエンスは、プログラミング、コンピュータサイエンス、線形代数、統計学、数学的分析、機械学習、アルゴリズムなどの基礎の上に成り立っている。求められるスキルが高いため、データチームには、異なるが補完的なスキルや経験を持つデータサイエンティストがいることも珍しくない。そのため、データサイエンティストとは何か、どのようなスキルを持つべきかを定義することは困難である。定義する際には、どのような役割を期待されているのか、どのような種類のスキルが求められているのかを幅広く理解する必要があるのではないだろうか。
2012年に「21世紀で最もホットな仕事」と発表されたにもかかわらず、米国では需要に見合うだけの熟練したデータサイエンティストがいまだに不足している。GAFMAをはじめとするハイテクの大手企業は継続的にデータサイエンティストを採用しているが、現在では非ハイテク企業もデータサイエンティストを奪い合っている。
現在、Accenture、Deloitte、Wal-mart、Nikeなどの企業は大量のデータサイエンティストを採用している。LinkedInによると、同社のウェブサイトに掲載されているデータサイエンティストの求人広告の数は、2012年から650%増加しているという。2016年のGlassdoorの求人広告は1,600件、2020年には6,500件となった。データサイエンティストには、高度な学歴と技術力が求められるため、データアナリストをデータサイエンティストに昇格させるという単純なものではない。そのため、企業はデータサイエンティストの獲得競争を繰り広げており、データサイエンティストには、高額な給与や多額の福利厚生などの特典が提供されている。このことは、次の採用パターンにも表れている。
C.データサイエンティストの採用パターン
米国におけるデータサイエンティストの採用パターンを人気のあるLinkedIn、GlassDoor、Indeedの3つの求人サイトから調査した。
「データサイエンティスト」という正確なキーワードで検索すると、約23,000件の求人情報がヒットした。この数は、米国でデータサイエンティストが求められているという仮説を裏付けるものである。このセクションでは、最も一般的な雇用場所、雇用者、給与、および仕事の要件を見ていく。
<仕事の場所>
就職先の多くは、金融業界やIT業界、政府機関が存在する大都市がほとんどである。中でも、最も求人数が多いのはニューヨーク、次いでシアトル、サンフランシスコとなっている。これは、ニューヨークが金融業界に強く、IT業界でも存在感を増していることからも納得できる。シアトルにはマイクロソフトの本社があり、サンフランシスコにはシリコンバレーがある。データサイエンティストは米国全国で求められているが、これらの地域は若いデータサイエンティストにとって魅力的な場所であり、拠点を置く雇用主にとっては競争上の優位性がある。
<雇用主>
需要が高いデータサイエンティストではあるが、雇用を維持する事もまた課題となっている。これにはいくつかの理由があるが、そのほとんどは、企業がデータサイエンスやデータサイエンティストをきちんと理解せず、ただ雇用したいだけという傾向に問題がある。これは、企業が適切なインフラを持っていなかったり、データサイエンティストができることの価値や、どのような役割を果たすのかを理解していないことが原因である。理解していない企業は、データエンジニアを雇わずにデータサイエンティストだけを雇い、データエンジニアが行うことをデータサイエンティストに期待してしまう。そこで、Financial Timesは、2018年に64,000人の開発者を対象に行った調査結果を報告した。その結果、すべての開発者の中で、機械学習の専門家とデータサイエンティストが最も多くの時間をかけて新しい雇用先を探していることが明らかになった。
データサイエンティストを必要とする業界がかつてないほど増えているにもかかわらず、IT業界ではデータサイエンティストの求人広告が他の業界よりも多く出されている。また、IT業界以外でも、コンサルティング会社、小売業、デジタルビジネス、金融機関などが大量に採用している。
<給与>
データサイエンティストの需要に見合う給料をもらっている人は少ない。いわゆる売り手市場となっている。リクルートサイトでは、10万ドル以上の給与を支払うポジションが過半数を占めており、実際には14万ドル以上の給与を支払う割合が多くある。
<仕事の要件>
データサイエンティストの求人情報には、その仕事に必要な資格とスキルが記載されている。 雇用主がデータサイエンティストに何を期待しているのかをより理解するために、データサイエンティストを探している広告を掲載した6社のデータをまとめた。 下の表は、これらの仕事に必要な教育、業界経験、スキルを示している。
このデータは、雇用者が求める共通の要件を示している。雇用者は、数学、工学、または科学分野の学士号を持つデータサイエンティストを求めている。これらの雇用主は、エントリーレベルのデータサイエンティストを求めているわけではない。少なくとも3年以上の経験者を求めている。最も求められているテクニカルスキルは、PythonとSQLである。また、表には記載されてないが、技術的で高度なアイデアを一般の人が理解できるように伝えることができる人材を求めていると述べている。共同作業ができることの重要性も強調している。
以下、2つのチャートは、2021年に企業がデータサイエンティストとデータエンジニアのスキルそれぞれに望んでいたスキルの統計である。これを比較すれば、両者の違いをできる。
D.意見
雇用者とデータサイエンティストが抱える問題は2つある。まず、データサイエンティストの育成には長い時間がかかる。ほとんどの雇用者は、3年の実務経験に加えて、修士号または博士号を持つデータサイエンティストを採用したいとしている。修士号または博士号は約6〜9年かかる。
次に、データサイエンスやデータサイエンティストに対する世間の認識が、いくつかの問題を引き起こしている。一般的な問題としては、雇用主が適切なインフラを持たずにデータサイエンティストを採用すること、雇用主がデータサイエンティストを十分に活用していないこと、雇用主がデータサイエンティストにデータサイエンスに関するすべての機能を期待すること、などが挙げられる。
しかし、データサイエンスとデータサイエンティストの必要性から、この業界は今後も成長し続けることが予想され、一般的な認知度も高まっていくはずである。前述したように、MITのデータサイエンスの学科長たちが、これらの問題の解決に取り組んでいる。