#38「データサイエンスへの道──Excelからはじめる分析道、その費用・期間・活用のリアル」

2025年1月4日 00:09

デデデータ!!〜“あきない”データの話〜第25回「文系人材が社内で活躍できるデータサイエンティストになるために、まず始められること」の台本・書き起こしをベースに、テキストのみで楽しめるようにnote用に再構成したものです。

データサイエンティストとは、その実態を端的に表現するなら「データから価値を創出し、ビジネス課題に答えを出す職種」ということになる。多くの人が「Pythonのコードを書けること」や「数学・統計の理論を知っていること」を重視しがちだが、本質的には「事業上の問題を見つけて、適切なアプローチで解決策を導き、成果に貢献できるか」が問われる世界だと思っている。

近年ではChatGPTの登場などにより、生成系AIがデータサイエンスの世界を塗り替えるかもしれないという見方もある。しかし、分析プロセスを主導する主体として「何を予測したいか」「どのようにビジネスに組み込むか」を決めるのは、結局のところ人間にしかできない。

文系出身だろうが理系出身だろうが、この点にしっかり目を向けて学習を積めば、データサイエンティストとして十分に活躍できると考えている。AIエージェント時代においては、コードを書く手間が下がることから、今のうちに投資しておく価値は高いとさえ思う。

1. Excelオンリー組織からPythonを活用するDXへ：費用と期間のリアル

Excelのままでもいいケースはある

まず大前提として、すべての企業や部署が高度な機械学習やAI分析を必要としているわけではないことを強調しておきたい。Excelオンリーでも十分に分析が回り、ビジネス効果を生み出しているなら、無理にPythonを導入する必要はない。データが数万行程度で、しかも分析アプローチが基本的な集計・可視化レベルに収まるならば、Excelベースで十分にやっていけるケースも多い。

だが、継続的な業務改善やさらなる売上拡大を狙う上で「Pythonなどのプログラミング言語を活用した、より本格的なデータ分析を行いたい」というニーズがあるのも事実。ここで気をつけたいのは、プログラミングを身につけるまでにかかる期間とコストを甘く見積もりがちな点だ。

Pythonを扱える人材を自前で育成する費用・期間（組織の視点）

文系出身者ばかりの組織で、Excelだけしか扱ってこなかった人にPythonや統計的なアプローチを習得させようとする場合、教育コストと学習期間はどうしてもかかる。

私の経験から逆算すると、以下のようなイメージになる。

オンラインコースや書籍を中心に学ぶ最も経済的な方法
期間は6か月～1年ほど。費用は書籍代やUdemyなどのオンライン講座受講費で7～8万円から、高くても30万円程度に収まるだろう。これはあくまで個人の学習費用なので、会社が何人分を負担するかにも左右される。(人件費は含まない）
中程度の費用（ブートキャンプ型）
期間は3～6か月で、費用は一人あたり数十万円から最大200万円近くかかるケースもある（たとえば専門スクールへの通学など）。短期集中で基礎から実務レベルまで手を動かす点が利点だが、時間的拘束が大きい。
学位プログラム（フルタイム留学など）
期間は1～2年、費用は数百万円から上は1000万円を超えることもある。大学院レベルの高度な教育が受けられる代わりに、時間・金銭の投資リスクはかなり大きい。（これを選ぶケースはほとんどないし、ROIが合わない。）

企業がそれなりの規模でエンジニア育成を考えるなら、一人あたり100～200万円くらいの育成費を見込んでおけば良いと考えている。とはいえ、人材流出リスクもあるため、「外部の専門企業に分析プロジェクトごと依頼した方がかえって楽」という考え方もある。育てた人材が辞めてしまう懸念があるなら、外注活用も視野に入れるのは当然だろう。

そこまでしたくないという声が聞こえてくるぞ。

Excelのスキル向上講座から始める選択肢

いきなりPythonに行かず、まずはExcelの分析スキルを強化するという方向性もある。

たとえば、データ集計・ピボットテーブル・関数活用・簡易的な統計分析まで含めた30万円くらいのブートキャンプを受講させるだけでも、日常業務の生産性は相当高まるはずだ。企業によっては、その後Pythonに進むかどうかを見極めるステップとしてこの方法をとることが多い。

たった30万円でも、全くやったことがない人と比較すると雲泥の差がつくことをお伝えしたい。コースにもよるがしっかり演習できるものであることが条件だ。

だが、本気ならば、最初からpythonにとりくむべきだ

本気度合いは時間ではかれる。基準を一つ設けるならば、最低320時間くらい、座学ではなく、コードを書く練習ができるようになることだ。pythonで分析業務ができるようになる。最近は、copilotもあるので、もっとやりやすいはず。

2. ROIの高い業務テーマを探ろう。

統計データの活用機会が乏しい組織でニーズが高いテーマ

組織として統計データやオープンデータを活用する機会が少ない場合、まずは「売上アップ」「マーケティング」「粗利改善」など、ビジネスインパクトがわかりやすいテーマに焦点を当てたほうがよい。

CRM・顧客分析：リテンション施策
既存顧客の満足度を測定し、離脱を防ぎながらアップセルやクロスセルを狙う。CRMデータと公開統計データを組み合わせることで、地域や業種ごとの顧客動向がより鮮明になる。
需要予測：マーケティングシナリオの精度向上
製品やサービスの需要を統計的に予測し、在庫や人員配置を最適化する。ここでは天候データや人口動態などの外部統計データを活用するケースが多い。
粗利改善：仕入れや価格設定の最適化
仕入れのタイミングと価格設定を分析して、粗利を上げる。特に取扱製品が多い企業や、原材料のコスト変動が激しい業種では、外部統計データをうまく取り入れて仕入れ戦略を検討することで利益率を向上できる。

上記の業務に近い場合は、200万円の育成費を投下しても確実にリターンがあると思える。

3. データサイエンティストの「三つの力」──文系でもなれる理由

データサイエンティストはよく「データサイエンス力」「データエンジニアリング力」「ビジネス力」の三つの力の掛け算で評価されると言われる。私はこれにほぼ賛成で、「どの力をどのくらい持っているか」でキャリアの方向性が定まると考えている。

3-1. データサイエンス力

統計学や確率論、機械学習、深層学習（ディープラーニング）、そして生成系AIに至るまでの理論や手法を理解し、分析モデルを実装できる能力。文系出身でも座学を積み、手を動かしていけば十分身につく。ただし常にアップデートされる分野なので、学び続ける姿勢は欠かせない。
このテーマで難しいのは、データ解析手法を数学的に理解するプロセスでここで差がつくとかんがえていい。

3-2. データエンジニアリング力

データベース（SQLなど）の扱い方、クラウド環境の構築、インフラのスケーリングなど、分析環境を整えるための技術領域。ここは理系・文系の差よりも、やってきた実務経験の差が大きい。
データベース職人、データマート職人、ダッシュボード職人と言われることもあるが、ひたすらデータを抽出する経験が重要になる。
そのプロセスで、データクレンジングやワークフローなどを学ぶ。
コンテナ技術（DockerやKubernetesなど）も含め、本格的なシステム開発経験がないと手強い部分が多い。外部パートナーに委託する企業も少なくない。

3-3. ビジネス力

業界のドメイン知識に加え、「ビジネス課題を発見して解決策を組み立てる」能力。コミュニケーション力やプロジェクト管理力もここに含まれる。実は一番大切とも言えるポイントで、これが弱いとどれだけ高度な統計モデルを作ってもビジネスにインパクトは出せない。

文系出身でも「ビジネスでの課題設定力」「現場との調整力」に強みがあれば、十分にデータサイエンティストとして活躍できる。分析手法やプログラミングはChatGPTなどの生成系AIがサポートしてくれる時代に入っているが、そもそも「どんなデータから何を予測したいのか」「結果をどう業務に組み込むのか」は人間の判断が必要だ。

4. 学び方とキャリアパス

4-1. 小さく始めるならExcelデータ分析→BIツール→Python

最初からPythonや高度な機械学習を目指さず、まずはExcelで実務データを集計・可視化することから始める。次に、BIツール（PowerBIやTableau、Looker Studioなど）を使う形で、より大きなデータの可視化やダッシュボード化に進む。そこからスクリプトやSQLを習得し、Pythonで機械学習に挑戦するという流れならハードルは比較的低い。

4-2. 座学だけでなく実務プロジェクトに首を突っ込む

データサイエンスはプロジェクトの流れが非常に広範囲に及ぶ（データ収集、クレンジング、モデル構築、評価、システム実装など）。座学だけで一通り理解するのは困難なので、できる限り社内外のプロジェクトに参画し、実務経験を積むとよい。自分がPM（プロジェクトマネージャー）となって、エンジニアや分析担当者を巻き込む形で進めるのが理想だ。

4-3. ツール活用で「シティズンデータサイエンティスト」になる

専門的なコーディングができなくても、ノーコード・ローコードの分析ツールを使いこなし、ビジネス上の課題解決を推進する存在を「シティズンデータサイエンティスト」と呼ぶことがある。予測やクラスタリングを簡単に行えるツールも増えているので、「プログラム書くよりクリティカルシンキングを武器にしたい」という人はこの道を選ぶのもアリだ。

ここまでいったものの、私はスパルタタイプなので、相談されると、最低でも320時間コードを書いてください。それができないのであれば、本当の意味でのReSkillingは厳しいかもしれません、と言っている。ただ、上記のようなアプローチでも、十分、企画やPMを推進するDX人材としては活躍できるといっておきたい。

5. まとめ：Excelオンリー状態でも、データを武器にする余地は大きい

以上のように、Excelだけの組織をDX推進しようと考えるなら、時間もお金もそれなりにかかる。しかし、無理に「フルスタックのデータサイエンティスト人材」を自前で育成しなくても、部分的に専門家に外注する方法もあるし、まずはExcelや簡易的なBIツールで成果を出す道もある。

一番の問題は「自社が何をデータで解決したいか」を明確にしていないことだ。売上予測なのか、需要予測なのか、在庫最適化なのか、あるいは統計データを使ったマーケティング戦略立案なのか。目的があいまいなままPythonを学んでも途中で挫折するだけだろう。最初はExcelで課題を洗い出し、そこから徐々に高度な手法にシフトしていくほうが自然だ。

どの程度内製でやるべきなのか？

私が経営者ならば、その会社の業務から、どの程度、内製化を進めるか検討するだろう。
・小売業・デジタル → 100％内製でOK
・保険・金融・製薬・通信　→ 50％内製でOK
・運輸・化学・製造業・不動産・メーカー系などその他の業界　→ 10％内製でOK
という感じだろう。

社内にいかにデータがあるか、という軸と、分析の難易度で決まる。
データがあり、難易度が低い、小売やデジタルは、内製でやり切る方がROIがよくなる。
一方で、化学、製造、不動産など、そもそも、社内データがない業界は、対象となるデータが少ないので、一部の専門職だけ内製化するといったところになる。

私は常々、「データサイエンティストの評価は、データから価値を創出し、ビジネス課題に答えを出すことだ」と言い続けている。どれだけ優れた統計モデルを作っても、そこにビジネス価値が見いだせなければ自己満足に終わる。逆に、文系で統計やプログラミングが苦手でも、「業務改善のアイデアを思いつき、それを簡易分析ツールで検証し、成果を出した」という事実があれば、立派なデータサイエンティストとして称えられるべきだと思う。

データサイエンスの世界は「発見の面白さ」と「ビジネスインパクトの大きさ」が共存する、非常に刺激的な領域だ。DXへの第一歩として、このブログが「どう学び、どこに投資して、何に気をつけるか」を考えるきっかけになれば幸いである。

エピソードURL