見出し画像

データサイエンスの原点を探る~JDSCを選んだ安川は、こう語る~

はじめに

こんにちは、DXソリューション事業部でデータサイエンティストをしている安川です。
大学卒業後に生命保険会社に入社し、働きながら大学院に通い博士の学位を取得しました。博士取得後、監査法人、コンサルティング会社などを経て、JDSCに参画しデータサイエンティストとしてデータを活用したサービスを提供しています。

安川 武彦

自己紹介

私はデータサイエンティストとしてキャリアを始めたわけではありません。キャリアの最初は証券アナリストとして企業分析や投資業務を行ってきました。その後、格付機関で企業評価モデルの構築を行い、監査法人で金融商品の評価や金融リスク管理のコンサルティングをしていました。それまで金融中心に計量手法の適用に取り組んできましたが、東日本大震災を契機にもっと社会に貢献したい思いを募らせ、より広い業界でデータサイエンスを武器に世の中を良くしていきたいと考えデータサイエンティストとして現在に至ります。金融を始め、ユーティリティ、製造、通信、サービス、小売・流通、商社、官公庁などを対象に、経営、マーケティング、人事、リスク管理、設計・開発、品質管理、製造などの領域でのプロジェクトに携わってきました。

また業務と並行して、大学での非常勤講師など統計教育・データサイエンティスト育成にも関与してきました。データサイエンスの啓蒙活動に少しだけ貢献できたのではないかと思っています。

より多くの方がデータサイエンスに関心を持ち、データに基づく合理的な判断ができる世界になることを夢見ながら日々データサイエンスの問題に取り組んでいます。

今回は、データサイエンスの原点がどこにあるのか私なりに考えてみました。

あなたが考えるデータサイエンティスト像とは

ここで、みなさんにお聞きしたいことがあります。データサイエンティストのメンタリングの中で私がよくする問いかけです。

「あなたが目指すデータサイエンティスト像を具体的に教えてください」

実際に問いかけてみると、具体的な人物名が出てくることは多くはありません。データサイエンティストが一言で説明できるようなものでないことに加え、各自がイメージするデータサイエンティスト像が多様なものであるためなのでしょう。

データサイエンスの原点を探ることで、個々の要素技術ではなくデータサイエンスというそもそもの考え方がどのようなものなのかを知っていただきたいと思っています。

推しのデータサイエンティスト

私は、データサイエンスの原点がJohn W. Tukey(1915年 - 2007年)にあると考えています。私の推しのデータサイエンティストです。データサイエンティストという言葉が浸透する前に鬼籍に入られています。正確には今のデータサイエンティストとは違いますが、Tukey先生の思想は今のデータサイエンスに繋がるものと確信しています。

実践的なデータ解析者であるTukey先生は、化学者、トポロジスト、教育者、コンサルタント、情報科学者、研究者、統計学者と様々な顔を持ち、科学、政府、産業界に多大な貢献(注)をした人物として知られています。数学・統計科学分野だけでも、多重検定、箱ひげ図、ラムダ分布、ロバスト統計学、高速フーリエ変換アルゴリズムなど多くの統計概念を開発しました。また、研究者や教育者の顔だけでなく産業界へのコンサルタントとしてデータ解析を実践した人物です。

(注)Tukey先生の膨大な業績はここでは多くを語ることはできません。2022年に刊行されたThe Annals of Statisticsでは特集を組みBrillinger(2002)を始めTukey先生の業績を統計学者の立場から紹介されています。

データサイエンスの始まりと未来

データサイエンスという言葉はいつから言われるようになったのでしょうか。Tukey先生が1962年のThe Future of Data Analysisという長大な論文でデータ解析(data analysis)という概念を提示したのが始まりと言われています。

この論文の序文で、データ解析をデータを解析する手順、結果を解釈する技術、分析をより容易にまたは精密にするためのデータ収集の計画と方法、データ解析に適用される(数理)統計学上のすべての手続きと結果であると述べています。つまり、モデルを作るだけでなくデータを使って考えるための一連の活動がデータ解析なのだと解釈しています。

それまで主流だった数学的な厳密性を重視する統計的推測と区別し、データ解析という新しい科学を示したのです。

この論文を読んだことがない方でも、以下の引用句は聞いたことがあるのではないでしょうか。

正しい質問に対してのだいたいの答えのほうが、間違った質問に対する正確な答えよりもよっぽどいい。
An appropriate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.

データを謙虚に眺め、適切な問いを立てることの重要性を主張しているこの言葉は、データサイエンスを生業とするものにとっての規範であるといえます。

探索的データ解析(EDA)という考え方

The Future of Data Analysisで提示した概念をさらに推し進め、実践的な方法論を1冊の本として取りまとめました。これが、探索的データ解析(Exploratory Data Analysis:EDA)です。この本では全体にわたってTukey先生が独自に考え出したデータ解析手法を説明しています。現在でも頻繁に使われる箱ひげ図をはじめ、可視化を用いた直感的なアプローチが多く紹介されています。

一方で、この本では探索的データ解析の方法を説明していますが、その使用方法については何も述べていません。つまり、EDAは、データから学ぶアプローチ、考え方、態度であり、手法のカタログではないことを表しています。

解くべき問題や状況に応じて、どの様な方法でどのようにアプローチするのか、現実のデータに向かっている現代のデータサイエンティストに与えられた宿題だと思っています。

どんなデータサイエンティストを目指すのか

データサイエンティストを定義しようとしたり、タイプ分けをすることにあまり大きな意味はありません。JDSCのデータサイエンティストも、育ったドメイン領域、学問的背景、関心のある技術領域を基礎として、社会での応用領域を各自が追求しています。結局は、何に基礎付けられて活動しているかがデータサイエンティストとしてのカラーを生み出すのだと思います。みなさんには、既存のステレオタイプには捉われない新たなデータサイエンティスト像を構築してほしいです。

まとめ

データサイエンスで扱っているのは、教科書の例題ではなく現実の問題やデータです。実際の分析では、教科書には書かれていない分析上の判断を頻繁に行います。そのため、深く悩んでしまうことも多くあります。私の場合、判断に迷った時には、「Tukey先生ならどう考えるだろうか」と自問しています。冷静になって考え直すことで、突破口が見つかることが多くありました。この意味で、Tukey先生はデータ解析の原点であり、私のデータサイエンティスト像としての原点でもあります。

みなさん自身の原点となる推しのデータサイエンティストはどんな方でしょうか。是非、推しが見つかっている方も、そうでない方も、推しのデータサイエンティストやみなさんが考えるデータサイエンスの原点について一緒に楽しく話しましょう。

もし、目指すデータサイエンティスト像を探索されているのであれば、JDSCのデータサイエンティストと会ってみてください。JDSCでは、ビジネスとエンジニアリング、データサイエンスが三位一体で協働しています。個性的なデータサイエンティストが育つ環境を提供し、それぞれが目指しているデータサイエンティストに近づけるよう会社として支援しています。データサイエンティストが活躍できる環境を社会の中にも浸透させていくことが、私のJDSCでの野望のひとつです。

参考文献

-  Tukey, J. W. (1977). Exploratory Data Analysis. Addison-Wesley.
- Tukey, J. W. (1962). The Future of Data Analysis. The Annals of Mathematical Statistics, 33(1), 1–67. http://www.jstor.org/stable/2237638
- Brillinger, D. R. (2002). "John W. Tukey: his life and professional contributions." Annals of Statistics. 30 (6) 1535 - 1575, December 2002.


いいなと思ったら応援しよう!

この記事が参加している募集