
生成AI時代における市民データサイエンティストの実現可能性と問題点
2018年頃に、IT分野を中心とした調査・分析を行うGartner社が市民データサイエンティスト(Citizen Data Scientist)という概念を提唱しました。
Gartner社は、自社の記事において
市民データサイエンティストとは、統計学や分析手法に関する知識・専門的なプログラミングスキルや経験を持たない一方で、高度な分析ツールを使用することでデータから価値のある洞察を抽出できる人々を指す
と定義し、今後データサイエンティストが不足する中で、多くの企業が市民データサイエンティストの活用に注力するようになると述べています。
一方で、この市民データサイエンティストが提唱された2018年頃と比較し、現代ではChatGPTをはじめとした様々なツールが登場したことで、誰でも簡単にデータ分析ができるようになりました。
そこで今回は、「生成AI時代における市民データサイエンティストの実現可能性と問題点」というテーマについて考えていきたいと思います。
市民科学(Citizen Science)という考え方
市民データサイエンスという概念は、1990年代にアメリカのリック・ボニー氏とアラン・アーウィン氏によって提言された市民科学(Citizen Science)に基づいています。
提言の中でリック氏とアラン氏は、市民と科学の関係を
科学は市民の関心や需要に応える
市民自身が信頼性のある科学的知識の生産に参加する
という2つの側面から構成されると主張しました。
例として、バードウォッチング愛好家のような非科学者が、ボランティアとして科学的なデータ収集に貢献するような関係が挙げられます。
ここでは、市民の科学への参加を以下の4段階のレベルで定義しています。
レベル1:市民がセンサーの役割を果たす
レベル2:市民が基本的なデータの解釈も行う
レベル3:問題の定義やデータ収集にも市民が関与する
レベル4:市民と科学者が共同でデータの収集と解析を行う
生成AIおよび高度な分析ツールが登場する以前は、市民が参加できるのはおそらくレベル2あたりが限界であったと想像できます。
一方で現代では、ChatGPT等を活用することにより、専門知識を持たない方がレベル4のように、科学者と共同でデータ分析を行う=市民データサイエンティストの役割を果たす場面が増えてきているのではないでしょうか。
生成AI時代における市民データサイエンティストの問題点
一方で、「それでは誰でもデータサイエンティストになれるようになったのか?」と問われれば、私は違うと考えます。
ここで挙がってくる議題は、「生成AI時代におけるデータサイエンティストと市民データサイエンティストの違い」です。
本議題を考える上で私が紹介したいのが、Takram社のデザインエンジニアである櫻井稔氏が著書「データとデザイン」で提唱した「可視化の役割は探索と提示という二つに分類できる」という考え方です。
本書で櫻井氏は、以下のように述べています。
私も当時手探りで可視化の世界に飛び込んだが、次第に、その役割は大きく「探索」と「提示」の二つに分類できるという仮説が生まれた。
きっかけとなったのは、とある軍事関係の可視化を手掛けているエンジニアに私の創作物を見せた時の言葉であった。
彼は、「この可視化は何かを探し出すためのものだね」と言った。
そして「僕がやっている可視化は、山の等高線と飛行ルート、目標地点をなるべくわかりやすく示すものであって、何かを探し出すものではないからね」と付け加えた。
それまでさまざまな可視化を手掛けてきたが、そのほとんどが「探す役割」と「伝える役割」、もしくはその両方に分類できることに、そのとき気づいたのだった。
ここで櫻井氏が提唱した2種類の可視化に対して、私は顧客ドリブンと分析者ドリブンというキーワードを使用したいと思います。
提示的な可視化=データを視覚的にわかりやすくまとめ、数字の羅列から意味を汲み取りやすくすることで、専門家に限らず多くの人にその内容を伝播することを目的とする(=顧客ドリブン)
探索的な可視化=データと可視化の間をインタラクティブに行き来しながら、新たなアクションを導き出すことを目的とする(=分析者ドリブン)
ここでいう顧客ドリブン・分析者ドリブンは、分析結果を出力する可視化のみならず、そこに至るまでの分析手法や可視化手法の選定などの一連の工程全体を含みます。
ここで考えなければならないのは、市民データサイエンティストの行う分析は分析に至るプロセスや分析結果そのものがブラックボックスになりやすく、分析者本人が言語化できないケースが多いということです。
彼らは「生成AIを使った結果こうなった」とは言えても、その内容を顧客に対して説得力を持って伝える事ができないことができません。
分析者本人だけで完結するタスクであればそれでも良いかもしれませんが、説得するための顧客がいるビジネスにおいてはこれは致命的な問題だと言えます。
つまり、生成AI時代における市民データサイエンティストの問題として
生成AIに頼った市民データサイエンティストが行う分析はあくまで分析者ドリブンな分析にしかならず、その結果を受け手に分かりやすく伝える顧客ドリブンな分析には至らない
という点が挙げられるのではないでしょうか。
生成AI時代に求められるデータサイエンティストの役割は、"分析結果の翻訳"
前述した考えから、現代のデータサイエンティストに求められる役割も同時に見えてきます。
それはつまり、"分析結果の翻訳"です。
これまで既存のデータサイエンティストが行っていたひたすら時間をかける網羅的な分析を市民データサイエンティストが引き受けることが可能になりました。
一方で彼らの分析過程はブラックボックス化しやすく、分析結果を説得力のある形で顧客に伝えるのは難しいという問題が発生します。
ここで、日本語→英語に翻訳する話者のように、専門的な知識を持つ既存のデータサイエンティストが
市民データサイエンティストが行った分析結果→顧客が理解できる内容
に翻訳する役割を担うことで、これまでよりも大幅に時間短縮し、かつ顧客に対して説得力のある分析を行うことができるのではないでしょうか。
こうした流れから、生成AI時代のデータサイエンティストに求められる役割は"分析結果の翻訳"であるというのが、現時点での私の考えになります。
まとめ
今回の内容をまとめると
前提として、生成AI時代ではChatGPT等を使用することで誰でも高度な分析を行う市民データサイエンティストになることができるようになったと言える
一方で、彼らの分析結果はブラックボックス化しやすいという、顧客がいるビジネスの場において致命的な欠点を抱えている
そこで、専門的な知識を持つデータサイエンティストが、市民データサイエンティストの分析結果を翻訳する役割を果たす
というのが、本記事での私の主張でした。
また、上記の3の内容に付随して
現代のデータサイエンティストにおいて、高度な分析知識よりむしろ相手にわかりやすく伝えるための言語化能力の重要度が増しているのでは?
とも言えると思います。
私自身、現代は生成AIによって誰もが簡単にデータ分析を行い、市民データサイエンティストになれるようになったと強く感じています。
一方で「では現代のデータサイエンティストに求められる役割は何だろう?」と疑問に思ったのが、本記事を書こうと思ったきっかけでした。
逆説的に聞こえるかもしれませんが、生成AI時代における良いデータサイエンティストになるために、日頃から言語化能力を鍛えていこうと思った次第です。
今回も最後までお読みいただきありがとうございました。