見出し画像

企業の研究開発文脈とデータサイエンス/データサイエンティストのこれまで

こんにちは、K研究員です。

私がよく見ているTJOさんという人のtwitterでデータサイエンティスト10年の振り返りを書かれていたので私も書いてみようかと思います。トップ画像はAIで適当に生成しました。


さて、データサイエンティストの定義は定まっていませんが、いくつかの類型が存在するといわれています。とはいえ、その類型もいろいろなものがあってどれがいいのかわかりません。
データサイエンティストたちの中にはデータサイエンスブームによって急にその職に就いた人もいると思うのですが、一方で昔から同じような仕事をしていた祖先となる人・部署も存在します。ここではその先祖によって分類してみます。

  • 1.営業・マーケティング・企画型

  • 2.金融などの専門職型

  • 3.研究開発型

  • 4.システム開発型

多分まだまだいろいろなパターンがあると思うのですが、このぐらいにしておきます。

私は3.の研究開発型で、企業の研究開発部門に属していてずっとパターン認識技術をやっているうちにいつしかそれが世間からデータサイエンティストと呼ばれるようになったタイプです。そんな私の視点からデータサイエンティストブームについて振り返ってみようと思います。

日本が元気だった2000年代後半

私が就職したのは2000年代の後半で日本企業は氷河期を抜けてかなり元気な時でした。2000年代はアイボなどが流行っていてAIもブームで状況は今と近かったかもしれません。しかし、企業の研究開発の先行きはそこまで明るくはありませんでした。2006年にはソニーが(当時の最先端のAIであったアイボを作っていたのですが)、ロボティクス関係の研究所を閉鎖します。
(もうソースがないので個人のブログですがリンクさせてください)

1990年代には、これからはソフトウェアの時代ということでいろいろな研究開発部門が立ち上がったのですが、実際にはあまり事業に貢献しておらず、懐事情は苦しかったのです。

私が就職した会社のソフトウェア研究所もリーマンショックもあって次の年には廃止され中央研究所に異動になりました。

ビッグデータブームが到来した2010年代前半

さて、今やDeepLearningで花形の画像処理技術ですが当時も比較的花形でした。画像処理は効果がわかりやすく、なかなか一般のプログラマーでは画像は扱えないので研究開発分野として生き残っていたのです。例えばデジカメで顔認識する技術、QRコードの広い実用化などは当時になされたものです。ただ、当時はDeepLearning以前ですので、その性能は「あとちょっと」というところ(例えば精度80%とか)から上がらず、グラスシーリング(見えない天井)などと言われていました。

そんな、じり貧の中、2010年代初頭にビッグデータという言葉が流行りだします。多くの人はこれに懐疑的で、「統計学を知っていればビッグデータに意味なんてないことがわかる」みたいな記事も結構ありました。
とはいえブームは渡りに船、研究開発部門はビッグデータを分析するデータサイエンスを研究開発するチームを立ち上げます。

このころ、IBMワトソンなども登場し、結構界隈を騒がせていました。

さて、データサイエンス、データ分析などの言葉を冠した部門で何が行われるかというと、実際にはそんなにやることは変わりませんでした。画像だけじゃなくてテーブルデータも判別しようということや、道具立てもRやPythonが導入され、決定木やロジスティック回帰、Lasso回帰などのパターン認識界隈ではあまり使われてこなかった手法が導入されました。しかし、道具立ては変わっても、取り組む課題やそれに対する効果はあまり変わらなかったのです。
とはいえ世はまさにビッグデータ、データサイエンスブームで多くの企業がそこに投資しました。しかし企業体質は別に変らなかったので、もともと儲かっているところは儲かり、そうでないところは投資を回収できなかったのです。

データサイエンスブームが全盛期を迎えた2010年代後半

そんなこんなで私は2016年に転職するのですが、新しい会社には「データサイエンティスト」という肩書の人がいて、本当に世の中に存在するのかとびっくりした覚えがあります。
ちなみに新しい会社の研究開発部門は画像処理がメインでしたが、世間的にはデータサイエンスの研究開発が伸びていた時期だったので、上司に頼んでそういう部署を作ってもらいました。そんな折にTJOさんのブログをよく参考にしていました。

転職から2年もすると、DeepLearningが急速に発展し、旧来の画像処理はだんだんDeepLearningベースのものになってきました。データサイエンス界隈もkaggleなどのおかげで盛り上がっていました。この辺りの時期は本当にバブルのような状況で、データ分析をするベンチャーがタケノコのようにいっぱい生えてきていましたが、同時にPoC(価値検証)をするだけで導入されないというような話も聞こえてきました。私も上司紹介のベンチャーにPoC 案件を出しましたが、このデータで評価してほしいと渡したデータの評価結果が出てこないなど杭打ち偽装より酷い品質でした。

ちなみに、ビッグデータなんて意味がないという話があると言いましたが、この当時、データ活用基盤が整備され、使ってみると驚くほど便利でした。データ活用基盤ができる前は上司に「このような条件に合致するものは全部で何件あるか?」と聞かれたら1万件ぐらい出してみてパーセンテージを割り出し、全数を掛けて求めていました。そうすると上司に「1万では少ないのではないか」とか言われるので「統計的には…」とか説明するわけですが、データ活用基盤は何十億ものデータを即時に集計できるのでその手間がないのです。全件集計と母数の推定は違うといえばそうなのですが、実用上は全件集計のほうが説得力があるのです。

データサイエンスブームの終わりゆく2020年代

そんなこんなで、ビッグデータ、データサイエンス全盛期を迎えたわけですが、2020年代にはコロナ期に入り日本市場自体が縮小した影響もあって、だんだんデータサイエンス界隈は下火になっていきます。下火とは言ってもデータサイエンティストという言葉は定着し、「希望の職種はデータサイエンティストです」というような会話が普通になされるようになりました。

https://tjo.hatenablog.com/entry/2020/05/23/134437


一方でDeepLearningはさらに進化し、自然言語処理もDeepLearningが当たり前の時代になってきます。一見するとDeepLearningが追い風のようにも感じますが、深刻な問題として、世の中に「よくわからないけどDeepLearningにデータを入れると課題解決できる」と言う人が増えてきます。そのような人にDeepLearningのどのような手法を使っているのですかなどと聞いても、「普通のDeepLearningですけど」みたいな回答が返ってきたりするのです。

そして現在

さて、現在DeepLearningはさらに進化し、お絵描きやチャットができるようになったわけですが、DeepLearningにあらずんば研究にあらずというような状況を作り出します。一方で世の中にはDeepLearningできるほどのデータがそろわない問題や他の手法のほうが向いている問題のほうが多いので、どうしてもギャップが出てきます。
例えば学生が自然言語処理を研究しようと思った時にDeepLearningをしようと思うと日本語のデータは量が少なかったりして英語のデータを使わざるを得ないことが多いです。英語の勉強になっていいという側面もあるかもしれませんが、試しに友達に使ってもらう、自分で日常使ってみるということができないし、どのような場合にミスをするのかという深堀も難しく、等身大の課題解決が学べないのです。アカデミアと企業の溝はどんどん大きくなってきていると感じます。それは数学や物理学が通った道と同じで仕方がないのかもしれませんが。この辺りは別の記事に書きたいなと思います。

時代はDX…なのか?

さて、データサイエンスは息をひそめましたが、一方でDX(デジタルトランスフォーメーション)という言葉が流行りだします。DXという言葉になっても本質は変わらず、やるべきことは今も昔も変わらないのかなとは思います。
一方でこの10年で本質的に変わったこともいくつかあります。一つは企業のシステムがクラウドに移行したことで、人力や他社のシステムを含めてサービス全体で提供できるようになったことです。これによりGAFAM(Google, Apple, Facebook, Amazon, Microsoft)の恩恵を最大限に受けた課題解決ができ、何なら全部人力という課題解決もできるようになりました。
もう一つはコロナによるオンライン化です。オフライン回帰が見られるものの、何十年分ものオンライン化が推進されました。
しかし、自分を含め、人の心はなかなか変わらないもの。おいしいところはGAFAMに持っていかれましたが、その中で我々はどう生きるのか、企業は変れるのか、アカデミアとどう連系していくのか、選択が必要な時代になってきたと思います。




無料のプログラミングクラブCoderDojoを運営するにあたり寄付を受け付けています。お金は会場費・Wifiの費用・教科書に使用します。