LLMでできる範囲のデータサイエンス

2024年12月8日 21:27

以前は以下の記事にまとめていたのだけど、LLMでもできるデータサイエンスの範囲は見えつつあるので、そこだけ括りだしました。

LLMが有効なのはテーブルデータの概観とか

内容チェック、前処理、他のテーブルとの統合などではあります。2024年11月時点のサーベイ論文です。LLMが算数が苦手だったり、読ませたデータの件数を正しくカウントできなかったりという記事は読んだ方もいるでしょう

本当にできるのか、と実装を調べるとOpen Interpreterとか以前はあったし今でも期待してるのですが、現実的に良さそうなのはLangChainのPandas Dataframe Agentで、いわばPandasのAI化/agent化をしている。
仕事でもプロトを作って試し始めているが、簡単な見える化でプログラム書きたくないなというときにはこれでいける気がしてきた。

プロト作るためのサンプルプログラムまであるし、これでいいやん

でも予測分析や最適化といった難易度が高いものはLLM単独ではビミョー

なようです。単純にツールを当てはめればいいとかではなく、業務要件を考えて複雑な処理を設計をして、分析した結果を見てユーザーの顔色を見て再試行するとかはプロが介在する必要はある。
といいつつkaggleで遊んでるだけの奴らくらいは超えるかもなと思っていたら、そういう論文がありました。各エージェントに計画立案や分析などの作業を分担させる、マルチエージェントにすることで、単独のLLMでは苦手としていたデータサイエンス業務もKaggleer程度の分析業務なら自律的にできるかもしれないようです。これはこれで発見だし納得です。

また数理最適化についても、取り組みは始まっていて進捗はあるけれど、実務で安定的に使うにはまだギャップがありそう（2025年1月に追記）

なおマルチエージェントLLM関連の記事は以下にまとめています

ただ結論は以前の記事の通りで

記事のリンクは冒頭にあり、その巻末に書いてますが、以前と結論は変わらずで、むしろできること／できないことの輪郭がハッキリしてきた気がしています。
すなわち、エンジニアリング的作業はどんどん機械化・自動化されていく（そのスピードや方法論が思ってたよりもというのはある）けれど、サイエンスなアプローチはまだ必要だし、むしろ機械化・自動化されたものの使いこなすか考えてあげられる人材としてサイエンティストは不可欠かな、と。
考察の詳細は冒頭のリンク、元記事の巻末にて。

他の情報を見たい方は、目次ページへ
仕切り直しで収集情報の整理から｜くすぐったがり｜note