はじめに
Code interpreter が組み込まれたChatGPT4なら、データ可視化がノーコードで簡単にできます。
このnote📒で『ボストン住宅価格データセット』を題材にしたデータ可視化を行いましたが、すべてが数値で欠損値がないデータでしたので、前処理の必要はありませんでしたが、現実はなかなかそうはいきませんね。
この記事では、ChatGPT4でカテゴリーデータや欠損データが混在した(お馴染みの)『タイタニックデータセット』で、前処理とデータ可視化をしてみました。
タイタニックデータセットを可視化
『タイタニックデータセット』は、機械学習の分野で有名なデータセットです。
以下は、ChatGPTによるこのデータセットの解説です。
タイタニックデータセットのダウンロード
データセットは、このサイトからダウンロードしました。
データ概要確認
まず、ChatGPTにデータセットをインプットして、データ概要を確認しました。指示は以下、生成結果は動画をみてください。
基本統計量は、全データの値を示してくれなかったので、以下の指示を追加しました。
データ可視化1
カテゴリーデータがあり、欠損値も多いですが、まずはこのデータのまま可視化してみます。
ラベルエンコーディング(文字データを数値に変換)
あたり前ですが、数値データしか可視化されませんので、カテゴリーデータを0,1…に変換してみます。
まずはSex列。もう一度、欠損値の有無を確認してから進めます。
元の列を残したまま、エンコーディングされた列が追加されました。
わかりやすい❗️いいですね。
次はEmbarked列。もう一度、欠損値の有無を確認してから進めます。
エンコーディングにより欠損値も数値化するとややこしいので、以下を指示しました。
データ可視化2
エンコーディングできましたので、もう一度ペアプロットを描いてみます。
指示:相関係数行列を描いてください。
次に、
まずひとつのグラフを描いてから、追加指示を繰り返してグラフを拡張してみます。
指示:Survivedも表現してください。
指示:Pcclassもfacetに追加できますか?
指示:y軸はfareにしてください。
データ考察
指示:経済的地位の低い男性であるほど、紳士的であったとも考えられませんか?
最後に
裏でPythonが走っていますので、「前処理できる」のは、当たり前といえば当たり前ですが、Pythonでやるのは結構な手間なので、これは助かりますね❗️
データを見ながら、口頭(テキスト)指示で、前処理や探索的な可視化を進めることができるのはいい‼️(メッチャ楽😊)
コードは知らなくてもできますが、Pythonで何ができるか?、どんな可視化ができるか?を知っているほど、ChatGPTとのやり取りはスムーズになるなと思いますので、よく利用するライブラリは(たまには)チェックしておこうかな。
補足1:欠損値の補完
指示:乗客の称号(Mr、Mrs、Missなど)や他の変数から年齢を推測し、中央値で補完する。
補足2:前処理を提案してもらう
指示:このデータセットに前処理を施したい。前処理内容を提案してください。
ChatGPTはタイタニックデータのことも学習しているから、知ってることを答えてる可能性もありますが、「〇〇して」だけで実行できるのは。。。ありがたい😭。