先頃、ChatGPTのアップデートで新モデルのGPT-4oが導入されました。これと併せて、データ分析機能が大幅に改善されました。そこで、今回は、この新しいデータ分析機能について解説します。
1.Google Driveなどからファイル追加
新しいデータ分析機能は、現在のところ、有料ユーザーのみが利用可能であり、GPT-4oモデルを選択することで使用することができます。
ChatGPTの操作画面の入力欄の左のクリップのマークをクリックすると、以下のようにGoogle DriveやMicrosoft OneDriveからファイルを追加することができます。
この機能を使用するには、最初に「アプリを接続する」を選択し、画面の指示に従って、Google Driveなどのアプリを接続してください。
以下のように、「設定」の「接続するアプリ」タブからアプリを接続したり、切断したりすることもできます。
アプリの接続後にChatGPTの操作画面に戻って、クリップマークをクリックし、「Google Driveから追加する」をクリックすると、以下の画面が現れ、ファイルを選択して、ChatGPTに追加できるようになります。
以下がGoogle Driveからstrabucks.csvのファイルを追加したところです。
○都道府県別のスターバックス店舗数のデータファイル
2.インタラクティブな表の操作
(1) インタラクティブな表の表示
starbucks.csvのファイルを追加して、そのまま矢印をクリックして送信します。すると以下のように英語で回答が返ってきます。上の表がインタラクティブな表になっており、右上のマークは「Google Driveで開く」「tableをダウンロードする」「tableを広げる」を表しています。
右上の「tableを広げる」をクリックすると、以下のように表が拡大表示されます。
(2) インタラクティブな表の一部についての質問
以下のように表の一部を選択して質問することができます。
上の図のように1行目をマウスで選択すると、以下のように「行 #1」と青字で表示され、この部分について質問ができます。
回答は以下の通り。
次は、5行目までを選択します。
(3) インタラクティブな表の編集
表のデータを並べ替えることもできます。
① プロンプト:降順にして
② プロンプト:八地方区分ごとに集計して
③ プロンプト:百分率で表して
④ プロンプト:店舗数を倍にして
表の右上のマークをクリックして、表を拡大表示しました。
3.インタラクティブなグラフの作成
インタラクティブなグラフが作成できるグラフの種類は、棒グラフ、折れ線グラフ(ラインプロット)、円グラフ、散布図の4種類です。
(1) 棒グラフ
右上のマークは、「静的チャートに切り換える」「グラフの色の変更」「chartをダウンロードする」「chartを広げる」を表しています。マウスでグラフに触れると、ポップアップで数値が表示されます。以下のようにデータセットの色を選んで変更することもできます。
(2) 折れ線グラフ(ラインプロット)
マウスでグラフに触れると、ポップアップで数値が表示されます。以下のようにデータセットの色を選んで変更することもできます。
(3) 円グラフ
マウスでグラフに触れると、ポップアップで数値が表示されます。以下のように各データ項目の色を選んで変更することもできます。
(4) 散布図
マウスでグラフに触れると、ポップアップで数値が表示されます。以下のようにデータセットの色を選んで変更することもできます。
(5) その他のグラフ
インタラクティブなグラフではありませんが、その他にも様々なグラフを描くことができます。以下にいくつかの例を紹介します。
① ヒストグラム
② 箱ひげ図
③ 3Dグラフ(3Dサーフェスプロット)
4.データの分析
(1) スターバックス店舗数の分析
ファイルのみをそのまま送信すると、ChatGPTが英語で回答してくるので、「日本語で分析して」と指示します。
グラフを描いて、視覚化してもらいます。
最後に、データ分析から得られるインサイト(洞察)を抽出します。
(2) スターバックスの店舗数と都道府県の人口の相関分析
スターバックスの店舗数のファイルと都道府県の人口に関するファイルを同時に分析してもらいます。
○都道府県別のスターバックス店舗数のデータファイル
○都道府県の人口に関するデータファイル
ChatGPTが2つのファイルのデータを結合した表を作成しましたが、北海道だけしか記載されていません。これは、都道府県の人口に関するデータファイルの都道府県名の「都」「府」「県」の文字が省略されているためだと考えられます。したがって、都道府県名を修正して、再結合することを指示します。
プロンプト:population.csvの都道府県名を正しく修正して、データの結合をやり直してください。
今度は、データを正しく結合することができました。表を拡大表示すると、以下のようになります。
グラフを描いて視覚化してもらいます。
グラフが文字化けしてしまいました。インタラクティブなグラフは最初から日本語表示に対応していますが、インタラクティブでないグラフは日本語表示が上手くいきません。
日本語フォントファイルをアップロードして、グラフを描き直してもらいます。
○日本語フォントファイル(NotoSansJPのTrueTypeフォント)
一部、日本語表示が修正されましたが、都道府県名は正しく表示されません。
表示がおかしいだけで、ChatGPTは都道府県を正しく認識しているはずだと考えて、このまま分析を進めます。
最後に、今回の分析から得られたインサイトをまとめてもらいます。
(3) ポケモンデータの分析
900匹以上のポケモンのステータスなどについてまとめたデータファイルを分析します。
○ポケモンのステータスデータ
(4) 売上データの分析
売上のサンプルデータについて、グラフを描いて分析します。
○売上のサンプルデータ
(5) 教育用標準データセット(SSDSE)の分析
統計センターがデータ分析の教育用に公開している教育用標準データセット(SSDSE)を使用してデータ分析を行います。
SSDSEの2024年版基本素材(SSDSE-E)は以下のリンクから入手できます。
○SSDSE-E-2024(CSV:28KB)
表が細かくて見づらいので修正を指示します。