chatGPT Advanced Data Analysis(Code Interpreter)のデータラベルを日本語化する方法【データ可視化】

2023年7月12日 01:21

初めまして、Gotaです。
エンタメ業界でデータアナリストをしていますが、データ利活用や意思決定周りの自分自身の経験や知見の棚卸しをしたいなと思いnoteを始めました。
よろしくお願いします！

OpenAIがChatGPT Plusの公式プラグインの新機能としてAdvanced Data Analysis (旧Code Interpreter)が公開されました。Advanced Data Analysisを利用すると、ChatGPT上でファイル操作、Pythonコードを生成、実行が出来ます。

実際にCode Interpreterを使ってみると、データを読み込ませてプロンプトを入力するだけで、一瞬でデータ可視化まで出来てしまいます。今までアドホック分析でしていたことを全て自動でやってくれてて感動モノです！

しかし日本語が含まれるデータラベルを用いてデータ可視化をしようとすると、文字化けが発生してしまい上手く表示されません。（Code Interpreterのpython環境には日本語対応している'Droid Sans Fallback' と 'Noto Mono'というフォントが含まれていますが不思議なことに文字化けが直りません。）これではこのグラフが何を示すのか全く分かりません。

ラベルを英語に修正するのも一つの手ですが、日本では日本語でデータビジュアライゼーションを作ったほうがより伝わりやすいはず。

そこで今回は、Code Interpreterを用いたデータ可視化で文字化けしたラベルを修正する方法をご紹介します。

文字化けを解消する方法

新しいチャットを始めるときには毎回行う必要はありますが、たった3ステップで日本語の文字化けを解消出来ます！

1. 使いたい日本語フォントをダウンロードする

chatGPT上のPython環境にも複数のフォントが含まれているようですが、良い感じの日本語フォントは存在しないです。ですので、日本語フォントを外部からダウンロードしてローカルに落とす必要があります。

この記事ではIPAexゴシックを使用していますが、拡張子が ".ttf" であれば好きなフォント使えます。

可視化に向いているおすすめフォントを3つ挙げておきます！

IPAexフォント…情報処理推進機構（IPA）が公開しているフォント
Noto Sans JP（源ノ角ゴシック）…GoogleとAdobeが開発したフォント
BIZ UDPゴシック…モリサワが設計したフォント

2. 日本語フォントをCode Interpreter上にアップロードする

CodeInterpreter上にフォントファイルをアップロードします。

3. アップロードしたフォントを利用して再度ビジュアライゼーションを行うプロンプトを実行する

アップロードしたファイルを利用してプロットしてもらえるようなプロンプトで文字化け解消できます。色々試しましたが雑なプロンプトでも全然いけました。

日本語だけで美しい可視化の実現も出来る

デフォルトのプロットではデータ視覚化に関する課題が山積みだったので、Code Interpreter上で修正してもらった最終アウトプットがこちら

Jupyter Notebook上で一つ一つググりながらヒーヒー言いながらコーディングしてたものが、日本語のプロンプトだけで良い感じのデータビジュアライゼーションになりました！

まとめ

Code Interpreterの日本語の文字化けを解消する方法をまとめてみました。お役に立てれば嬉しいです！

次はCode Interpreterで良い感じのデータ可視化を実現するためのプロンプトの作り方について書いていく予定です。

これからもLLMに関する話題やデータアナリストを通して得たデータ利活用と意思決定の知見に関して発信していければと思っていますので、フォローしてくれると嬉しいです。