【AI活用の失敗例】ChatGPTでの地理的情報の取得(ジオコーディング)はむずかしい!
目黒区 データ活用チームの武山です!
生成AI:ChatGPTを活用して試行錯誤していると、当然ですがうまく行かないこともあります。
データ活用チームのメンバーも全員がAIに関する知見を持っているわけではないので、どちらかというと成功事例よりも失敗した事例のほうが積み上がっていきます。
今日は、そんな失敗事例(途中までは成功)を紹介します。
解決方法をお持ちの方がいたらぜひシェアしてくださいね!
1.住所(所在地)データの整理
今回は、目黒区にある公園の所在地データを整備していきます。
メール本文にベタ打ちで、「ここが今月の重点清掃場所だよ」と、公園のリストが送られてきたと思ってください。
まず、所在地と公園名称がくっついてしまっているので、それを分けましょう。
無事、データが分割されたうえ、表形式で出力されました。
さらに、●丁目以降を「1-1-1」のような簡易表記に修正してみましょう。
シンプルにお願いすると、すぐに結果が出力されました。
わかりやすくExcelにコピペしてみました。
ここまでは良いですね!
2.所在地データからの緯度経度データ取得
そしてここから、リストの公園がある場所を、TableauのようなBIツールを使って、地図データ上にプロットしたいと考えたとします。
そのためには、緯度経度データが必要となります。住所や施設名称から地理的データを付加する、「ジオコーディング」という作業です。
当然、GoogleMapから1箇所ずつ緯度経度データをコピペするよりも、「AIに緯度経度データを付加してもらえれば楽なのでは?」と考えますので、トライしてみましょう。
データ自体はすぐさま出力されたのですが、念のため緯度経度をGoogleMapで確認してみると…
まったく違う場所の緯度経度データが生成されていました。
公園の近しい場所を示しているデータもあるのですが、ほとんどが全く関係のない場所の緯度経度データが生成されています。
調べてみたところ、ChatGPTを始めとする自然言語を学習したタイプの生成AIは、「住所や施設名称に関連する地理的情報をなんとなく覚えている」状態であることがわかりました。
この、「なんとなく」の範囲にものすごい差があるようです。
実際、目黒区内で間違えるだけではなく、世田谷区や品川区の緯度経度が出力されたりしました。
ちなみに、公園の名前だけでも試してみました。
すると、こんな返答が。
なんかもう、やりたくないオーラ満々です。
きっと無理でしょうが、不足している情報を追加してもうひと押ししてみましょう。
回答はすぐ出力されました。
正面突破ではやってくれないようです。
さて、ジオコーディングを効率化するにはどうしましょう。
GoogleMapなどが提供しているWebAPIを活用できればいいのですが、区役所ではセキュリティの関係上、インターネット環境でExcelやスプレッドシートを利用することができない(=WEB関連の関数やマクロが使えない)ですし、GISはアカウント配布されている担当課が限られています。
同じ境遇の自治体の方、どのように解決されているか、お教えいただけるとありがたいです!
※今回は公的な場所の住所(所在地)データを使いましたが、個人宅の住所
などのセンシティブなデータをAI学習させないよう、注意して活用しましょう!
過去の記事はこちらから