ビジュアル実証経済学11 真夜中のGISELLEー幻が踊る街ー
コロナ禍が去ったものの,景気の好転が感じられない.おそらく,経済を完全に近い状態にまで封鎖したことによる弊害だろう.バブル期を超える勢いのある高値の株価と実体経済が釣り合っていない.さて,そうした歪な状況で価値を持つものとは何か,それは日本においては土地(神話)であり不動産(バブル)である.
これまで筆者の代表研究では,夜間光とその地域の小売業などの店舗数や経済活動,医療水準,スポーツ施設,競技者数,及び人口規模等が関連することを明らかにしてきた.これら一連の研究成果から,夜間光をパラメータとして不動産価格の推計を行えば,十分に高精度化に貢献するパラメータになると考えられるであろう.
日本における夜間光と各種統計指標との相関関係,地理情報システム学会,GIS 理論と応用,Vol. 29, No. 1, 2021-06
夜間光画像を用いた詳細な地域経済分析の可能性, 情報処理学会,[特集]若手研究者,情報処理学会論文誌, vol63, No.3, 2022-03
科学人工衛星データを用いたスポーツ施設の立地と体育教育の地域間格差に関する解析,宇宙航空研究開発機構研究開発報告, 宇宙科学情報解析論文誌, 第13号, 2024-02-27
実際に不動産解析データのコンペティションに参加し,夜間光を変数にした価格推計に関して,成績と手順を公開する.なお,結果は参加:212人・投稿:1010件中,ESP部門優勝・最終総合12位であった.プロトタイピングの成果としては,かなり良かったのではないであろうか.
具体的な手順に関して,まず,配布されているTrainデータがかなり使いにくいので,下記の処理を前処理として行う.
R前処理内容
カラムネームをアルファベットに変更
市区町村コードは0埋めを行い5桁に統一
全角文字列(間取り,建物の構造)を半角文字列に変更
住所を都道府県+市区町村で1カラムの列を作成
データを確認すると市区町村名のカラムがあるが,これに緯度経度は付与されていない.そこで,市区町村名から緯度経度を算出するジオコーディングライブラリ(GISELLE)を構築した.まずこれでジオコーディングを行う.次に,QGISで下記の処理を行う.
夜間光画像(ラスタ)を空間参照結合する
test,trainそれぞれのデータに緯度経度が付与された状態でplotして,夜間光データとインターセクトで属性値として夜間光を付与後に保存する
さらに,エリアごとの相場の価格を算出するためにHEXGRIDを構築した.
これは,同一の市区町村をパラメータとして使用すると,日本全体で約1900程度のカテゴリカルデータになる.だが,同一の市区町村内であっても,駅に近いような繁華なエリアと,郊外地域では相場価格は大きく異なるはずであり,その差異を反映させるためである.
ここにさらに,不動産公示価格を加えて,HEX内の相場を相場として算出した.この際に注意したいのは,あまりHEXが細かすぎると同一のHEX内にTrain・公示価格データが全くなくなるという点である.
pythonで機械学習による価格予測を行う
ライブラリのインポート
データのロード
全欠損値のカラム及び不要なカラムの削除
["最寄駅:距離(分)", "面積(㎡)", "建築年", "取引時点"]のdtypeの修正 "間取り"の変換
displayでデータ一覧を確認
LGBMによる学習,予測
提出用ファイルの作成
改善点確認用に描画
不動産価格予測AIに関連する必要ライブラリをあらかじめDocker化し,ソースコード一式をGithub上に公開しておきます.
地図サーバー一式(arcspace-docker)
上記ライブラリは月惑星データ表示用ですが,日本地図表示用にカスタマイズして利用しています
ジオコーディングライブラリ(GISELLE)
前処理のR及びpythonによる価格予測は下記URL内の添付ファイルを参照してください.
スキー・スノーボード,水泳,バレエで3つの研究成果(筆者の趣味の研究成果)を報告してきましたが,四葉のクローバーが現金化しやすそうな不動産価格コンペというのは何とも世知辛い.この不動産価格推計を題材に総務省異能ベーション2023に応募したところ,幸いにも採択されたが…無理して買ったヴァンクリなんて,似合うはずがない…