賃貸物件募集データ抽出と分析
スクレイピングで賃貸物件の募集データを抜いて、整形、簡易な分析を行ってみた。やり方のメモ。
①データ取得
「Octoparse」というツールを利用。
マニュアルを読まずともほぼ直感的に利用できた。
カスタマイズ抽出を選択して、情報を取得したいWebページのURLを入力、自動でページ構成を解析してくれるので、必要な情報が抽出できているか、ページ送りが正しくされているかチェックし、起動タイミングを設定する。約10分でセッティング完了。(昔本読みながらクローラー作ったときは動かすまで大変だったのにあっという間にできてしまった。NoCodeすごい。。)
今回情報を取得したWebページはSUUMO。1つの都道府県まるごとのデータがほしかったので、ある都道府県の鉄道路線を全選択し、徒歩20分以内のいう条件でのみ抽出した。
試しに東京(約27万件)、千葉(約7.3万件)、埼玉(約5.2万件)の3都県のデータを抽出。夜セットして朝には抽出完了。
②データ整形
出力したデータの整形はEXCELでポチポチ手作業で実施。まあまあ面倒くさかったけど、1都県あたり30分くらいで完了。
元データから加工したところは以下の点。
・物件名の排除・・・登録名の揺らぎが大きく、データ重複が起こりやすいため。
・重複データの排除・・・住所、駅徒歩、賃料、間取り、面積をキー項目として重複したデータは排除した。駅徒歩はゆらぎがあるのでキー項目から抜いてもいいかもしれない。
・最寄り駅が複数登録されている場合の対応・・・別の物件として登録した。都道府県単位で見ると物件が重複することとなるが、分析の単位は駅ごとなので影響なしとの考え。
・賃料の単位の統一・・・SUUMOでは賃料、敷金、礼金が万円単位、管理費が円単位のため、すべて円単位で統一。
・登録ミスの排除・・・賃料の桁間違いについては、極端に大小があるものを目視で排除。
・築年数・・・新築は「0年」として変換。
・敷金礼金の月数表記の追加・・・個人的に一番やりたかったこと。シンプルに関数を組んだ。あとで「東京敷礼取れる駅」としてランキング化しよう。
うまくデータ化できず課題持越しは次の点。
・所在階の表記・・・メゾネット物件、戸建物件では所在階の表記が「1-2階」というように数値化できない表記があった。今回は無視してそのままにしている。
・抽出データ・・・全体的に物件数が少ないことや、千葉>埼玉となっているのは違和感ある。もしかしたらうまく抜けなかったデータあるのかも。
(追記・・・やはり一部データ欠損はあるみたい。例えば、同じ建物で複数の部屋を募集している場合その内1つしか取れていない、ある駅の徒歩1〜10分がごっそり抜けている、など。データ数については突き合わせる正解値がないため、検証が上手くできないのも課題。みなさんどうやってます?)
③分析
エクセルのピボットテーブルを利用してみたいところを自分でカスタマイズ。
たとえば、流山おおたかの森駅、徒歩10分圏内の1Kの戸数/敷金/礼金/平均賃料/平均面積は以下のとおり。
上記例は、アパート・マンション・戸建が一緒くたになってしまっているのでより細かい分析や自分が気になる条件があれば、ピボットテーブルをいじればいくらでも好きな条件を簡単に組めるのがいい。
たとえば、ピンポイントで西武線東伏見駅とつくばエクスプレス八潮駅の1Kを比較するとか、同じ賃料でどの間取りが多く出ているかとか。
素人大家的にざっくり傾向は知りたいけど、世にあるポータルの情報では微妙にかゆいところに手が届かないことが多かったので、興味のおもむくままに比較すると面白いかもしれない。
④今後
おおよそのデータの取得と加工の方法はわかったので、自動化してデータを取りためて特定エリアの傾向を見るなどしてみたい。
⑤今回作成したデータ(公開終了)
今回作成したデータをおいておくので、よろしければみなさまもどうぞ。
(追記・・・一部データ欠損あることご留意ください。)
(追記・・・公開終了しました(2021/3/31))
この記事が気に入ったらサポートをしてみませんか?