不動産情報を少し分析してみた。
以前、不動産情報ライブラリと981.JPによる競売不動産物件にて、
売り物件近傍の販売実績データを、981.JPに記載のある
不動産所在地から引っ張ってくる。スクリプトを組みました。
実は、2週間おき(なぜ2週間おきというと、981.JPの売却物件の更新期間が2週間)に情報取集を続けこれらの分析を行うための情報どりをかれこれ2か月程度続けています。
何がしたいのか?
2週間おきに更新される物件情報を取得して、その後、その販売物件がどのような価格でやり取りされているのか、分析をしてみようと考えています。
なぜするのか?
実は、不動産情報は、世の中でもかなり主眼が置かれている分野だと分析しており、その中で回りの注目を集めて、最終的には自分の不動産投資の1つの布石にできないかと考えているのです。
ちなみに、今週分はすでに回収済みですが、先週分を一旦あげておきます。
差分の抽出
7/6のデータから7/22のデータに存在しない物件を特定(販売された物件)。
7/22のデータから7/6のデータに存在しない物件を特定(新たに掲載された物件)。
差分を抽出した結果、販売された物件と新たに掲載された物件のリストを取得し、それらのリストから981.JPの各シートのホームページをキーとして、
ダブりについて処置します。
できました。以下のスクリプトです。
ざっくりいうと、各リストをsetにて文字列かして、differenceとして
互いに引き合います、。その得られた、URLから当初のリストより対象部分のみisinで抽出といったところでしょうか。
# Load the two Excel files
file_path_0706 = '/mnt/data/20240706.xlsx'
file_path_0722 = '/mnt/data/20240722.xlsx'
data_0706 = pd.read_excel(file_path_0607, sheet_name='Sheet1')
data_0722 = pd.read_excel(file_path_0722, sheet_name='Sheet1')
# Display the first few rows of each to verify
data_0706_head = data_0706.head()
data_0722_head = data_0722.head()
data_0706_head, data_0722_head
# Convert the address URLs to a set for easy comparison
urls_0706 = set(data_0706['住所の記載先'])
urls_0722 = set(data_0722['住所の記載先'])
# Find the differences
sold_properties_urls = urls_0706 - urls_0722 # Properties that were sold (present in 0607 but not in 0722)
new_properties_urls = urls_0722 - urls_0706 # New properties (present in 0722 but not in 0607)
# Extract the data for these properties
sold_properties = data_0706[data‗0706['住所の記載先'].isin(sold_properties_urls)]
new_properties = data_0722[data_0722['住所の記載先'].isin(new_properties_urls)]
sold_properties.head(), new_properties.head()
販売された物件
上記7/6にはあったが、7/22にはなかったデータつまり、販売された物件
新たに掲載された物件
上記7/22にはあったが、7/6にはなかったデータつまり、新規追加された物件
上記より比較できるようになりました。
では、明日以降に、販売された物件がいくらで販売されたのか、分析できないか検討してみようと思います。
この記事が気に入ったらサポートをしてみませんか?