lifull home'sから住まいのお役立ち情報をスクレイピングする
LIFULL HOME'Sとは?
日本最大級の不動産・住宅情報サイト【LIFULL HOME'S/ライフルホームズ】賃貸物件[賃貸マンション・アパート・一戸建て]や売買物件[新築マンション・中古マンション・新築一戸建て・中古一戸建て・土地]だけでなく、建築・売却に至るまで、ユーザーにぴったりの物件・情報・サービスが探せます。住まい探し・マイホーム選びをサポートしてくれる不動産会社[不動産屋]の情報や相談窓口、役立つノウハウなども満載する不動産・住宅情報サイトです。
スクレイピングツールの概要
ScrapeStormとは、人工知能に基づき、強い機能を持っているWebスクレイピングツールです。プログラミングが必要なく、ほとんどのWebサイトからデータをスクレイピングします。URLを入力するだけで、自動的にWebサイト内容と次のページボタンを識別できます。1-ClickでWebサイトからデータを自動的に抽出します。Excel、HTML、Txt、CSVなどのさまざまな形式でデータを出力、保存できます。さらに、データベースやウェブサイトにデータをエクスポートできます。
抽出されたデータは下記のようにご覧ください。
1.タスクを新規作成する
(1)lifull home'sからURLをコピーする
今回は、lifull home'sの住まいのお役立ち情報の「一戸建てを買う」に関する記事ページを例として、データクローラの手順を紹介します。まず、「一戸建てを買う」に関する記事ページのURLをコピーしてください。
(2)スマートモードタスクを新規作成する
ソフトウェアのホムページ画面に新規作成できます。持っているタスクをインポートすることもできます。
詳細には下記のチュートリアルをご参照ください。
URLを正しく入力する方法
2.タスクを構成する
(1)自動識別
ScrapeStormは自動的にリスト要素とページボタンを識別できます。たまに識別誤差が遭遇したら、手動で修正してください。
詳細には下記のチュートリアルをご参照ください。
ページ分けの設定
(2)詳細ページに行く
「詳細ページに行く」ボタンをクリックして、目次、記事の本文などのデータをスクレイピングできます。
詳細ページのスクレイピングについては、下記のチュートリアルをご参照ください。
リストページと詳細ページをスクレイピングする方法
(3)フィールドの追加と編集
フィールドの追加には、「フィールドを追加」ボタンをクリックして、画面に抽出するデータを選択、データが自動的に抽出されます。
また、必要に応じてフィールドの名前の変更または削除、結合できます。
フィールドの設定の詳細には下記のチュートリアルをご参照ください。
抽出されたフィールドを配置する方法
3.タスクの設定と起動
(1)起動の設定
ソフトウェアは数多くの機能を提供します。必要に応じて、スケジュール、アンチブロック、自動エクスポート、画像のダウンロード、スピードブーストを設定できます。
フィールドの設定の詳細には下記のチュートリアルをご参照ください。
抽出されたフィールドを配置する方法
(2)しばらくすると、データがスクレイピングされます。
4.抽出されたデータのエクスポートと表示
(1)エクスポートをクリックして、データをダウンロードしする
(2)必要に応じてエクスポートする形式を選択します。
ScrapeStormは、Excel、csv、html、txt、データベース、ローカルなどさまざまなエクスポート方法を提供します。ライトプラン以上のユーザーは、WordPressに直接投稿することもできます。
抽出結果を表示し、抽出されたデータを消去する方法の詳細には下記のチュートリアルをご参照ください。
抽出されたデータの表示と消去する方法
抽出結果のエクスポート方法の詳細には下記のチュートリアルをご参照ください。
抽出されたデータのエクスポート方法