Python使わずのWebスクレイピング【超初心者向け】
データ業界で長年働いてきたOctoparseチームは、データをより使いやすく、誰でも利用できるようにずっと努力しています。ですから、Python使わず、パラメータを入力だけで、データを簡単に抽出できるテンプレートモードという機能ををリリースしました。
ダウンロードはこちら
テンプレートモード(Template Mode)とは?
具体的には、Octoparseのソフトには数十種類のあらかじめ作成されたテンプレートがあり、瞬時にデータを取得できて、スクレイピングタスクを設定する必要はありません。Octoparseの新しいタスクテンプレートは、誰でも簡単にWebスクレイピングを利用できるように設計されています。テンプレートを使用すると、タスクの作る学習時間を短縮し、すぐにデータを取得できます。
この時点でテンプレートはAmazon、Instagram、Twitter、YouTube、Googleなど多くの人気サイトがカバーされています。それに、日本のサイトもたくさん用意しております。
Yahooショッピング、ヤフオク、メルカリ、ZOZOTOWN、楽天市場、食べログ、iタウンページ、Googleマップ、マイナビ転職、リクナビnext、SUUMO
また、皆さんがほかのWebサイトを追加したいなら、私たちに教えてください。テンプレートの作成を検討します。
また、皆さんがほかのWebサイトを追加したいなら、私たちに教えてください。テンプレートの作成を検討します。
ウィザードモードとの違いは?
ずっとOctoparseを使っている方は、すでにウィザードモードを試したかもしれません。実際には、新しいテンプレートモードとウィザードモードはまったく違います。ウィザードモードは特定のページ構造だけで機能し、ユーザーがWebページの構造を正しく把握する上に、どのデータフィールドを抽出したいかをOctoparseに伝える必要があります。テンプレートモードはあらかじめ構築されたスクレイパーで、Octoparseに検索条件を伝えるだけで、特定のWebサイトから事前に定義されたデータフィールドを抽出できます。
使い方は?
ステップ1.ホーム画面から「Task Templates」の下にある「 +Task」を選択する
ステップ2.テンプレートを選択する
ステップ3.事前に定義されたデータフィールドとパラメータを確認する
ステップ4.「Use Template」を選択する
ステップ5.検索キーワードなど、パラメータの変数を入力する
ステップ6.テンプレートを保存して実行する
いかがでしょうか?簡単でしょう!タスクテンプレートを使うと、プログラミング知識の少ない/ない人でも簡単にWebスクレイピングを達成できます。パラメータ(ターゲットページのURL、検索キーワードなど)を入力するだけで、データがどんどん抽出されてきます。皆さんも試してみてください。