Octoparseとは?
Octoparseは、視覚的に分かりやすくデータを抽出できるWebスクレイピングツールです。コードを書くことなく、スクレイピングの初心者でも、Octoparseを使ってWebサイトから大量の情報を手軽に抽出できます。
WindowsアプリケーションであるOctoparseは、Ajaxを使うWebページを含む静的および動的Webサイトに対応し、フォームを記入したり、テキストボックスに検索語を入力したりするなどで、人間の操作をシミュレートしてWebページとやり取りします。抽出プロジェクトは、自分のマシン(ローカル抽出)またはクラウド(クラウド抽出)で実行できます。CSV、EXCEL、HTML、JSON、データベース(MySQL、SQL Server、Oracle)などさまざまな出力形式があります。
Octoparse無料版と有料版は同じ機能を共有しています。無料版だと、一部機能に制限がありますが、ヘビーユーズでもしない限りは、十分すぎるくらいの機能があります。有料版だと、タスクの登録数や自動実行数が多くなり、クラウド上で動作させることもできます。無料版と有料版の違いについては、料金表を参照してみてください。
ワークフロー
Octoparseは、視覚的に使いやすい操作ペインを提供します。Octoparseは、Webページを開いたり、アカウントにログインしたり、テキストを入力したり、Web要素をクリックするなど人間のWebブラウジング動作をシミュレートします。内蔵組ブラウザでWebサイトの情報をクリックして、必要な構造化データを取得します。
クラウドサービス
分散コンピューティングに基づいて大規模なWebデータを同時にスクレイピングすることは、Octoparseの最も強力な機能です。クラウド機能を使うと、多数のクラウドサーバーを使って同時に抽出を実行できます。短期間に10,000のWebページをスクレイピングする必要がある場合は、Octoparseクラウドサービスが最適です。クラウド型プラットフォームでは、6〜20倍の高速抽出が可能です。自動取得したデータはクラウドに保存され、どこでもアクセスできます。ハードウェア保守も不要だし、ネットワーク中断に心配する必要もありません。
豊富なツール
Octoparseには、ウィザード形式で抽出データを指定する「Wizard mode(ウィザードモード)」と自由に抽出データを指定できる「Advanced mode(アドバンスドモード)」2つのモードがあります。
ユーザー体験を向上させるため、Advanced modeでは、豊富なツールセットを提供します。
# 正規表現 #
# Xpathの編集 #
# 実行タイムアウトの設定 #
# スクロールダウン #
# ページアンカーフック #
API
Octoparse APIに接続すると、自分のシステムにデータを自動的に配信でき、自分のアカウントにあるデータにアクセスできます。タスクのルールを設定するだけで、Octoparseクラウドサーバーが残りの作業を行います。データはXMLの形式で配信されます。
Webスクレイピングツールはニュースポータル、人工知能、フォーラム、Eコマースサイト、ソーシャルメディア、不動産、財務報告などさまざまな分野で広く使われています。Octoparseを利用することで、価格比較、研究、事業、営業、マーケティングを効率的に進めることができるようになります。