見出し画像

リサーチについてとAtomのRequest

Atomeの「依頼URLを入力」でのReauestについて、商品リサーチをしていて、思ったことをメモっておきます。

1.Atomeの依頼URLのRquest商品1品だけだと依頼回数がもったいない。
※そりゃアクセス回数とか取得限度失くしちゃったら大変だもん
2.リサーチページの依頼だとたくさん抜けるが余計な商品まで抜いちゃう

そこで、検索した商品を乗せとくWebPageを作って、そこから抜いたら便利じゃーないかと思いました。

スクレイピングの対応サイトもあるから、対応サイトのURLを貼る、対応サイト以外は抜かないなどの縛りは必要ですよね。

対応サイトがあるから、対応サイト別に、スクレイピングロジックは別管理していると思うので、
メルカリだったらNo1のスクレイピングロジックを使うよ
ヤフオクだったらNo2のスクレイピングロジックを使うよ的な
じゃないとWebページのソース改正が合った時に対応無理だし‥
対応サイト追加とか無理ですもんね。

フロー的には

1.貼り付け用Webページスクレイピング
※ワードプレスなんかでいいと思うんだですよね。
もしくはCSVアップロード的なので、アップロードしたファイルからURL取得的な?
2.URL取得
3.取得したURLの選別(スクレイピング対応サイトかどうか
4.URLにアクセス(サイトロジック選定)
5.そのサイトのスクレイピングが走る
6.データ取得&保存

こんな感じ???

まぁざっくりの設計なんで…メモ程度に!!!

サポートなんて期待してないんだからね(笑)