【簡単】価格.comの全てのハードディスク・HDDのスペック・仕様・特長をCSVで取得する。python

はじめに

こんにちは!avalonと申します。
最近、スクレイピングをしていて、ハードディスク・HDD容量がなくなってきました。
価格.comさんを閲覧していて、ハードディスク・HDDの容量や回転数等をエクセル(Googleスプレッドシート)でサクッとフィルタやピボットテーブルの機能を使い、簡単に比較できないかなと思い、価格.comに出ている全てのハードディスク・HDDのスペック・仕様・特長をcsvで取得しようかと考え、pythonで取得することにしました。
コードは価格.comさんの全てのIDをリストから取得して、各IDリストからURLを生成して、スペック情報を取得しています。ということで、計算時間は、全リストページ分+全ID分となっております。
有料ではありますが、下の方でCSV取得用のpythonコードを載せておきますので、よろしければ、ご購入いただければ幸いです。

環境構築

動作確認は以下の環境で行っております。

windows 10
python 3.9.7
 beautifulsoup4 4.9.3

本ツールでは、pythonを用います。pythonのインストールにつきましては、以下のURLを参考にインストールしてください。
https://www.python.jp/install/windows/install.html
次に、HTMLやXMLからデータを抽出するためのライブラリである「beautifulsoup4」を以下のコードでインストールしてください。
※既にpythonやbeautifulsoupをインストール済みの方は大丈夫です。

pip install beautifulsoup4

見出しの「pythonコード」にある、pythonのコードをメモ帳などにコピーアンドペーストしてください。保存後に拡張子をtxtからpyに変更してください。

実行

作成したpyファイルをダブルクリックもしくは、コマンドプロンプトから「python {ファイルパス}」のコマンドを入力してエンター実行してください。スクレイピングが開始され、csvファイルが作成されます。
※途中で文字コードエラーが出る場合がありますが、処理はそのまま続きます
基本的にコード上部に設定用の変数を書いています。
ファイル名・保存先を変える場合、コード上部の「出力ファイル名」「出力先フォルダー」を変更してください。

注意

・基本的にpythonが使える他の環境でもできるとは思いますが、環境構築や導入のサポート等は行いませんので、ご理解のほど、よろしくお願いいたします。
・今後、価格.comの仕様の変更などで、有料のpythonファイルが使えなくなる可能性がありますが、「クリエイターへのお問い合わせ」からご連絡をいただくか、ご自身で修正していただけると助かります。
・転載につきましては禁止とさせていただきます。
・このコードを使用して発生したいかなる不具合、不都合も、作成者であるavalonは責任を追う事ができません。その事をご承知いただける方のみ、ご利用ください。

今後

・文字列で格納しているデータをcsvヘッダーにできないかの再考

ここから先は

4,112字

¥ 100

この記事が気に入ったらサポートをしてみませんか?