
FANZAの内部HTMLからサンプル画像のURLをEXCELの関数で抽出するテクニック
最近の副業ブーム、アフィリエイトブログとかを始めようとする方はWebサイトの情報を簡単に自動で拝借できないかなーとか考えたことがある方も多いと思います。
と言ってもPythonはなんだかよくわからなくて挫折しました。
そこでOctoparseというスクレイピングツールを使ってFANZAのAVの作品情報を抽出してみたのが前編。
(前編はこちら)
今回は前編で各作品の内部HMTLを抽出したので、そこからさらにexcelを使ってその作品のサンプル画像のURLを抜き出すところにチャレンジします。
※この記事は2021年4月に編集しています。サイトの仕様変更で使えなくなるかもしれませんので、予めご了承ください。あとあくまで使用は自己責任でお願いいたします。
1.抽出した内部HTMLを見てみる
さて、前編でFANZAの作品ページから内部HTMLをぶっこ抜きました。
excelでエクスポートされた状態は、きっと下のようになっていることでしょう。(【品番】とか●●の部分は実際には作品のIDやタイトルとかなので、今は置き換えています)
<a class=""crs_full"" name=""sample-image"" id=""sample-image1""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-1.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image2""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-2.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image3""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-3.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image4""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-4.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image5""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-5.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image6""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-6.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image7""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-7.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image8""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-8.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image9""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-9.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image10""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-10.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image11""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-11.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image12""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-12.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image13""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-13.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image14""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-14.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image15""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-15.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<a class=""crs_full"" name=""sample-image"" id=""sample-image16""><img src=""https://pics.dmm.co.jp/digital/video/【品番】/【品番】-16.jpg"" alt=""Pregnant woman Enthusiast ●●"" class=""mg-b6"" border=""0""></a>
<br>
<div class=""tx10"">画像はイメージです。実際の商品画像とは異なる場合がございます。<br></div>
なんだか似たような構造が16回繰り返されていますね。
この16回というのは、その作品ページのサンプル画像が16枚あったことを意味しています。
調べたところ、FANZAの作品ページに対するサンプル画像は0~20枚まであるようです。
ランダムに0~20回繰り返されている構造から、過不足なく画像のURLを抽出するのが今回の目的です。
画像のURLは言わずもがな、<img src=""●●.jpg"">になっているところの"●●.jpg"の部分ですね。
ここから先は
1,606字
/
1画像
¥ 1,000
この記事が気に入ったらチップで応援してみませんか?