MATLABで行うWEB scrapingのための参考サイト
https://blogs.mathworks.com/videos/2015/09/23/reading-web-pages-part-1-using-webread/
何だかうまく埋め込みできませんでしたが、上の記事はMATLABを用いた簡単なweb scrapingに関して記載されている。
結局時間が取れるのは今日までだったので、年末にやりたかった自然言語処理とscrapingはかなり中途半端になってもうたね。
他にもMATLABでは以下のサイトでScrapingを行っている。
https://blogs.mathworks.com/loren/2017/07/10/web-scraping-and-mining-unstructured-data-with-matlab/
まぁやりたい事は、ページから画像データとって来る事なので、HTML中の画像部分からデータとってセル配列に突っ込むコードにしたらいいべか。
HTMLに関する知識もないから、とりあえず参考サイト探すしかないね。てか.jpegとかのイメージデータの拡張子探索とかさせて探せば良くないか?
やって見ろよって感じだけど、そもそもHTML情報から画像のURL?を取得してダウンロードって感じなのだろうか…
うーんわからない事が多いが、scrapingに関しても少し明確になった。