Googleスプレッドシート IMPORTXML で簡易にスクレイピングっぽいことをする
yahooのトップ 主要ニュースをスプレッドシートに書き出し的なことをしてみます。そんなメモ。
1.Xpath コピーする
2.スプレッドシートにメモ
//*[@id="uamods-topics"]/div/div/div/ul/li[1]/a
がXpath
3.スプレッドシートでIMPORTXML書く
https://support.google.com/docs/answer/3093342?hl=ja
構文
IMPORTXML(URL, XPath クエリ)
こんな感じになる。
でも、これだと、Xpathをいちいち全部コピペしたり、[1]の数字書き換えるのがめんどくさい。
なので、たとえばこんな風にしたり。
ダブルコーテーションで囲ってるので 'uamods-topics' のようにシングルクォーテーションに書き換えてある。バックティックではエラーになるはず。
なんかこう、もっと良い書き方があるような気もするが......。
ページがいっぱいある場合 オブジェクト的にも書ける
A列にURLが入ってて、それをC1でこんな風に書いてる。
={IMPORTXML(A1,Xpath);
IMPORTXML(A2,Xpath);
IMPORTXML(A3,Xpath);
(略)
IMPORTXML(A17,Xpath);}
複数ページはあるけど、Xpathは同じという時に使える。
これはU氏に教えていただいた。大感謝。
そんなメモ。
#Googleスプレッドシート
#IMPORTXML
#Xpath
#スクレイピング
いいなと思ったら応援しよう!
いただいたサポートで、書籍代や勉強費用にしたり、美味しいもの食べたりします!