とりあえずGoogle Alertが使えると便利
どうも、じぇいかわさきです。
昨日のnoteでも書いたんですが、ネット上から特定のワードに関する情報を収集したいってことから、クローラやスクレイピングの勉強をしてきた。
そして、最近はそれらをひとまとめにしたScrapyを使えば実現できそうだ。ってところまで到達したんですよね。
ただ、Scrapyは実際に使っていないのでまだ理解できていないんですけどね。
よくよく考えると使えるツールが有った!
実は、GoogleのサービスであるGoogle Alertというものが有るんです。
GmailやGoogle Doc、Google Drive等に比べると超マイナーで、Googleのページのメニューで最初に開く中には入っていないんですよね。
しかし、このGoogle Alertって実はすぐれものなんです。
何が優れているかって?
なんと、Googleの検索機能をフル活用して、自分の指定したキーワードの記事が見つかると、全て抽出して自分のメールアドレスに送ってくれるんです。
このような手順でアラートを作成すれば、自分の必要とする頻度で、必要とする数だけ指定し、自分のメアドに送ってくれる。
この機能を使うと、実はクローラ的なことは出来てしまうんですよ。
指定した時間に指定した件数だけ、キーワードを含んだ記事の概要とURLを送ってくるんです。
まさに求めていた機能ですよ。
Googleが持っている機能が、勝手に動いて勝手に集めてきて報告してくれるんですよね。
こっから先は、スクレイピングの世界になると思います。
自分がやりたかった事の半分はこれでできる
そもそも自分がやりたかったこと。
①クローラで巡回して、指定したキーワードの書かれている記事を探し出す
②スクレイピングしてデータを整形する。
③整形したデータを、MariaDBに格納
こういう事をしたかったんですよね。
Google Alertをしようすると、①②は可能になるんですよ。
つまりやりたいことの半分はできるってこと。
ただ送られてきたメールを開いて、所定のページにアクセスするという動作は必要ですが。
そうすると、GmailのデータをPythonで抜き出して整形し、MariaDBに格納できないかって考えてしまいますよね。
何だか毎日、このツールとこのツールを組み合わせて、こんな事できないのか?って考えていると非常に楽しいが、調べることが多くで実際に実験するところまでたどり着けない。
ここが現在の自分の問題点なんですね。
でも、これできないのかな?って言うことが、ネットを調べると既に実現している事例なども見つかり、すごいなって感動することが多い。
今回もいろいろ考えている内容が、断片的だがたくさん見つけることができた。
さて、自分の問題はあれこれ考えて、ネットを探し回っているだけで何も実行できていない。
そろそろ、もう一度自分でコードを打ち込み、勉強を再開したほうがいいだろう。
何かを作る事が一番早くコードを覚えられるね。
とりあえず、必要な事はGoogle Alertを使って、集めるようにしておくかな。