未経験からデータサイエンティストへの道Day1. スクレイピング(1)
皆さん、こんにちは!Haedam workoutのへダムです。
いきなりですが、私自身フィットネスライフも楽しみつつ、本業では、データ分析家として働いており、今後は更にAIや機械学習を学びデータサイエンティストになろうとキャリアチェンジの準備をしておりました。
この記事では、未経験からの私がデータサイエンティストになるため、勉強したものをわかりやす~~く解説しております!
未経験からデータサイエンティストにチャレンジしてみたい!という方の何らかの役に立てばと思います!
1. (定義)スクレイピングとは?
Web Scraping、つまり、ウェブ上での情報をパソコンがポンポンポンポンとスクラップしてくれる機能です!
2. (利用例)どこで使うの?
例えば、ECサイトで自社の商品レビューを集めて内容を見たいとなったとき、レビュー件数が何十件であれば、簡単ですが、それが、何百、何千件となると、いちいちコピペすることすら、大変ですし、それを読むのは更に大変ですよね。
なんと、これをPythonでは、Beautiful Soupというライブラリーを使うと全部やってくれるそうです!!
文字だけではわかりづらいと思うので、早速やってみます。
3. (実装level1) ニュースタイトルだけを集めてみよう
まずは、とても簡単に、必要なテキストだけを集めることをやってみます。練習として、Yahoo!ニュースの主要ランキングに上がっているニュースのタイトルだけを集めてみました。
おお!!すごい!集めてくれる!!
実は、これが私が自分で初めてやった実装なので、めちゃくちゃ嬉しかったです。この楽しさだけじゃちょっともったいないので、次にもう少しレベルあげてみました。
ただ、疑問になるところがありました。
「parser指定は、何をみて何を基準に指定した方が良いか?」
Parserは構文解析を行うプログラムで今回の場合、htmlの文字列を要素ごとに解析し、利用しやすくしてくれるもの。
では、毎度どのParserを指定するべきかは、自分の宿題に持ち帰ります。
4.今後の課題
ここまで、初めて自分でScrapingを行い、タイトルだけを取得してみました。自分で実装してみながらやってみた課題としては
1) Parserの概念がまだ曖昧
2) 1ページのタイトルはできたが、次はタイトルと内容だったり、複数のページを取得することにチャレンジしてみたい
と思いました!
毎日少しずつ、改善してみます!