株価とスクレイピング③

2022年5月16日 12:57

目的：株探のWEBページを１ページずつ取得し、各データを取得する

目標
１　日経平均の銘柄・コード一覧から、株探のサイトを１企業ずつスクレイピング
２　データを整形
３　エクセルへ出力

株探のWEBページを１ページずつ取得し、各データを取得する

　株探のサイトのURLは、ベースURL＋証券コードの形になっているので、データが欲しい証券コードを準備し、１ページずつHTMLを取得しながら、データを抜き出していく
　今回は日経平均の銘柄の各データを抽出して入力する
　株探のサイトはスクレイピングについて明記されていない
　みんかぶのサイトでも良かったが、更新が株探より遅かったので株探を利用した

プログラム実行順

１，必要なものをインポート

手順１のコード
import pandas as pd
import urllib.request
from bs4 import BeautifulSoup as bs

内容
import pandas as pd　　　データフレーム（２次元配列）を扱うライブラリ
import urllib.request　 urllib.request.urlopen(URL)でURLにアクセス
from bs4 import BeautifulSoup　　
　bs4ライブラリからBeautiful Soupをインポート
　HTML文字列（ファイル）を解析することができる

urllib.request.urlopen(URL)でWebからHTMLファイルを取得して、それをBeautiful Soup 4（bs4）に渡すとBeautiful Soupオブジェクトを生成する
そのオブジェクトを検索したり抽出したりすることで、必要なデータを抜き出す（スクレイピング）ことができる

２，証券コード一覧のエクセルデータからコードだけを抜き出しリスト化

手順２のコード
book_df = pd.read_excel(r"エクセルのパス",sheet_name = 0, index_col = 0)
code = book_df["証券コード"].to_list()
base_url = "https://kabutan.jp/stock/?code="

内容

　pd.read_excel(r"エクセルのパス",sheet_name = 0, index_col = 0)
　エクセルデータをそのままデータフレームに出力、sheet_name = 0で１枚目のシートを指定
　index_col = 0で先頭行をインデックスに指定、指定しないと新しくインデックスが作成されてしまう
　code = book_df["証券コード"].to_list()
　コード一覧のリストを作成 .list()で、データフレームから証券コードの列を抜き出し、1列のリスト化する
　base_url = "https://kabutan.jp/stock/?code="
https://kabutan.jp/stock/?code=4666　のように、４桁のコードを加えるだけで、その企業の株探のサイトURLになる
　base_url + code でURLの完成になる

３，HTMLから欲しいデータを検索して取得する

手順３のコード
#空のリストを作成
zika = []　　
kabuka = []
per = []
rimawari = []
uriage = []
keitune = []
dekidaka = []
#for文で１企業ずつ各データを取得する
for i in code:
url = base_url + str(i)
data = urllib.request.urlopen(url)
soup = bs(data, 'html.parser')

zika.append(soup.find("td",class_="v_zika2").text)
kabuka.append(soup.find("span",class_="kabuka").text)

　table_5 = soup.find_all("table")[4]
dekidaka.append(table_5.find("tr").find("td").text)

table = soup.find_all("table")[2]
rows = table.find_all("tr")
col =[v.text for v in rows[1].find_all("td")]

per.append(col[0])
rimawari.append(col[2])

uriage.append(pd.read_html(url)[10].iloc[2,1])
keitune.append(pd.read_html(url)[10].iloc[2,2])

内容と書式
　WEBページ上で、右クリックするとページのソースを表示でHTMLデータを確認することができる
　欲しいデータの空のリストを作成
for文で１企業ずつ各データを取得する
証券コードのリストからコードを抜き出し、str()で文字列変換してURLに、HTMLを取得して、欲しいデータを抜き出す
for i in code:
url = base_url + str(i)
data = urllib.request.urlopen(url)
soup = bs(data, 'html.parser')

最終的にデータフレームにしたいので、どれも1列のリスト化を目指している
最後に合わせてデータフレーム化　→　エクセルに出力
今回はデータ数が同じことがはっきりしているので簡単に合わせられる

時価総額と株価をHTMLタグから取得する
　株価と時価総額は、わかりやすいタグがついていたので、クラス指定で抽出

<th colspan="2" class="v_zika1">時価総額</th> <td colspan="2" class="v_zika2">3,168<span>億円</span></td>

<span class="favorite"><a href="#" class="add-favorite-stock-btn"></a></span>
<span class="kabuka">1,852円</span>

↑のようなHTMLからデータを取得する

・時価総額
　zika.append(soup.find("td",class_="v_zika2").text)
<td>タグがついていて、クラス属性"v_zika2"を指定、find().textでテキストのみを抽出する
　リスト名.appendで、空のリストに取得した要素を加えていく

・株価
kabuka.append(soup.find("span",class_="kabuka").text)
同様に、<span>タグ、クラス指定で株価を取得、リスト化

出来高、PER、利回りの取得
株探のサイトは、テーブルで構成されているデータが多いので、HTMLからtableタグ指定、またはpandasのpandas.read_html()でテーブルをそのままデータフレームとして取得できる

import pandas as pd
print(pd.read_html("株探のサイトのURL"))

このコードでWEBページのテーブルデータを一括で取得できる

取得したテーブル、インデックスを数えて、
何番目のテーブルに欲しいデータがあるか確認する

内容
　５番目のテーブルの１番目（１，１セル）に出来高のデータがあるので、まずは
　table_5 = soup.find_all("table")[4]
　で５番目のテーブルデータをtableタグから一括で抜き出す
　［４］で５番目のテーブルを指定
　table_5.find("tr").find("td")
　で、最初の tr タグの、最初の td タグのデータを取得できる

<table>
　<tbody>
　　<tr>
　　　<th scope='row'>出来高</th>
　　　<td>323,600 株</td>
　　</tr>

実際に抽出するテーブル部分のHTML

～.textで文字列だけリスト化する
dekidaka.append(table_5.find("tr").find("td").text)

PERと利回りは、３つ目のテーブルにあるので、まずはテーブルデータを一括で取得

table = soup.find_all("table")[2]　#３つ目のtableの取得
rows = table.find_all("tr")
col =[v.text for v in rows[1].find_all("td")]
#PBR、PER、利回り、信用倍率をリスト化している（１行だけ抜き出し）

ここでは、find_allはResultSetなので、find().find()のように、find_allを重ねて使えない　→　［１］でテーブルの２行目を指定してリストに変換して扱う
　※rows は　２行４列のResultSet
　下記参照

<table>
　<thead>
　　<tr>
　　　<th scope='col'><abbr title="Price Earnings Ratio">PER</abbr></th>
　　　<th scope='col'><abbr title="Price Book-value Ratio">PBR</abbr></th>
　　　<th scope='col'>利回り</th>
　　　<th scope='col'>信用倍率</th>
　　</tr>
　</thead>
　<tbody>
　　<tr>
　　　<td>132<span class="fs9">倍</span></td>
　　　<td>20.47<span class="fs9">倍</span></td>
　　　<td>－<span class="fs9">％</span></td>
　　　<td>1.52<span class="fs9">倍</span></td>
　　</tr>

抜き出す部分のテーブルのHTML

[v.text]で文字列だけリスト化されているので、
リストの中の１番目と３番目のデータを抽出してそのままリスト化
per.append(col[0])
rimawari.append(col[2])

売り上げと経常利益の取得

最新のデータのみを抽出したかったが、タグが同じで差別化する方法がわからなかったので、ここではpandasからそのままテーブルデータを取得した

import pandas as pd
df = pd.DataFrame(pd.read_html(”株探のサイトURL”)[10])
df.to_excel(r"エクセルのパス")

１１番目のテーブルを取得してエクセルに出力するコード

データフレーム（エクセル）の３行目、２列目が売り上げ
３行目３列目が経常益なので、～.iloc[行,列]で欲しいデータのセルを指定してリスト化
インデックスは０から始まっている

内容
uriage.append(pd.read_html(url)[10].iloc[2,1])
keitune.append(pd.read_html(url)[10].iloc[2,2])
※HTMLタグから順番に指定していっても同じことができる

４，データフレームを作成し、元のエクセルへデータを重ねて出力

手順４のコード
df = pd.DataFrame({"時価総額":zika,"株価":kabuka,"売上高":uriage,"経常利益":keitune,"RER":per,"利回り":rimawari,"出来高":dekidaka})

dfs = pd.concat([book_df,df],axis = 1)
dfs.to_excel(r"エクセルのパス")

内容
　各項目がすでにリスト化されていて、今回はデータ数が同じことがわかっているので、列名を指定しながらデータフレームにする

　df = pd.DataFrame({"時価総額":zika,"株価":kabuka,"売上高":uriage,"経常利益":keitune,"RER":per,"利回り":rimawari,"出来高":dekidaka})

最初にエクセルから読み込んだ book_df と作成した df の２つのデータフレームをpd.concat([ , ], axis = ) で統合
ラベルも含めてデータ数が同じであることが前提
axis = 0 or 1 で行を追加するか列を追加するか指定
エクセルへ出力
　dfs = pd.concat([book_df,df],axis = 1)
　dfs.to_excel(r"エクセルのパス")

　今回は作成しながら、トライ＆エラーをするので新規シートへ出力した、pandas.ExcelWriterで、新規シートに保存することもできる
　また、エクセルのパスを読み込んだものと同じにすると、データが上書きされる（※元データは消えることに注意）

コード全体

import pandas as pd
import urllib.request
from bs4 import BeautifulSoup as bs
#import requests
#import lxml.html
#import unicodedata

book_df = pd.read_excel(r"エクセルのパス",sheet_name = 0, index_col = 0)
code = book_df["証券コード"].to_list()

#ベースURL
base_url = "https://kabutan.jp/stock/?code="

#空のリストを作成
zika = []
kabuka = []
per = []
rimawari = []
uriage = []
keitune = []
dekidaka = []

#for文で１企業ずつ各データを取得する
for i in code:
    url = base_url + str(i)
    data = urllib.request.urlopen(url)
    soup = bs(data, 'html.parser')

    zika.append(soup.find("td",class_="v_zika2").text)
    kabuka.append(soup.find("span",class_="kabuka").text)

    table_5 = soup.find_all("table")[4]
    dekidaka.append(table_5.find("tr").find("td").text)
   
    table = soup.find_all("table")[2]
    rows = table.find_all("tr")
    col =[v.text for v in rows[1].find_all("td")]
   
    per.append(col[0])
    rimawari.append(col[2])

    uriage.append(pd.read_html(url)[10].iloc[2,1])
    keitune.append(pd.read_html(url)[10].iloc[2,2])
    
df = pd.DataFrame({"時価総額":zika,"株価":kabuka,"売上高":uriage,"経常利益":keitune,"RER":per,"利回り":rimawari,"出来高":dekidaka})

dfs = pd.concat([book_df,df],axis = 1)

dfs.to_excel(r"エクセルのパス")

今後の課題

・for文のリスト内包表記がよくわからない
・HTMLタグの＜＞　A　＜＞　　　＜＞　　＜＞のAの場所のみの抽出がわからない
・どの方法で抽出するのがベスト（時間が早い）かわからない