![見出し画像](https://assets.st-note.com/production/uploads/images/128082185/rectangle_large_type_2_5aaa1e5cc6fc50541b5bcb6271b30618.png?width=1200)
電子書籍作成のお供にデータ収集プログラム
電子書籍に限った話ではありませんが、何らかの本を作る際にはデータ集めが欠かせません。
データ収集のお供に小規模プログラム
いまだとWeb上にいろいろ情報が掲載されていますが、そのまま利用すると問題があるのと、他のデータと組み合わせて「より詳しいデータ」に仕立て上げるのがふつうです。
複数のデータを突き合わせてみたら矛盾があった、といった「発見」があるかもしれません。そうした発見は新たな視点を与えてくれることでしょう。何にしても、実際に収集して確認してみるまでわからないことはたくさんあります。
そのために、ちょっとした使い捨てのプログラムを作ってデータ収集を行うことがよくあります。
先日アップデート版を出した電子書籍「戦場の絆 僕らの15年戦争」では、Webからのデータ収集のために何本かのAppleScriptのプログラムを組んで利用しています。
![](https://assets.st-note.com/img/1705630810027-vEuBlTnCMc.png?width=1200)
「元になっている作品/ゲームなど」という見開きのコラムページのために、バンダイが出してきたガンプラの各年の新製品数をグラフ化することを企画。ごくごく小さなグラフですが、ガンプラのすべての製品名や各種データを製品ページから取得する必要があります。
![](https://assets.st-note.com/img/1705631662753-GVFb886PoT.png?width=1200)
Webブラウザを操作してサイト上のデータを取り出すのは、普通に人間がWebブラウザを操作するのと見分けがつかないため、Webサーバ側からはガードしにくく、手っ取り早くデータ収集を行えます(汎用のWebクローラーもありそうですが……)。
そして、そのデータをそのまま掲載すると著作権的な問題もありますが、発売年ごとにグラフ化すれば、全体的な傾向もわかりますし、グラフの掲載についてはとやかく言われるものではありません。本当に実際に数えているわけですし(プログラムが)。
![](https://assets.st-note.com/img/1705630921354-K7zLLfg5B7.png)
かくして、表とかグラフ1つあたりにWebデータ収集プログラムが活躍し、複数のデータを組み合わせて掲載しているのです。
![](https://assets.st-note.com/img/1705632400323-cc6TCg6A3k.png?width=1200)
▲各MSの搭乗回数を取得するクローラーAppleScriptの動作時の画面。ゲームセンターに出撃するたびに、MSの登場回数をかぞえて自分のMS搭乗ランキングを計算してSNSに掲載していた
![](https://assets.st-note.com/img/1705632186022-Fa9eqYHOGj.png?width=1200)
![](https://assets.st-note.com/img/1705630941380-DSH3wjcQep.png?width=1200)
![](https://assets.st-note.com/img/1705631718873-nkhyJW8A82.png?width=1200)
![](https://assets.st-note.com/img/1705631483087-vWaPIa2dqC.png?width=1200)
![](https://assets.st-note.com/img/1705631489694-8LujiPrIVj.png?width=1200)