【webエンジニア必見】外部データを拝借する表と裏の手法7個まとめ
皆様ハロー、デジタルとアナログを行き来しているスマイルです('ω')ノ
今の時代にデジタルコンテンツで手っ取り早く稼ぐには、最新のトレンドをキャッチアップして二番煎じを最速で発信する手法が鉄板になってますよね。
そのために必要なのは"大量の外部データを超速で収集する技術"なわけですが、ここら辺は権利問題やプラットフォームのルールなどに抵触するユースケースが多く、LLMに聞いても歯切れの悪い回答を返された方も多いと思います。
そこで今回は外部データの現実的な入手方法について広くまとめましたので、デジタルコンテンツで一発稼ぎたいと思う方は参考にしてみて下さい。
記事が面白かったらフォロー&♥よろしくお願いしますm(_ _)m
オフィシャルな方法(表)
データ収集ってだけで違法性と結び付けがちな人もおりますが、公式がデータを利用可能な状態で公開してくれているケースも多くあります。
ここで紹介する方法は誰にも文句言われないし、使いやすく整備されているので要件を満たしているならこっちを使いましょう。
RSS
対応サイト(ブログ/ニュース/動画サイトなど)から新着情報を取得できる機能で、アイコン自体は見た事がある人も多いハズ。
例えば僕のyoutubeチャンネルのRSSにアクセスすると次のようにデータが返ってくる。(https://www.youtube.com/feeds/videos.xml?channel_id=UChS3C3UYjnNN2gN1IjUQTCg)
データ形式はXMLかjsonなので、普通に必要箇所の値を取得するようにスクリプトを書くだけでOK。
特定のドメインからRSSフィードのURLを探すには下記のサービスが便利。
簡単なまとめサイトなんかはRSSからデータを取得して、一覧表示するだけで作れてしまう。
API
多くのECサイトではデータを提供するAPIを備えていて、利用規約の範囲内で自由に使う事ができる。APIを使いこなせるようなるとエンジニアとして一皮むけた、と言えるかも。
API自体はデータを提供するだけの仕組みに限定されないが、公式のデータにアクセスする場合はほぼ必ずAPIを経由する事になる。デジタルコンテンツで稼ぎたいなら必須技能でしょう。
APIを公開している有名webサービスをchatGPTに聞くとこんな感じに。
これは極一部のサンプルですが、APIをまとめているサイトもあるので興味のある方は一読するとサービスのアイデアが閃くかもしれません。
この通りあらゆるデータが公式から提供されているので、相当マニアックなケースでもなければ十分に要件を満たせると思います。
オープンデータ
特定のプラットフォームに限定しない、多様なデータセットを公開しているサイトもたくさんあるので代表的なやつをご紹介。
◆ kaggle
こちらはデータサイエンスやコンペティションで有名なkaggle、代表的なデータセットはこんな感じ。
RSSやAPIと比べて、より学術的なデータを扱っているので人を選ぶんじゃないかと思うけど、機械学習に興味が出るとこれらのデータセットがお宝の山に見えてくる。
◆ オープンデータ情報一覧
こちらは官公庁などで公開されている国内のオープンデータをまとめたページ、凄まじい件数がまとめられていて自分が住んでいる地域の"何に使うねん"的なデータを眺めているだけで楽しい。
有料データ
専門的なデータを有料で提供しているサービスもある、有名どころを二つご紹介。
◆ statista
statistaで提供されているデータセットはこんな感じ。
ご覧の通り企業が好きそうなデータが揃っておりまして、個人開発というよりも企業内で行う高度なマーケティングなどに活用できそうな雰囲気。
◆ nielsen
https://www.nielsen.com/ja/data-center/
ニールセンで提供されている代表的なデータセットはこんな感じ。
こちらも企業が好みそうなデータセットが多く提供されている、僕のような個人開発勢には少々敷居が高いか。
非公式な方法(裏)
ここからはちっとグレーな方法をご紹介するので、ご利用は自己責任でお願いしますm(_ _)m
スクレイピング
データ収集と言えばこれ。
ちょっと調べれば具体的なやり方はたくさん出てくるのでコーディングサンプルとかは割愛しますが、ここではコーディング不要で誰でもwebサイトからスクレイピングできるサービスをご紹介します。
データ収集を代行するサービスはいくつかあるので、ここでは僕が実際に使った事のある二つをご紹介。
ここから先は
Amazonギフトカード5,000円分が当たる
よろしければサポートお願いします、頂いたサポートは活動費として使用させて頂きより有意義な記事を書けるように頑張ります!