先日作った ChatGPT + Embeddings の派生形です。
この時は自分が管理している、かつ更新されることがないデータベースを取り扱いましたが、今回は市中のデータを元にすることを考えてみます。
ネット上のデータ収集にはやっぱりグーグル検索が強力です。
今回は以下の手順でデータ収集してみます。
「プログラム可能な検索エンジン」で検索エンジンを作成
Custom Search API で作成した検索エンジンを使って特定キーワードの検索結果を取得
検索結果のURLをスクレイピングしてデータ収集
収集したデータをembeddingしてデータベースに格納(ここ以後、先日と同じ処理)
蒲蒲線とは
いま僕の中で話題の「蒲蒲線(かまかません)」についてデータ収集をしてChatGPTに食べさせてみたいと思います。
語感がおいしそうですが食べ物ではありません。先にデータ収集の成果をお見せしましょう。
なかなか良くできています。モノレールの計画が戦前にあったとは初めて知りました。
「プログラム可能な検索エンジン」設定のポイント
今回はグーグルの「プログラム可能な検索エンジン」を利用して情報収集します。
設定のポイントは「検索するサイト」です。
「蒲蒲線」は大田区と東急による事業です。検索するサイトとして東急と大田区のオフィシャルサイト、くわえて鉄道に関するニュースサイトを選びました。
ここで情報源を決めることになりますので、一番目利きが必要なところです。
今回は「除外するサイト」は使っていませんが、とても有効に使える場合があります。以下のようなカテゴリごとのアーカイブページを除外すると検索結果にはコンテンツのあるページのみにできます。
以下のように * を使って「除外するサイト」に設定するとすべてのカテゴリページを除外することができます。
*trafficnews.jp/category/*
アーカイブページはキーワードが豊富に含まれSEOには有効。検索結果にしばしば出てきますが、コンテンツは含まれないので除外したいところです。
設定が終わったら「公開URL」から動作確認します。OKならば検索エンジンIDを控えておきます。のちほどAPIの設定に使用します。
次回はこの検索エンジンを使ってデータ収集していきます。
今回の成果をもう一つ。東急がどれぐらい「蒲蒲線」に本気なのか?