見出し画像

Firecrawl の Extract API で実現する効率的なAIウェブスクレイピング

はじめに

AI開発において、外部データの取得は避けて通れない課題です。特にウェブスクレイピングは、データ収集の重要な手段ですが、実装や保守に多大な労力がかかることが悩みの種でした。

そんな中で注目したいのが、Firecrawl の Extract API です。このAPIを使うことで、複雑なスクレイピング処理を驚くほど簡単に実現できます。

なぜ Firecrawl を選ぶのか?

FireCrawl には以下のような明確なメリットがあります:

  • 開発工数の大幅削減: クローラーの実装や保守が不要

  • 安定性の向上: ウェブページの仕様変更に自動で対応

  • スケーラビリティ: IPアドレスのローテーションなどを自動処理

特筆すべきは最近リリースされた `extract` APIです。このAPIは、従来のスクレイピング機能を大幅に進化させ、より直感的なデータ抽出を可能にしています。

実装の詳細

1. 環境構築

まずは必要なライブラリをインストールしましょう:

pip install firecrawl-py

環境変数の設定も忘れずに:

FIRECRAWL_API_KEY=your_api_key  # .envファイルに記述

主に使うメソッド

  • `scrape_url`: ウェブページをスクレイピングして、そこから必要なテキストを取得する

  • `extract`: スクレイピングしたテキストを、指定したスキーマに沿って抽出する

一個ずつ見ていきましょう。

from dotenv import load_dotenv
from firecrawl import FirecrawlApp

load_dotenv(override=True)

target_url = "https://news.yahoo.co.jp/articles/7de60db6f536a3f9021fec6b976edc1fbf438357"

firecrawl = FirecrawlApp()

Firecrawl の scrape_url の使い方

scrape_url 関数は引数に URL と、フォーマットを指定します。

フォーマットは html, markdown, json が指定できます。

res = firecrawl.scrape_url(target_url, {"formats": ["markdown"]})

print(res["markdown"])

[…]
中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引けを取らず、低コストで実現したとしている。AI半導体大手の米エヌビディアなどの株価急落に直結した。この衝撃を受けて、1月27日は、世界的にハイテク株が売られた。これにより、エヌビディアは、時価総額で一時18%下落し、5927億ドル(約92兆円)が消失した。トランプ米大統領は27日、「ディープシークによる生成AIの発表が、競争に勝つためにさらに集中すべきだという米国AI業界への警鐘として受け止めるべきだ」と語った。
[…]

scrape_url の json モードでは json 形式のスキーマが指定できます。試してみましょう。

from pydantic import BaseModel


class NewsArticle(BaseModel):
    title: str
    content: str
    summary: str


scrape_result = firecrawl.scrape_url(
    target_url,
    {
        "formats": ["json"],
        "jsonOptions": {"schema": NewsArticle.model_json_schema()},
    },
)

print(scrape_result["json"])
{'title': 'NewsArticle', 'content': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引けを取らず、低コストで実現したとしている。AI半導体大手の米エヌビディアなどの株価急落に直結した。この衝撃を受けて、1月27日は、世界的にハイテク株が売られた。これにより、エヌビディアは、時価総額で一時18%下落し、5927億ドル(約92兆円)が消失した。トランプ米大統領は27日、「ディープシークによる生成AIの発表が、競争に勝つためにさらに集中すべきだという米国AI業界への警鐘として受け止めるべきだ」と語った。\n\n米シリコンバレーのベンチャーキャピタリスト、マーク・アンドリーセン氏は1月26日のSNS「X」で、ディープシークの「R1モデル」は、AIの「スプートニク・モーメント」だと投稿した。アンドリーセン氏は、1950年代後半に、宇宙競争の開始を告げた旧ソビエト連邦による人工衛星の打ち上げに例え、米国が抱く危機感を表した。米紙「ワシントンポスト」によると、今回の開発費は約560万ドル(約8.7億円)で、米国製の1割程度とされる。ディープシークには、エヌビディア製の格落ちチップ「H800」 約2000個が、一方、米国製は最新型「H100」数万個が使用されている。\n\n主要テック企業3社は1月21日、米国におけるAIインフラの拡大を目指す新会社「スターゲート」を設立すると発表した。オープンAIのサム・アルトマン最高経営責任者(CEO)、ソフトバンクの孫正義CEO、オラクルのラリー・エリソン会長は同日、ホワイトハウスでトランプ大統領と共に設立を発表。同プロジェクトには今後、米国内で最大5000億ドル(約78兆円)の投資が予定されている。トランプ氏は、「世界的なテックの巨人が『スターゲート』を設立する。技術とAIは全部”Made in USA”にする」と述べた。計画には、全米20カ所のデータセンター建設も含まれている。最初となる約50万平方フィートのデータセンターは、米テキサス州に建設する予定となっている。\n\n米ホワイトハウスのレビット報道官は1月28日、ディープシークが国家安全保障に与える影響について、国家安全保障会議(NSC)が精査していると明らかにした。ディープシークが開発したAIの使用を制限する動きが、世界の企業や政府機関の間で広がりを見せている。ディープシークの生成AIについて、データ流出の懸念から、世界で数百に及ぶ企業などが職員に利用制限を課している。この懸念について、中国外務省は「企業の問題は企業に確認してほしい」としながらも、「中国は企業や個人に対して違法なデータの収集や保存を要求したことはない」と反論した。\n\n自民党の小野寺五典政調会長は1月31日、ディープシークに尖閣諸島が日本の領土かと尋ねたところ、「中国固有の領土と事実と違う答えが返ってきた」と指摘した。小野寺氏は「当たり前のことをねじ曲げてしまうのがディープシークだと心配している。危ないのでダウンロードはやめていただきたい」と主張した。', 'summary': 'ディープシークが発表したAIモデルが米国の株式市場に影響を与え、エヌビディアの株価が急落。トランプ大統領はこの発表を警鐘と受け止め、AI業界への影響を懸念。新会社「スターゲート」の設立も発表され、AIインフラの拡大が目指されている。'}

ページに関する細かいメタデータもついてきます。

scrape_result
{'metadata': {'twitter:image': 'https://newsatcl-pctr.c.yimg.jp/t/amd-img/20250202-00000038-ann-000-5-thumb.jpg?exp=10800',
  'twitter:description': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引',
  'al:ios:app_name': 'Yahoo!ニュース',
  'msvalidate.01': '23622BF224ED75EAF67061E9A6003026',
  'twitter:app:name:iphone': 'Yahoo!ニュース',
  'og:image:width': '640',
  'twitter:app:id:iphone': '407906756',
  'twitter:app:id:googleplay': 'jp.co.yahoo.android.news',
  'og:description': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引',
  'ogImage': 'https://newsatcl-pctr.c.yimg.jp/t/amd-img/20250202-00000038-ann-000-5-thumb.jpg?exp=10800',
  'og:locale': 'ja_JP',
  'favicon': 'https://s.yimg.jp/c/icon/s/bsc/2.0/favicon.ico',
  'google-site-verification': 'dVyTbsDzUrUAjCE1aCH9hKwZ8sOsCsvi2uhuBvasrp8',
  'og:title': '【中国AIディープシーク】低コストで高性能“米政権に焦燥”技術覇権と安全保障は?(テレビ朝日系(ANN)) - Yahoo!ニュース',
  'title': '【中国AIディープシーク】低コストで高性能“米政権に焦燥”技術覇権と安全保障は?(テレビ朝日系(ANN)) - Yahoo!ニュース',
  'robots': 'noarchive, max-image-preview:large',
  'msapplication-TileImage': 'https://s.yimg.jp/c/icon/s/bsc/2.0/news144.png',
  'twitter:title': '【中国AIディープシーク】低コストで高性能“米政権に焦燥”技術覇権と安全保障は?(テレビ朝日系(ANN)) - Yahoo!ニュース',
  'twitter:app:url:googleplay': 'yjnews://d/hdl/20250202-00000038-ann-int',
  'ogUrl': 'https://news.yahoo.co.jp/articles/7de60db6f536a3f9021fec6b976edc1fbf438357',
  'al:android:package': 'jp.co.yahoo.android.news',
  'og:image': 'https://newsatcl-pctr.c.yimg.jp/t/amd-img/20250202-00000038-ann-000-5-thumb.jpg?exp=10800',
  'fb:app_id': '276725822409153',
  'og:site_name': 'Yahoo!ニュース',
  'language': 'ja',
  'twitter:app:name:googleplay': 'Yahoo!ニュース',
  'twitter:app:url:iphone': 'yjtrend://d/hdl/20250202-00000038-ann-int',
  'ogDescription': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引',
  'ogLocale': 'ja_JP',
  'format-detection': 'telephone=no',
  'og:type': 'article',
  'twitter:app:country': 'jp',
  'al:android:app_name': 'Yahoo!ニュース',
  'pubdate': '2025-02-02T22:29:31+09:00',
  'al:ios:url': 'yjtrend://d/hdl/20250202-00000038-ann-int',
  'twitter:site': '@YahooNewsTopics',
  'og:image:height': '360',
  'msapplication-TileColor': '#FFFFFF',
  'og:url': 'https://news.yahoo.co.jp/articles/7de60db6f536a3f9021fec6b976edc1fbf438357',
  'ogSiteName': 'Yahoo!ニュース',
  'al:android:url': 'yjnews://d/hdl/20250202-00000038-ann-int',
  'twitter:card': 'summary_large_image',
  'ogTitle': '【中国AIディープシーク】低コストで高性能“米政権に焦燥”技術覇権と安全保障は?(テレビ朝日系(ANN)) - Yahoo!ニュース',
  'viewport': 'width=1010',
  'description': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引',
  'al:ios:app_store_id': '407906756',
  'scrapeId': 'da79693f-f65f-4f16-9baa-64458027c24e',
  'sourceURL': 'https://news.yahoo.co.jp/articles/7de60db6f536a3f9021fec6b976edc1fbf438357',
  'url': 'https://news.yahoo.co.jp/articles/7de60db6f536a3f9021fec6b976edc1fbf438357',
  'statusCode': 200},
 'json': {'title': 'NewsArticle',
  'content': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引けを取らず、低コストで実現したとしている。AI半導体大手の米エヌビディアなどの株価急落に直結した。この衝撃を受けて、1月27日は、世界的にハイテク株が売られた。これにより、エヌビディアは、時価総額で一時18%下落し、5927億ドル(約92兆円)が消失した。トランプ米大統領は27日、「ディープシークによる生成AIの発表が、競争に勝つためにさらに集中すべきだという米国AI業界への警鐘として受け止めるべきだ」と語った。\n\n米シリコンバレーのベンチャーキャピタリスト、マーク・アンドリーセン氏は1月26日のSNS「X」で、ディープシークの「R1モデル」は、AIの「スプートニク・モーメント」だと投稿した。アンドリーセン氏は、1950年代後半に、宇宙競争の開始を告げた旧ソビエト連邦による人工衛星の打ち上げに例え、米国が抱く危機感を表した。米紙「ワシントンポスト」によると、今回の開発費は約560万ドル(約8.7億円)で、米国製の1割程度とされる。ディープシークには、エヌビディア製の格落ちチップ「H800」 約2000個が、一方、米国製は最新型「H100」数万個が使用されている。\n\n主要テック企業3社は1月21日、米国におけるAIインフラの拡大を目指す新会社「スターゲート」を設立すると発表した。オープンAIのサム・アルトマン最高経営責任者(CEO)、ソフトバンクの孫正義CEO、オラクルのラリー・エリソン会長は同日、ホワイトハウスでトランプ大統領と共に設立を発表。同プロジェクトには今後、米国内で最大5000億ドル(約78兆円)の投資が予定されている。トランプ氏は、「世界的なテックの巨人が『スターゲート』を設立する。技術とAIは全部”Made in USA”にする」と述べた。計画には、全米20カ所のデータセンター建設も含まれている。最初となる約50万平方フィートのデータセンターは、米テキサス州に建設する予定となっている。\n\n米ホワイトハウスのレビット報道官は1月28日、ディープシークが国家安全保障に与える影響について、国家安全保障会議(NSC)が精査していると明らかにした。ディープシークが開発したAIの使用を制限する動きが、世界の企業や政府機関の間で広がりを見せている。ディープシークの生成AIについて、データ流出の懸念から、世界で数百に及ぶ企業などが職員に利用制限を課している。この懸念について、中国外務省は「企業の問題は企業に確認してほしい」としながらも、「中国は企業や個人に対して違法なデータの収集や保存を要求したことはない」と反論した。\n\n自民党の小野寺五典政調会長は1月31日、ディープシークに尖閣諸島が日本の領土かと尋ねたところ、「中国固有の領土と事実と違う答えが返ってきた」と指摘した。小野寺氏は「当たり前のことをねじ曲げてしまうのがディープシークだと心配している。危ないのでダウンロードはやめていただきたい」と主張した。',
  'summary': 'ディープシークが発表したAIモデルが米国の株式市場に影響を与え、エヌビディアの株価が急落。トランプ大統領はこの発表を警鐘と受け止め、AI業界への影響を懸念。新会社「スターゲート」の設立も発表され、AIインフラの拡大が目指されている。'}}
scrape_result["json"]
{'title': 'NewsArticle',
 'content': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引けを取らず、低コストで実現したとしている。AI半導体大手の米エヌビディアなどの株価急落に直結した。この衝撃を受けて、1月27日は、世界的にハイテク株が売られた。これにより、エヌビディアは、時価総額で一時18%下落し、5927億ドル(約92兆円)が消失した。トランプ米大統領は27日、「ディープシークによる生成AIの発表が、競争に勝つためにさらに集中すべきだという米国AI業界への警鐘として受け止めるべきだ」と語った。\n\n米シリコンバレーのベンチャーキャピタリスト、マーク・アンドリーセン氏は1月26日のSNS「X」で、ディープシークの「R1モデル」は、AIの「スプートニク・モーメント」だと投稿した。アンドリーセン氏は、1950年代後半に、宇宙競争の開始を告げた旧ソビエト連邦による人工衛星の打ち上げに例え、米国が抱く危機感を表した。米紙「ワシントンポスト」によると、今回の開発費は約560万ドル(約8.7億円)で、米国製の1割程度とされる。ディープシークには、エヌビディア製の格落ちチップ「H800」 約2000個が、一方、米国製は最新型「H100」数万個が使用されている。\n\n主要テック企業3社は1月21日、米国におけるAIインフラの拡大を目指す新会社「スターゲート」を設立すると発表した。オープンAIのサム・アルトマン最高経営責任者(CEO)、ソフトバンクの孫正義CEO、オラクルのラリー・エリソン会長は同日、ホワイトハウスでトランプ大統領と共に設立を発表。同プロジェクトには今後、米国内で最大5000億ドル(約78兆円)の投資が予定されている。トランプ氏は、「世界的なテックの巨人が『スターゲート』を設立する。技術とAIは全部”Made in USA”にする」と述べた。計画には、全米20カ所のデータセンター建設も含まれている。最初となる約50万平方フィートのデータセンターは、米テキサス州に建設する予定となっている。\n\n米ホワイトハウスのレビット報道官は1月28日、ディープシークが国家安全保障に与える影響について、国家安全保障会議(NSC)が精査していると明らかにした。ディープシークが開発したAIの使用を制限する動きが、世界の企業や政府機関の間で広がりを見せている。ディープシークの生成AIについて、データ流出の懸念から、世界で数百に及ぶ企業などが職員に利用制限を課している。この懸念について、中国外務省は「企業の問題は企業に確認してほしい」としながらも、「中国は企業や個人に対して違法なデータの収集や保存を要求したことはない」と反論した。\n\n自民党の小野寺五典政調会長は1月31日、ディープシークに尖閣諸島が日本の領土かと尋ねたところ、「中国固有の領土と事実と違う答えが返ってきた」と指摘した。小野寺氏は「当たり前のことをねじ曲げてしまうのがディープシークだと心配している。危ないのでダウンロードはやめていただきたい」と主張した。',
 'summary': 'ディープシークが発表したAIモデルが米国の株式市場に影響を与え、エヌビディアの株価が急落。トランプ大統領はこの発表を警鐘と受け止め、AI業界への影響を懸念。新会社「スターゲート」の設立も発表され、AIインフラの拡大が目指されている。'}

通常のスクレイピングなどと違い、内容のサマリーの生成といったこともしてくれていることがわかります。

Firecrawl の extract の使い方

extract 関数は、スクレイピングしたテキストを、指定したスキーマに沿って抽出する関数です。
上記の scrape_url をよりデータ抽出に特化させたエンドポイントとなっています。

extract 関数の引数には、URL をリスト形式で、また、dict 形式で、AI に対するプロンプトと希望のアウトプットスキーマを指定します。

extract_result = firecrawl.extract(
    [target_url],
    {
        "prompt": "ニュース記事のタイトル、内容、サマリーを抽出してください。",
        "schema": NewsArticle.model_json_schema(),
    },
)

extract_result
{'success': True,
 'data': {'title': '【中国AIディープシーク】低コストで高性能“米政権に焦燥”技術覇権と安全保障は?(テレビ朝日系(ANN)) - Yahoo!ニュース',
  'content': '中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引けを取らず、低コストで実現したとしている。AI半導体大手の米エヌビディアなどの株価急落に直結した。この衝撃を受けて、1月27日は、世界的にハイテク株が売られた。これにより、エヌビディアは、時価総額で一時18%下落し、5927億ドル(約92兆円)が消失した。トランプ米大統領は27日、「ディープシークによる生成AIの発表が、競争に勝つためにさらに集中すべきだという米国AI業界への警鐘として受け止めるべきだ」と語った。\n\n米シリコンバレーのベンチャーキャピタリスト、マーク・アンドリーセン氏は1月26日のSNS「X」で、ディープシークの「R1モデル」は、AIの「スプートニク・モーメント」だと投稿した。アンドリーセン氏は、1950年代後半に、宇宙競争の開始を告げた旧ソビエト連邦による人工衛星の打ち上げに例え、米国が抱く危機感を表した。米紙「ワシントンポスト」によると、今回の開発費は約560万ドル(約8.7億円)で、米国製の1割程度とされる。ディープシークには、エヌビディア製の格落ちチップ「H800」 約2000個が、一方、米国製は最新型「H100」数万個が使用されている。\n\n主要テック企業3社は1月21日、米国におけるAIインフラの拡大を目指す新会社「スターゲート」を設立すると発表した。オープンAIのサム・アルトマン最高経営責任者(CEO)、ソフトバンクの孫正義CEO、オラクルのラリー・エリソン会長は同日、ホワイトハウスでトランプ大統領と共に設立を発表。同プロジェクトには今後、米国内で最大5000億ドル(約78兆円)の投資が予定されている。トランプ氏は、「世界的なテックの巨人が『スターゲート』を設立する。技術とAIは全部”Made in USA”にする」と述べた。計画には、全米20カ所のデータセンター建設も含まれている。最初となる約50万平方フィートのデータセンターは、米テキサス州に建設する予定となっている。\n\n米ホワイトハウスのレビット報道官は1月28日、ディープシークが国家安全保障に与える影響について、国家安全保障会議(NSC)が精査していると明らかにした。ディープシークが開発したAIの使用を制限する動きが、世界の企業や政府機関の間で広がりを見せている。ディープシークの生成AIについて、データ流出の懸念から、世界で数百に及ぶ企業などが職員に利用制限を課している。この懸念について、中国外務省は「企業の問題は企業に確認してほしい」としながらも、「中国は企業や個人に対して違法なデータの収集や保存を要求したことはない」と反論した。\n\n自民党の小野寺五典政調会長は1月31日、ディープシークに尖閣諸島が日本の領土かと尋ねたところ、「中国固有の領土と事実と違う答えが返ってきた」と指摘した。小野寺氏は「当たり前のことをねじ曲げてしまうのがディープシークだと心配している。危ないのでダウンロードはやめていただきたい」と主張した。',
  'summary': '中国の新興企業ディープシークが最新のAIモデルを発表し、米国の株式市場に影響を与えた。ディープシークの製品は低コストで高性能とされ、エヌビディアの株価が急落。トランプ大統領はこの発表を米国AI業界への警鐘と捉え、AIインフラ拡大を目指す新会社「スターゲート」の設立も発表された。ディープシークのAI使用制限の動きが広がる中、国家安全保障への影響が懸念されている。'},
 'status': 'completed',
 'expiresAt': '2025-02-03T07:17:52.000Z'}
print("<title>", extract_result["data"]["title"], "</title>")
print("<summary>", extract_result["data"]["summary"], "</summary>")
print("<content>", extract_result["data"]["content"], "</content>")
<title> 【中国AIディープシーク】低コストで高性能“米政権に焦燥”技術覇権と安全保障は?(テレビ朝日系(ANN)) - Yahoo!ニュース </title>
<summary> 中国の新興企業ディープシークが最新のAIモデルを発表し、米国の株式市場に影響を与えた。ディープシークの製品は低コストで高性能とされ、エヌビディアの株価が急落。トランプ大統領はこの発表を米国AI業界への警鐘と捉え、AIインフラ拡大を目指す新会社「スターゲート」の設立も発表された。ディープシークのAI使用制限の動きが広がる中、国家安全保障への影響が懸念されている。 </summary>
<content> 中国東部の浙江省杭州市に本社を置く新興企業「ディープシーク(DeepSeek)」が最新の人工知能(AI)モデルを発表し、世界の株式市場と米政権を揺るがした。同社製品は、米国のトップモデルに性能面で引けを取らず、低コストで実現したとしている。AI半導体大手の米エヌビディアなどの株価急落に直結した。この衝撃を受けて、127日は、世界的にハイテク株が売られた。これにより、エヌビディアは、時価総額で一時18%下落し、5927億ドル(約92兆円)が消失した。トランプ米大統領は27日、「ディープシークによる生成AIの発表が、競争に勝つためにさらに集中すべきだという米国AI業界への警鐘として受け止めるべきだ」と語った。

米シリコンバレーのベンチャーキャピタリスト、マーク・アンドリーセン氏は126日のSNSX」で、ディープシークの「R1モデル」は、AIの「スプートニク・モーメント」だと投稿した。アンドリーセン氏は、1950年代後半に、宇宙競争の開始を告げた旧ソビエト連邦による人工衛星の打ち上げに例え、米国が抱く危機感を表した。米紙「ワシントンポスト」によると、今回の開発費は約560万ドル(約87億円)で、米国製の1割程度とされる。ディープシークには、エヌビディア製の格落ちチップ「H800」 約2000個が、一方、米国製は最新型「H100」数万個が使用されている。

主要テック企業3社は121日、米国におけるAIインフラの拡大を目指す新会社「スターゲート」を設立すると発表した。オープンAIのサム・アルトマン最高経営責任者(CEO)、ソフトバンクの孫正義CEO、オラクルのラリー・エリソン会長は同日、ホワイトハウスでトランプ大統領と共に設立を発表。同プロジェクトには今後、米国内で最大5000億ドル(約78兆円)の投資が予定されている。トランプ氏は、「世界的なテックの巨人が『スターゲート』を設立する。技術とAIは全部”Made in USA”にする」と述べた。計画には、全米20カ所のデータセンター建設も含まれている。最初となる約50万平方フィートのデータセンターは、米テキサス州に建設する予定となっている。

米ホワイトハウスのレビット報道官は128日、ディープシークが国家安全保障に与える影響について、国家安全保障会議(NSC)が精査していると明らかにした。ディープシークが開発したAIの使用を制限する動きが、世界の企業や政府機関の間で広がりを見せている。ディープシークの生成AIについて、データ流出の懸念から、世界で数百に及ぶ企業などが職員に利用制限を課している。この懸念について、中国外務省は「企業の問題は企業に確認してほしい」としながらも、「中国は企業や個人に対して違法なデータの収集や保存を要求したことはない」と反論した。

自民党の小野寺五典政調会長は131日、ディープシークに尖閣諸島が日本の領土かと尋ねたところ、「中国固有の領土と事実と違う答えが返ってきた」と指摘した。小野寺氏は「当たり前のことをねじ曲げてしまうのがディープシークだと心配している。危ないのでダウンロードはやめていただきたい」と主張した。 </content>

ということで、本当に抽出したいデータが決まっている場合は、 extract 関数のほうが便利そうです。

まとめ & Firecrawl の Extract API を活用したアプリの実例

Firecrawl の API は、ウェブページのテキストを抽出する際に非常に便利な API でした。

実はしばらく自分でスクレイピングの部分を実装しようとしていたのですが、時間コストも考えるとこういったライブラリのメリットはかなり大きいですね。

今回はいろんなコードも参照しながら、参考までにFirecrawl の Extract API を使って小さなアプリも作ってみました。
求人リストから情報を抽出し、履歴書に対して一番相性の良い求人を提案してくれる簡単なCLIアプリです。良かったら合わせてご活用ください。

以上、お読みいただきありがとうございます。少しでも参考になればと思います。

もし似たようなコンテンツに興味があれば、フォローしていただけると嬉しいです:


いいなと思ったら応援しよう!