- 運営しているクリエイター
#CommonCrawl
CommonCrawl PDFを漁る練習
はじめに最近は大規模言語モデルを作っています。
データソースとして、ネット上のhtmlデータを収集したCommonCrawlは有名です。
しかし、htmlから抜き出したテキストは、あまり品質が高くないケースが多いです。
また、html版は多くの方が取り組んでおり、意外と日本語のテキストは枯渇気味です。
そこで今回は、CommonCrawlのPDF版を解析してみます。
コード一式(3/21
CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ
はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、意外と低品質だったり、最新の情報が含まれていなかったり、諸々の問題があります。
そこで、独自に日本語コーパスを作る動きも出ています。
本記事は、以下の記事の続きとして、CCからWebデータをダウンロードし
CommonCrawlの生データをダウンロードして解析する練習
はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、今回は生データにアクセスして解析してみました。
ファイルをダウンロードする兎にも角にも、ファイルをダウンロードすることから作業が始まります。
URLリストを取得する
まずは上記CCのサイトにアクセス