Data

はじめに最近は大規模言語モデルを作っています｡

データソースとして､ネット上のhtmlデータを収集したCommonCrawlは有名です｡

しかし､htmlから抜き出したテキストは､あまり品質が高くないケースが多いです｡
また､html版は多くの方が取り組んでおり､意外と日本語のテキストは枯渇気味です｡

そこで今回は､CommonCrawlのPDF版を解析してみます｡

コード一式(3/21

もっとみる

Kan Hatakeyama

2024年2月16日 20:55

CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ

はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、意外と低品質だったり、最新の情報が含まれていなかったり、諸々の問題があります。

そこで、独自に日本語コーパスを作る動きも出ています。

本記事は、以下の記事の続きとして、CCからWebデータをダウンロードし

もっとみる

Kan Hatakeyama

2024年2月14日 17:29

CommonCrawlの生データをダウンロードして解析する練習

はじめに大規模言語の事前学習には、Webデータを片っ端からダウンロードしたサイト(CommonCrawl, CC)が大活躍します。
普通はCCを使いやすい形で加工したコーパスを用いるのですが、今回は生データにアクセスして解析してみました。

ファイルをダウンロードする兎にも角にも、ファイルをダウンロードすることから作業が始まります。

URLリストを取得する

まずは上記CCのサイトにアクセス

もっとみる

フォローしませんか？

#CommonCrawl

CommonCrawl PDFを漁る練習

CommonCrawlから有益な日本語の記事と文章を機械学習で抽出するスクリプトのプロトタイプ

CommonCrawlの生データをダウンロードして解析する練習