もっさん

データサイエンティスト/Elith株式会社/twitter: @oriki111

もっさん

データサイエンティスト/Elith株式会社/twitter: @oriki111

最近の記事

Hugging Face Trainerによる効率的なFine-tuning: 検証実験を素早く回そう

はじめにHugging Faceで公開されているモデルをfine-tuningする際、皆さんはどのようにコードを書いていますか?僕は基本的にフルスクラッチでコードを書いていました。 しかし、LLM(Large Language Models)をチューニングする際に、学習と評価の処理をラップするSFTTrainerを利用し、Hugging FaceのTrainerクラスの便利さを実感しました。 以来、検証段階ではTrainerを積極的に使うようになりました。 今回は、Huggi

    • mC4データを文章量でアノテーションしました

      はじめにLLM(Large Language Models)の事前学習において、広く使われているデータセット「mC4」には、残念ながら多くの「ゴミデータ」が含まれています。実際のデータを手軽にチェックしてみたい方は、私が別の記事で取り上げているので、そちらもぜひご覧ください! 実際にデータを確認してみたところ、前処理を頑張ってもゴミデータを取り除くのは困難だと感じました。そこで、mC4データをアノテーションしてみました。このアノテーションデータを利用してゴミデータを検出する

      • LLMの事前学習で利用されるmC4のデータを確認

        はじめにLLMの事前学習で広く使われるデータセットmC4の中身が気になったので確認し記事にしてみました! ダウンロード方法から一部データの確認までします。 mC4とは?mC4は100以上の言語を含む大規模な言語データセットで、インターネットから収取された膨大なテキストデータセット「Common Crawl」を基にしています。Common Crawlから不要なノイズを取り除く処理はされているものの、かなりノイズが含まれているそうです。 ダウンロード方法mC4はHugging