見出し画像

【超便利ツール】GithubリポジトリをLLM学習用データに自動変換!Geminiに専門知識を爆速学習させる方法

シンプルながらこれすごいと思ったのでご紹介してきます。
GPTsとか、BingAIとか、なんだか カエルをアップロードして AI に学習させてそれに対して質問するという使い方がありますよね。

難解な公式ドキュメントとか読み込ませてそれを質問したりそのデータから何らかのアウトプット出すという使い方です。

  • ただ複数のファイルになると読み込みが大変

  • トークンに制限がある

という問題があります。

例えばプログラミング、Githubのソースコードだったりとか、公式ドキュメントは大量でとても一気にアップロードできるようなものではありません。

難解な公式ドキュメントを簡単に AI に学習させることができれば すごく便利なのに!思っていたところでした。

で、発見しました! 1filellmというオープンソースのプログラム。↓

使い方のYOUTUBE動画(RAGについても)


オープンソースコード「1FileLLM」

  • 学習データ量の削減: 1FileLLMは、ウェブページを圧縮することで、学習データ量を大幅に削減することができます。

  • 専門知識の学習: 1FileLLMは、Githubリポジトリなどの専門的なウェブページを学習データとして利用することで、LLMに専門知識を学習させることができます。

  • トークン制限の突破: 1FileLLMは、圧縮によってトークン数を削減することで、トークン制限を突破することができます。

1filellmでできること

  • Githubリポジトリ

  • ローカルに置いたリポジトリ

  • ウェブページ

  • YouTubeトランスクリプト

  • arXiv論文

などを圧縮して、LLM学習用データに変換することができます。
正し、英語のみに対応!それでも難解な英語の公式ドキュメントをLLMに学習させる最適なファイルを作れるのはとても有益!

正し、英語のみの対応です。日本語の自分のYOUTUBE動画で試したら、英語でないので出力できない、となりました。

それでも英語の公式ドキュメントをA Iに楽に学習させることができるのはかなり便利!

1filellmの使い方の流れ

ファイルが重くなる可能性があるので、私はUSBファイルで実行することにしました。USBの名前をOUTDRIVEにしています。

1.プロジェクトのディレクトリを作成する


(USB)の中に作る

mkdir my_project3
cd my_project

2.リポジトリをクローンする

git clone https://github.com/jimmc414/1filellm.git

3.仮想環境を作成
cd /Volumes/OUTDRIVE/my_project/に移動して以下コマンド

仮想環境作成

python -m venv venv
仮想環境有効化

source venv/bin/activate

my_project/

├── 1filellm/       # git cloneによって作成されたプロジェクトのフォルダ
│   ├── 1filellm.py # スクリプトファイル
│   └── ...         # その他のプロジェクトファイル

└── venv/           # 仮想環境フォルダ

4・1filellmに移動し、以下コマンド。

移動するコマンド(Windowsや、実行する場所で違うので、ChatGPTとかBingAIに、”移動するコマンドを教えて”と聞いて、コピペすればOK!

cd /Volumes/OUTDRIVE/my_project/1filellm

pip install -U -r requirements.txt

pip install -r 1filellm/requirements.txt

5 GitのGITHUB_TOKEN=を取得し、以下コマンドを実行

GITHUB_TOKENは、Select scopesのrepoを選択
GITHUB_TOKENの取り方は、ネットで調べるか、上記のYOUTUBEをご覧ください。

macOS/Linux:

export GITHUB_TOKEN='TOKEN’

export GITHUB_TOKEN="TOKEN"

Windwows

setx GITHUB_TOKEN "YourGitHubToken"

6.以下に移動

cd /Volumes/OUTDRIVE/my_project/1filellm

5.以下コマンドを実行

python 1filellm.py

6 EnterURLが出たら、gitのページ(AIに学習させたいページ)のURLを入力


https://github.com/google-deepmind/gemma

⭐️gitの拡張子はいらない
https://github.com/google-deepmind/gemma.gitの代わりに、https://github.com/google-deepmind/gemmaを使用します。.git拡張子は不要です

Google AI Studioで試す

Google AI studioで試してみます。

通常のGemniとまた違って(元のBard)添付ファイルを、アップロードできます。↓

chatGPTと比べてあまり賢くない!と言われがちなGeminiですが、学習させると結構賢くなるかなあという印象!

この記事が参加している募集

この記事が気に入ったらサポートをしてみませんか?