【超便利ツール】GithubリポジトリをLLM学習用データに自動変換!Geminiに専門知識を爆速学習させる方法
シンプルながらこれすごいと思ったのでご紹介してきます。
GPTsとか、BingAIとか、なんだか カエルをアップロードして AI に学習させてそれに対して質問するという使い方がありますよね。
難解な公式ドキュメントとか読み込ませてそれを質問したりそのデータから何らかのアウトプット出すという使い方です。
ただ複数のファイルになると読み込みが大変
トークンに制限がある
という問題があります。
例えばプログラミング、Githubのソースコードだったりとか、公式ドキュメントは大量でとても一気にアップロードできるようなものではありません。
難解な公式ドキュメントを簡単に AI に学習させることができれば すごく便利なのに!思っていたところでした。
で、発見しました! 1filellmというオープンソースのプログラム。↓
使い方のYOUTUBE動画(RAGについても)
オープンソースコード「1FileLLM」
学習データ量の削減: 1FileLLMは、ウェブページを圧縮することで、学習データ量を大幅に削減することができます。
専門知識の学習: 1FileLLMは、Githubリポジトリなどの専門的なウェブページを学習データとして利用することで、LLMに専門知識を学習させることができます。
トークン制限の突破: 1FileLLMは、圧縮によってトークン数を削減することで、トークン制限を突破することができます。
1filellmでできること
Githubリポジトリ
ローカルに置いたリポジトリ
ウェブページ
YouTubeトランスクリプト
arXiv論文
などを圧縮して、LLM学習用データに変換することができます。
正し、英語のみに対応!それでも難解な英語の公式ドキュメントをLLMに学習させる最適なファイルを作れるのはとても有益!
正し、英語のみの対応です。日本語の自分のYOUTUBE動画で試したら、英語でないので出力できない、となりました。
それでも英語の公式ドキュメントをA Iに楽に学習させることができるのはかなり便利!
1filellmの使い方の流れ
ファイルが重くなる可能性があるので、私はUSBファイルで実行することにしました。USBの名前をOUTDRIVEにしています。
1.プロジェクトのディレクトリを作成する
(USB)の中に作る
mkdir my_project3
cd my_project
2.リポジトリをクローンする
git clone https://github.com/jimmc414/1filellm.git
3.仮想環境を作成
cd /Volumes/OUTDRIVE/my_project/に移動して以下コマンド
仮想環境作成
↓
python -m venv venv
仮想環境有効化
↓
source venv/bin/activate
my_project/
│
├── 1filellm/ # git cloneによって作成されたプロジェクトのフォルダ
│ ├── 1filellm.py # スクリプトファイル
│ └── ... # その他のプロジェクトファイル
│
└── venv/ # 仮想環境フォルダ
4・1filellmに移動し、以下コマンド。
移動するコマンド(Windowsや、実行する場所で違うので、ChatGPTとかBingAIに、”移動するコマンドを教えて”と聞いて、コピペすればOK!
cd /Volumes/OUTDRIVE/my_project/1filellm
pip install -U -r requirements.txt
pip install -r 1filellm/requirements.txt
5 GitのGITHUB_TOKEN=を取得し、以下コマンドを実行
GITHUB_TOKENは、Select scopesのrepoを選択。
GITHUB_TOKENの取り方は、ネットで調べるか、上記のYOUTUBEをご覧ください。
macOS/Linux:
export GITHUB_TOKEN='TOKEN’
export GITHUB_TOKEN="TOKEN"
Windwows
setx GITHUB_TOKEN "YourGitHubToken"
6.以下に移動
cd /Volumes/OUTDRIVE/my_project/1filellm
5.以下コマンドを実行
python 1filellm.py
6 EnterURLが出たら、gitのページ(AIに学習させたいページ)のURLを入力
https://github.com/google-deepmind/gemma
⭐️gitの拡張子はいらない
https://github.com/google-deepmind/gemma.gitの代わりに、https://github.com/google-deepmind/gemmaを使用します。.git拡張子は不要です
Google AI Studioで試す
Google AI studioで試してみます。
通常のGemniとまた違って(元のBard)添付ファイルを、アップロードできます。↓
chatGPTと比べてあまり賢くない!と言われがちなGeminiですが、学習させると結構賢くなるかなあという印象!
この記事が参加している募集
この記事が気に入ったらサポートをしてみませんか?