「#TRL」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

GRPOを試してみた

2週間前

6

プラスチックのケミカルリサイクルについて語りましょう-4(インドネシアにおけるケミカルリサイクルの実証アイディア)

Tatsuhiko.Hatakeyama/DCTA Inc.

9日前

7

Vision Language Model の技術詳細と推論と学習

10か月前

26

Google Colab を使って Llama 3 のファインチューニングを試してみました／大塚

10か月前

20

Google Colab で SFTTrainer によるLLMのフルパラメータのファインチューニングを試す

1年前

35

DPO による Llama 2 のファインチューニング

1年前

46

Google Colab で SFTTrainer によるLLMのフルパラメータの指示チューニングを試す

1年前

19

DRLX による Stable Diffusion の RLHF を試す

1年前

18

Google Colab + trl で LINE の japanese-large-lm のQLoRA ファインチューニングを試す

1年前

25

Google Colab + trl で SFT のQLoRAファインチューニングを試す

1年前

30

Google Colab + trl で DPO のQLoRAファインチューニングを試す

1年前

18

Google Colab + trl で RLHF で使う Reward Model の学習を試す

1年前

15

24GB GPU で 20B LLM の RLHF ファインチューニング

1年前

47

TRLのコンセプトとテックベンチャーの成長予測(🍊)

古賀洋一郎

4年前

3