「#grpo」の人気タグ記事一覧｜note ――つくる、つながる、とどける。

Unsloth で独自の R1 Reasoningモデルを学習

2週間前

53

WSL2でunslothのGPROトレーニングを試してみる

2週間前

33

Long-context GRPO

6日前

20

【OpenAI、食われる？】DeepSeek-R1がすごすぎる！✨強化学習＋思考プロセス付きの推論力がすごいLLMが登場！OpenAIより90%も安いのに高性能😍料金体系や使い方まで徹底解説💖

葉加瀬あい (AI-Hakase)🐱動画&Note でAI解説をしています･:*:･｡

1か月前

67

GRPO とは？ : DeepSeek-R1で採用された16GBで10億パラメータモデルをファインチューニングする技術

5日前

7

DeepSeek-R1とは？～推論特化のLLM

三木ひとみ🎀行政書士法人ひとみ綜合法務事務所🎀

1か月前

14

GRPOを試してみた

3週間前

6

GPRO Superlight Dex2 レビュー。違いや比較。ゲーミングマウス王者

クラシキログ【ガジェット•生活情報】

1か月前

2

（メモ）DeepSeek R1の概要を公式の記事からまとめておく

1か月前

8

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (Paper Explained)

海外ポッドキャスト紹介

4週間前

2

DeepSeek-R1の衝撃と今後の生成AIの行方

3週間前

2

UnslothでGRPO

9日前