人気の記事一覧

Unsloth で独自の R1 Reasoningモデルを学習

2週間前

WSL2でunslothのGPROトレーニングを試してみる

2週間前

Long-context GRPO

6日前
再生

【OpenAI、食われる?】DeepSeek-R1がすごすぎる!✨強化学習+思考プロセス付きの推論力がすごいLLMが登場!OpenAIより90%も安いのに高性能😍料金体系や使い方まで徹底解説💖

GRPO とは? : DeepSeek-R1で採用された16GBで10億パラメータモデルをファインチューニングする技術

DeepSeek-R1とは?~推論特化のLLM

GRPOを試してみた

3週間前

GPRO Superlight Dex2 レビュー。違いや比較。ゲーミングマウス王者

(メモ)DeepSeek R1の概要を公式の記事からまとめておく

1か月前

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (Paper Explained)

DeepSeek-R1の衝撃と今後の生成AIの行方

3週間前

UnslothでGRPO

9日前