人気の記事一覧

Megatron-DeepSpeedからHFのTransformersにチェックポイントを変換する

7か月前

日本マイクロソフトで DeepSpeed ミートアップを開催、その機能や活用法とは(2024/06/14、ニュースリリース)

5か月前

大規模言語モデル(Llama2など)を正攻法でファインチューニングする際のメモ(ZeRO-Offload, not QLoRA)

Google Colab で DeepSpeed によるLLMのフルパラメータの指示チューニングを試す

1年前

メモリをスワッピングしながら大規模言語モデル(LLama2)をフルパラメータでファインチューニングできるかどうか?

DeepSpeedの使い方をまとめてみた

DeepSpeed-ChatがAI業界を革新、効率向上とコスト削減を促進し、アプリケーションの展開を加速

DeepSpeed Chat by Docker

1年前

DeepSpeed training

1年前

ABCI上でDeepSpeedを使ったLLMの学習を実行するまで

4か月前

2024年6月8日に、角川グループデータセンターのプライベート・ネットワークにウイルス感染させた(かなり深刻なインシデント)が、 逆に、管理が難しい、 プライベートネットワークに、データ・クレカ情報を、 政府のように、 敢えてリスク分散させていた誤魔化しを後からしないことを祈る!

5か月前

An Integration of Pre-Trained Speech and Language Models for End-to-End Speech Recognition

7か月前

DeepSpeed-chat + gpt model がdropout 未定義エラーになる件

1年前