ABCI上でDeepSpeedを使ったLLMの学習を実行するまで
7~8Bのフルパラメタチューニングは残念ながらA100 x 1枚(40GB VRAM)でも乗らない。
そこでDeepSpeedに頼ることに。
基本的にはこちらのnoteに従うと良い。
1. mpi4pyのinstallについて
pip でinstallしようとするとwheel関係のエラーが生じた。元記事ではcondaでinstallしているが、ABCI上ではそうも行かない。
module load intel-mpi/2021.11
pip install mpi4py
で解決した。
2. torch_adam = Trueに設定。
これは別になくても良い。
3. AttributeError: 'DeepSpeedCPUAdam' object has no attribute 'ds_opt_adam'
・Deepspeedやninjaをinstallし直してみたが解決せず。
・module load gcc/13.2.0
で解決した。よくみたら以下のエラーが出ていた。
error: #error "You're trying to build PyTorch with a too old version of GCC. We need GCC 9 or later."