【考察】メモリの革新的圧縮技術「Cut Cross-Entropy」が言語モデルの常識を覆すらしい


スレッド

上記の論文に対してなんJの架空のスレを創造的に書いて。 レス番や名前、投稿日時、IDも書き、アンカーは全角で>>と書くこと。 10人以上の専門家と2人の初学者をスレ登場させて 多角的に議論して。スレタイトルも考えて、30回以上やり取りしてください。

1 名無しさん@Deep Learning 2024/11/22(金) 21:45:23.45 ID:DL0p3nAI
Appleの研究チームが言語モデルのメモリ使用量を劇的に削減する手法を発表
Cross-entropyの計算でメモリ使用量が90%以上減るらしい
https://arxiv.org/abs/2411.09009

2 機械学習研究者 ◆ML3xp3rt2A 2024/11/22(金) 21:47:12.78 ID:ML3xp3rt
これマジですごい
Gemma 2 (2B)のメモリ使用量を28GBから1GBに削減とか革命的やん
しかも速度低下もほぼないとか

3 名無しさん@Deep Learning 2024/11/22(金) 21:48:45.91 ID:N00b1234
初心者なんですが、これってどういう意味ですか?
普通のパソコンでも大きな言語モデル動かせるようになるってこと?

4 深層学習エンジニア ◆3ng1n33r5A 2024/11/22(金) 21:50:33.67 ID:3ng1n33r
>>3
トレーニング時のメモリ使用量の話やで
推論時には影響ないんや
でもトレーニングのコストが大幅に下がるから、間接的に恩恵はあるかもな

5 メモリ最適化の専門家 ◆M3m0ryPr0 2024/11/22(金) 21:52:18.90 ID:M3m0ryPr0
実装のキモは3つあるな
1. 行列計算をSRAMで行う
2. 勾配のフィルタリング
3. 語彙のソーティング
特に勾配フィルタリングが効いてる

6 GPU研究者 ◆GPUr3s34ch 2024/11/22(金) 21:54:02.45 ID:GPUr3s34c
SRAMの使い方うまいわ
FlashAttentionの考え方を cross-entropy に応用した感じやな
メモリ階層を意識した実装の好例や

7 名無しさん@Deep Learning 2024/11/22(金) 21:55:44.23 ID:B3g1nn3r5
すみません、もう一つ質問です
SRAMって何ですか?

8 コンピュータアーキテクト ◆CPUArch1t 2024/11/22(金) 21:57:33.89 ID:CPUArch1t
>>7
GPUの中の高速なメモリやで
メインメモリ(DRAM)より小さいけど速い
この手法はそこを上手く使って無駄なメモリ転送を減らしてるんや

9 最適化理論家 ◆0pt1m1z3r 2024/11/22(金) 21:59:15.67 ID:0pt1m1z3r
数値精度の話も興味深いな
bfloat16で2^-12未満は実質影響ないから無視するってのは賢い
理論的な裏付けもしっかりしてる

10 分散システム研究者 ◆D1str1but3 2024/11/22(金) 22:01:08.34 ID:D1str1but3
これパイプラインパラレリズムにも良い影響ありそう
各ステージのメモリバランス取りやすくなるし

11 機械学習研究者 ◆ML3xp3rt2A 2024/11/22(金) 22:03:22.56 ID:ML3xp3rt
>>9
そうそう、理論と実装のバランスがいい
実験結果も説得力あるよな
収束にも影響ないの確認できてる

12 深層学習フレームワーク開発者 ◆Fr4m3w0rk 2024/11/22(金) 22:05:11.78 ID:Fr4m3w0rk
これPyTorchに取り込まれる可能性あるな
現状のtorch.compileより良い性能出てるし
実装もクリーン

13 HPC研究者 ◆HPCr3s34ch 2024/11/22(金) 22:07:45.90 ID:HPCr3s34ch
Tritonでの実装は妥協点あるみたいやけど
それでもこの性能出せてるのがすごいわ
CUDAで書き直したらもっと性能出そう

14 名無しさん@Deep Learning 2024/11/22(金) 22:09:33.45 ID:DL0p3nAI
これAppleが出したってのも興味深いよな
言語モデルの研究にも本気で取り組んでるってことか

15 深層学習エンジニア ◆3ng1n33r5A 2024/11/22(金) 22:11:24.67 ID:3ng1n33r
>>14
最近のAppleのML関連の論文レベル高いよな
実用性重視なのに理論的な深さもある

16 メモリ最適化の専門家 ◆M3m0ryPr0 2024/11/22(金) 22:13:15.89 ID:M3m0ryPr0
語彙サイズ大きくなるほど効果でかいのも良いよな
これから語彙サイズ増やす流れになりそうやし
まさに時代を先取りした研究や

17 GPU研究者 ◆GPUr3s34ch 2024/11/22(金) 22:15:08.23 ID:GPUr3s34c
>>16
確かにな
最近の研究見てると、大きい語彙の方が性能良いって結果多いし
このタイミングでの発表は戦略的やわ

18 コンピュータアーキテクト ◆CPUArch1t 2024/11/22(金) 22:17:33.45 ID:CPUArch1t
Appleのハード知見が活きてる感あるな
メモリ階層の扱い方とか、まさにチップデザイナーの発想や

19 最適化理論家 ◆0pt1m1z3r 2024/11/22(金) 22:19:45.67 ID:0pt1m1z3r
アルゴリズムの美しさもある
理論・実装・実用性の三拍子揃ってる
こういう研究好きやわ

20 分散システム研究者 ◆D1str1but3 2024/11/22(金) 22:21:56.89 ID:D1str1but3
これ応用の可能性も広そうやな
画像分類とか他タスクにも使えそう
コントラスティブラーニングとかにも

21 機械学習研究者 ◆ML3xp3rt2A 2024/11/22(金) 22:23:44.12 ID:ML3xp3rt
>>20
その視点面白いね
確かに大規模分類問題全般に使える可能性ある
汎用的な手法になりそう

22 深層学習フレームワーク開発者 ◆Fr4m3w0rk 2024/11/22(金) 22:25:33.78 ID:Fr4m3w0rk
実装の公開も早そうやしな
もうGitHubのリポジトリも用意されてるみたいやし
普及は早そう

23 HPC研究者 ◆HPCr3s34ch 2024/11/22(金) 22:27:15.90 ID:HPCr3s34ch
ベンチマーク結果の再現性も高そうやな
実験設定もしっかりしてるし
これは広まるで

24 名無しさん@Deep Learning 2024/11/22(金) 22:29:08.34 ID:N00b1234
なんか皆さん興奮してますね
これそんなに革新的なんですか?

25 メモリ最適化の専門家 ◆M3m0ryPr0 2024/11/22(金) 22:31:22.56 ID:M3m0ryPr0
>>24
めっちゃ革新的や
今までのLLMトレーニングの常識を覆す成果や
特に大規模モデルのトレーニングコスト下げるのに効く

26 深層学習エンジニア ◆3ng1n33r5A 2024/11/22(金) 22:33:15.67 ID:3ng1n33r
実務的な価値もデカイよな
トレーニングのコスト下がれば、より多くの実験できるし
モデル改善のイテレーション早くなる

27 GPU研究者 ◆GPUr3s34ch 2024/11/22(金) 22:35:08.90 ID:GPUr3s34c
実装の完成度高いな
エッジケースの処理とかも丁寧や
本番環境でも使えそう

28 コンピュータアーキテクト ◆CPUArch1t 2024/11/22(金) 22:37:33.12 ID:CPUArch1t
これ要するにメモリウォールの問題に切り込んだ研究よな
計算能力とメモリ帯域のギャップを賢く扱ってる
今後のアーキテクチャ研究にも影響ありそう

29 最適化理論家 ◆0pt1m1z3r 2024/11/22(金) 22:39:45.34 ID:0pt1m1z3r
理論的な美しさもある
必要な計算だけを効率的にやる
無駄を省くアプローチの好例やな

30 分散システム研究者 ◆D1str1but3 2024/11/22(金) 22:41:56.78 ID:D1str1but3
分散学習への影響も考えないとな
同期コストも下がりそうやし
スケーラビリティ上がりそう

31 機械学習研究者 ◆ML3xp3rt2A 2024/11/22(金) 22:43:44.90 ID:ML3xp3rt
結論として、これは間違いなく今年の重要論文の一つになるな
実用的なインパクトがデカすぎる

32 深層学習フレームワーク開発者 ◆Fr4m3w0rk 2024/11/22(金) 22:45:33.23 ID:Fr4m3w0rk
実装の参考にもなるしな
他の最適化手法にも応用できそう
良い刺激になりそうや

33 GPU研究者 ◆GPUr3s34ch 2024/11/22(金) 22:47:15.67 ID:GPUr3s34c
SRAMの使い方、例えるなら仕出し屋の厨房みたいなもんや
メインの冷蔵庫(DRAM)は大きいけど遠い
手元の作業台(SRAM)は小さいけど近い
この研究は作業台を賢く使って効率上げてる感じ

34 メモリ最適化の専門家 ◆M3m0ryPr0 2024/11/22(金) 22:49:23.45 ID:M3m0ryPr0
>>33
ええ例えやな
FlashAttentionが「注文票を小分けにして効率的に処理する」やとしたら
これは「注文の集計を一気に全部やらずに、必要な分だけその場で計算する」感じか

35 コンピュータアーキテクト ◆CPUArch1t 2024/11/22(金) 22:51:45.89 ID:CPUArch1t
厨房の例で続けると、従来手法は
「全ての注文を一旦紙に書き出してから集計する」みたいな感じやったんよな
メモリ使いまくる上に、紙の出し入れで時間もかかる

36 深層学習エンジニア ◆3ng1n33r5A 2024/11/22(金) 22:53:33.12 ID:3ng1n33r
>>35
確かにw
この手法なら「必要な注文だけその場でパッと計算」
無駄な書き出し作業なしや

37 名無しさん@Deep Learning 2024/11/22(金) 22:55:21.34 ID:B3g1nn3r5
なるほど!料理の例えだとわかりやすいです
でも実際のコンピュータではどう動いてるんですか?

38 HPC研究者 ◆HPCr3s34ch 2024/11/22(金) 22:57:44.56 ID:HPCr3s34ch
>>37
技術的に言うと、行列計算をSRAM上で小分けにやってるんや
計算結果も必要な部分だけ保持
これがメモリ効率のキモやな

39 最適化理論家 ◆0pt1m1z3r 2024/11/22(金) 22:59:33.78 ID:0pt1m1z3r
料理の例で言うと、さらに
「人気メニューと不人気メニューを分けて配置する」みたいな工夫もしてるんよな
これが語彙のソーティングに相当する

40 分散システム研究者 ◆D1str1but3 2024/11/22(金) 23:01:25.90 ID:D1str1but3
>>39
そうそう、注文確率の低いメニューは後回しにする感じやな
実際の計算でも、重要な部分から処理していく
無駄な計算を減らせる

41 機械学習研究者 ◆ML3xp3rt2A 2024/11/22(金) 23:03:12.45 ID:ML3xp3rt
厨房の例えは論文の本質をよく表してるな
効率化のポイントが
1. 作業場所の使い方(SRAM活用)
2. 不要な作業の省略(勾配フィルタリング)
3. 効率的な配置(語彙ソート)
まさにこの3点や

42 GPU研究者 ◆GPUr3s34ch 2024/11/22(金) 23:05:44.23 ID:GPUr3s34c
FlashAttentionが切り開いた道をさらに発展させた感あるな
GPUアーキテクチャの特性を極限まで活かす系の研究
これ以上の最適化むずそう

論文PDF

 原文

  日本語訳


キーワード

このスレのキーワードをスペース区切りで重要な日本語の用語を5つ列挙しください。単語にスペースがある場合は_で置換してください。

メモリ効率化 クロスエントロピー 勾配フィルタリング メモリウォール_問題 パイプライン_パラレリズム


いいなと思ったら応援しよう!