人気の記事一覧

flash-attention2.7.0+xformersの統合

2か月前

後編:LCMはもう古い?SD3のPCMで高画質&高速化!LCMとの違いや導入方法、活用事例を徹底解説!

前編:SD3爆速化?Flash-SD3とは?導入方法から活用事例まで徹底解説!画像生成を劇的にスピードアップさせよう!

WSL2でMixtral 8x7B Instruct with AWQ & Flash Attention 2を試してみる

Retentive Network: A Successor to Transformer for Large Language Models

9か月前

FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

9か月前

vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

9か月前