
【GPU】ローカル生成AIに必要なパソコンの話とか注意点とか【ゲーミングPC】
はじめに
中国LLM Deepseek-r1の登場で、多くの方が外部へ情報を送信しないローカル生成AIに興味を持たれているようです。
おそらく米国OpenAIやGoogleのサービスと異なり、(共産党政府が問答無用で企業から情報を得られる国家情報法等が存在する)中国企業が個人情報を管理する事に抵抗があるからだと思います。政治的な問題なので、中国企業がいかに法令遵守で個人や機密の情報管理が道徳的、技術的に優れていたとしても意味がありません。
また、日本や米国のAI企業で規約で学習に利用しないという文言があったとしても、サービス向上のために記録され、入力した画像・音声・内容すべてがAI企業の従業員(とその関連企業)に筒抜けというのは、気持ちの良いものではありません。
さらに、書籍や論文のPDF著作物を(要約・翻訳・RAGなどの目的で)AIクラウドサービスで利用するのも、実はチェックすべきハードルが高いです。政府ガイドラインもそうですが、文面そのままの意味で受け取れば、本当に何もできません。。
ChatGPTに著作物をそのまま入力して質問することが法的に許容されるか、また、OpenAIの社員がその内容にアクセスできるか、という点ですね。
1. 法的な観点から
日本の著作権法では、著作物を「私的使用のために複製」することが一定の条件下で認められています(著作権法第30条)。しかし、ChatGPTのようなオンラインサービスに著作物をアップロードする行為が「私的使用」に該当するかは明確ではなく、議論の余地があります。特に、アップロードした内容が運営会社の第三者にアクセス可能となる場合、著作権侵害のリスクが高まります。
2. OpenAIの利用規約の観点から
OpenAIの利用規約では、ユーザーに対して著作権法を遵守することが求められています。具体的には、第三者の知的財産権を侵害するコンテンツのアップロードは禁止されています。したがって、著作権で保護された作品をそのままChatGPTに入力することは、利用規約に違反する可能性があります。
3. データの取り扱いとアクセス権限
ChatGPTに入力されたデータは、OpenAIのサーバーに保存され、サービスの改善やモデルの訓練に使用されることがあります。この過程で、OpenAIの社員がデータにアクセスする可能性は否定できません。また、過去にはシステムのバグにより、ユーザーのチャット履歴が他のユーザーに表示されるといった事例も報告されています。
結論
著作物をそのままChatGPTに入力して質問することは、著作権法およびOpenAIの利用規約に違反する可能性があり、推奨されません。また、入力した情報がOpenAIの社員によって閲覧される可能性も考慮する必要があります。安全性を確保するためには、著作物の要約や引用を用いる、もしくは著作権が切れたパブリックドメインの作品を使用することをお勧めします。
この記事では、上記の著作権や情報流出のリスクを最小限に抑えられるローカルAI生成(個人利用を想定)の一般ユーザー向けの機材選定のノウハウを、簡単に紹介したいと思います。
大規模言語モデル(LLM)の動作に必要なもの
※ 【注意】LM StudioやOllamaをNVIDIA製GPU(CUDA)で利用した時の話です。
※ 【注意】Cpilot+ PCやNPU搭載CPUは異なる話になります。AMD製GPUもCUDAが使えないため異なる状況になります。
そもそも生成AIが主にクラウド側で行われる理由ですが、桁違いに計算資源が必要だからです。
たとえば、世間を賑わせたDeepSeek-r1(約700Bパラメータ)のモデルを通常動作させるには、単純計算で数百GBのGPUメモリが必要になります。最近発売された数十万円するPCゲーマーの夢:RTX 5090(32GB)であっても、全く足りない事は容易に想像できます。
※ システムメモリではなく、GPUのメモリです。VRAM容量です
一般にAI演算は並列計算が可能なので、複数のGPUを繋げる事が可能ですが、RTX 5090一台でも普通の家庭電源では厳しいのに、一台あたり32GBのグラボをいくつ繋げれば数百GBに達するのか、という世界です。
では、家庭のパソコンで生成AIを利用する事ができないのかと思われるかもしれませんが、パソコンで利用できるように小型化したAIモデルが存在します。具体的には、1.5B〜32Bパラメータ規模のAIモデルであれば、家庭用エントリー〜ミドルクラスのゲーミング・パソコンで動作させる事ができます。LLMに対してSLM(Small Language Model)と呼ばれる事もあります。
GPUメモリ4GB:1.5B〜3B規模(例:GTX 1060 1650)
GPUメモリ6GB:〜7B規模(例:GTX 1660 RTX 3050)
GPUメモリ8GB:〜9B規模(例:RTX 2060 3060 4060)
GPUメモリ12GB:〜14B規模(例:RTX 3060-12GB RTX 4060ti-16GB)
GPUメモリ32GB:〜32B規模 ※ 16GBのグラボを二枚利用する等
ただし、動作するといっても、軽量化した量子化モデルになります。JPG画像圧縮技術のように、圧縮率を上げると画質(性能)が低下し、下げると向上します。JPG画像ではQuality値として75%〜90%が一般的であるように、AIモデルでは、Q4〜Q5あたりがバランスが良いとされています。Qの数字が大きくなるほどサイズが大きくなり、高性能になります。

さらに、必要なGPUメモリ量を計算する上で「コンテキストサイズ(num_ctx)」というものがあります。AIが思考する際に利用する文章やデータの文脈量です。AIチャットしていると、最初に質問した事を忘れている事があると思いますが、それはコンテキストサイズが溢れて情報がドロップしているからです。
一般に、コンテキストサイズはモデルごとに上限があります。例えば、CyberAgent版 DeepSeek-r1 14B(Qwen蒸留版)は128Kです。つまり日本語で言えば、質問と解答などを合わせて、最大で12万文字を扱える事になります。しかし、実際には128Kは利用できません。筆者の環境はRTX 3060(12GB)ですが、GPUメモリ最大まで利用しても8K〜10K程度になります。
もし大量の文章・文脈を扱いたいのであれば、小規模のもの(SLM)を利用する必要があります。例えば、Qwen2.5-3Bモデルを利用すれば、RTX 3060-12GBの筆者環境でも128Kのコンテキストサイズを利用できます。
筆者環境RTX 3060-12GBでは、
CyberAgent版 DeepSeek-r1-14B(Qwen):コンテキストサイズ10K
Qwen2.5-7B:コンテキストサイズ32K
Qwen2.5-3B:コンテキストサイズ128K
が利用可能なコンテキストサイズになります。(※ ただし、KVキャッシュもQ8量子化)
システムメモリに関して
AIに限らずGPUを主計算にする処理において、システムメモリ(CPUメモリ)はバッファとしてのみ利用されます。GPUメモリへデータを転送するための一時領域なので、超高速である必要はないのですが、AIモデルデータを切り替える際や、GPUへ分割転送する際の一時領域として利用するため、利用するAIモデルファイルサイズよりも大きな作業領域が必要になります。
つまり、Windows OSを動作させるメモリ+AIモデルサイズ×1.5倍程度は必ず必要になります。
DeepSeek-r1-14B(Q4_K_M)であれば、ファイルサイズが9GB程度のモデルファイルなので、単純に動作させるだけでも16GB程度のシステムメモリは必須です。快適に利用するには32GB程度必要になります。
CPUに関して
NVIDIA製GPUでAIを利用する場合、CPUは上述のとおりバッファ処理として利用するだけなので、CPU性能はほとんど関係ありません。ただし、RAGや前処理などの処理を行う際や、アーキテクチャやライブラリ依存でGPUで演算できないAI処理をCPUで行う事はあります。
主AI演算が①または②の条件の場合に、実用的な利用が可能になります。
① GPUメモリにすべて保持できる場合
最速のパフォーマンス
② CPU側でデータ分割し、部分的に逐次GPUへ送る場合
CPUで演算するわけではないので、そこそこのパフォーマンス
各AIモデルに対してソフトウェア側が対応している必要がある
③ AI演算(層)の一部をCPUで行う場合
CPU処理に律速するため、大幅な速度低下
④ すべての演算をCPUで行う場合
GPU演算と比べて10倍以上のオーダーで速度低下
ただし大きなシステムメモリを利用できるので、(実用的ではないが)大規模なモデルをテストとして実行する事は可能
GPU世代に関して
現在のAI演算の主流は(単精度浮動小数点数FP32の半分の)半精度浮動小数点数であるFP16/BF16なので、これらを扱えるTensorコア搭載GPUが必要になります。ただしTensorコアにも世代があるため、注意が必要です。
※ GTXシリーズはTensorコアを搭載していないので、FP32しか扱えません※ RTX 20xxはTensorコアを搭載しているが、BF16は扱えない
多くの場合は、生成AIソフト側で勝手に判断して適切な精度を利用するようになっていますが、全く動作しない場合もあります。対応していない画像生成AIソフトだと、生成画像が真っ黒になります。
画像生成AIに関して
画像を生成する場合も、LLMと似たような状況です。たとえば、画像生成AIのFlux.1の規模は12Bなので、GPUメモリは8GBでは厳しくなります。
また、現状はLLMと異なり、複数GPUの利用は限定的です。
ストレージに関して
AIモデル規模に応じてファイルサイズは様々ですが、ローカルで利用できるAIモデルは2GB〜20GBが一般的です。最低でも512GB以上ないと辛いでしょう。
もちろん出来る限り高速なSSDを利用すべきですが、Python言語やライブラリ最適化の問題でボトルネックが存在し、PCI-EやSSDのベンチマーク上限速度まで出ることはありません。さらにゲーム用途と同じシーケンシャル・データのリードオンリー用途なので、高価なDRAMキャッシュ搭載のSSDは必要ありません。
まとめ
2025年にローカルで生成AIを実用的に利用する場合に必要なスペックは以下になります。
DDR4メモリ以上が利用できる世代のCPUなら何でもいい
システムメモリは32GB以上(動作だけなら16GB)
SSDは必須
しかし高性能なものを選択しても性能は出せない
容量は512GB以上
GPUはVRAM容量優先の選択肢になるため、(コスパ重視なら)実質的に次の選択肢に限られる。
RTX 3060 (12GB)
RTX 4060ti (16GB)
LLMだけの利用なら、GPUを二枚利用してVRAMを二倍にするやり方もある
以下、関連する記事の【PR】です。