LLMとGPU 性能比較 RTX2060 vs RTX4070Ti Super ~本体スコア及びビデオメモリとLLMの推論時間のベンチマーク~
こんにちはRcatです。
今回は一年以上前にやっていたLLMの話を再燃しました。
というのも、年末年始セールで友人がRTX4070Ti Superを買ったらしいので、それでLLM動かすとどうなるのか気になるので確認しました。
例えば、VRAMにモデルが収まっている場合とはみ出す場合でどの程度差が出るのかなど、周りがやっていなさそうなことを記事にしています。
↓当時の記事のマガジンはこちら。いろいろやっているので見てみてください。
はじめに
利用規約
情報や作品の活用時は事前に利用規約をご確認ください。
コメントについて
利用規約のガイドラインを確認の上コメントしてください
概要と前提
目的
まず今回の目的ですが、GPUスコアの差とVRAMにLLMが入りきる場合とそうでない場合で、どの程度処理速度に差が出るのかを実証したいというのが本件となります。
GPU仕様とスコア
こちらからスコアを参照します。
これを見る限りでは3倍ほど高速化されていそうですね。
RTX 2060
VRAM 6GB
スコア 7661
RTX 4070Ti Super
VRAM 16GB
スコア 24454
実証
Rinna推論競走
まずはrinnaを使った推論比較を行います。
rinnaについてはこちらをご覧ください。
rinnaは30億パラメータの非常に小さなLLMで、16GB程度のメモリがあれば使用が可能です。
とはいえRTX2060のVRAMはこの時点で超えてるんですが…。
結果がこちらです。
初回の"こんにちは"に対しては何も考えずに返せばいいので、こういった問いかけに対してはかなり高速で回答してきます。
ただし、簡単すぎで1.5倍程度しか差が出ませんでした。ただ、返ってくる応答が4070の方が明らかに長い文章なので、同じ回答の場合2060の方はもっと時間がかかったと推測されます。
なぜか何度問いかけても4070の方は長文回答をしてくるのでこの件はこれでおしまいです。
次の考えさせる質問、"好きなラーメン"については物凄い差が出ましたね…74倍って…。
4070の方は最初の"こんにちは"と推論時間はほぼ変わらないので、この程度の文章量であれば4秒程度で回答してくるのでしょう。話がかみ合っているかどうかは別ですが…。
2060の方は5分以上かかってしまったので、明らかにビデオメモリに収まりきっていない辺りで足を引っ張っていそうです。
これはGPUの温度が上がっていないことを根拠に導き出しています。ゲームをやると平気で70°近くになるのに、この時は40°台でした。
単純スコアで計算すると、VRAMに入り切った場合RTX2060は13秒強で回答を出せると推測できます。
RTX4070Ti SuperでELYZA稼働
次に70憶パラメータのELYZAを4070Ti Superで動かし、ビデオメモリに収まるかどうかでどの程度推論に影響があるのか調べます。
ELYZAについては下記をご確認ください。
条件
ELYZAには考える質問である"好きなラーメン"を聞いています。
モデル読み込み時のパラメータ精度をfloat16と32で分けることで、ギリギリVRAMに収まる状態とあふれる状態を作り出します。float32の方が倍のデータ量なので倍の時間がかかるのは同率とします。
float16の場合
こちらは何と4秒で回答してきました。rinnaの時と同じかい…。
70憶レベルであればギリギリ使えるレベルのAIなので、外部サービスに頼らず推論するということも可能になりつつあるのですね…。
![](https://assets.st-note.com/img/1736010766-wzycCEZ7YKl5NoxSVB3gAGeb.png?width=1200)
float32の場合
こちらは何と8分越えの時間がかかりました。
倍精度だから倍かかるのはまぁ仕方ないとしても10秒以内に終わってほしかったですが、100倍以上の時間差がつく結果になりました。
これはどの程度モデルがはみ出ているかにも影響されそうなので単純には比較できませんね…。
また、8分以上稼働していたにもかかわらず温度が40度台なので、やはりデータ転送が足を引っ張ってGPUの性能が出し切れていないということがうかがえます。
内容は…繰り返しが起きているのでパラメータ調整は要るか…。
![](https://assets.st-note.com/img/1736010774-8l513kGWoJryAv6hZEKp9Uue.png?width=1200)
以上の検証から、VRAMに収まらない状態でLLMを使うと極端に推論速度が落ちるということが分かりました。
となると、今後AIをローカルでと考えていくならばXX90番台の導入も視野に入れなければならないのか…。
まとめ
今回の実験で、ローカルでLLMを動かしたいならそれが入るだけのVRAMを持ったGPUを用意しなければならないということが分かりました。
今までは入りきらない状態で試していたのでやはり本来の推論速度が出ていなかったんですね。もっと小さいLLMがあれば2060でも収まるのかもしれませんが、あんまり意味がなさそうなのでやめました。
それでも、自宅で70憶パラメータを4秒で推論可能であるという結果は収穫だったと思います。こういうことが分かっていると強力なGPUを買うかどうか迷ったときの決め手にできます。
必要なVRAMを確保さえできればオンラインでは利用規約に引っかかるようなセンシティブな推論も実行できそうですね。
それではまたお会いしましょう。
いいなと思ったら応援しよう!
![Rcat999](https://assets.st-note.com/production/uploads/images/91494086/profile_d68120b9bc44a73b7b02caa1a92ff054.png?width=600&crop=1:1,smart)