【GGUF変換】llama.cppでGGUF変換する方法【ローカルLLM】

Catapp-Art3D

2024年10月11日 15:32

はじめに

【注意】支援者（メンバーシップ）向け記事になります。記事の量に対して少し割高の価格で設定していますのでご注意ください。※ 初月無料設定していますので、ご気軽にご参加ください。すべての有料記事が閲覧可能です。

下記事で紹介したLlama 3.1 Swallow 8B Instructが予想以上に高性能で使いやすいので、Swallow LLMモデルをGGUF変換した作業の記録を紹介します。

GGUFフォーマットとは

GGUF（GGML Universal Format）は、AIモデルを保存するための新しいファイルフォーマットで、LLMの場合はOpen WebUIやLM_STUDIO等で利用する事ができます。量子化の軽量モデルが利用できます。

つまり、HuggingFaceに公開されているモデルはHuggingFace形式なので、Open WebUIで利用するにはGGUF変換作業が必要になります。

量子化とは？

AIモデルの性能をあまり落とさずに軽量化する仕組みです。連続データをぶつ切り離散化する手法の一つです。JPEG画像やMPEG動画の量子化ように、品質を落とさずに軽量化する事ができます。※ ちなみに勘違いされやすいのですが、物理で利用される量子力学の量子化とは（離散化する事以外）関係ありません。全く別の技術用語です。

llama.cppとは？

オープンソースのソフトウェアライブラリで、元々はMeta社の大規模言語モデル（LLM）であるLLaMAやその派生モデルの推論を行うために設計されたものです。本体はC++で記述されているため、利用するにはC++コンパイラ（ビルド環境）が必要になります。

ここでは推論用途ではなく、

HuggingFaceモデル→GGUFフォーマット化の変換
量子化して軽量化

のために利用します。

llama.cppの導入

Windowsはビルド環境の構築が大変なので、LinuxまたはWSL2環境での作業です。Python仮想環境にLinux版のAnacondaが利用可能な事を前提としています。CPU処理ですので、GPUは必要ありません。

ここから先は

3,480字 / 1画像

この記事のみ ¥ 1,000

3Dモデルや写実的なAI画像の実戦テクニックやノウハウをアップしていきます。

このメンバーシップの詳細

ベーシックプラン

¥1,000 / 月

初月無料

写実的な3Dレンダー作品や生成AI作品のテクニック・ノウハウを公開していきます。

3Dモデルや素材・データなどのダウンロード販売を伴わない有料記事がすべて閲覧できます
一部のダウンロード販売も公開します。
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます

ログイン

この記事が気に入ったらサポートをしてみませんか？