LightChatAssistant-TypeB-2x7B-GGUF
Sdff-Ltba/LightChatAssistant-TypeB-2x7BをGGUF変換したものです。
ファイル名に_imatrix
が付いているものはiMatrixを併用して量子化しています。
iMatrix作成用データとしてTFMC/imatrix-dataset-for-japanese-llmを使わせていただきました。
量子化手順
以下の通りに実行しました。(iMatrixを併用してiQ4XSにする場合)
python ./llama.cpp/convert.py ./LightChatAssistant-TypeB-2x7B --outtype f16 --outfile ./gguf-model_f16.gguf
./llama.cpp/imatrix -m ./gguf-model_f16.gguf -f ./c4_en_ja_imatrix.txt -o ./gguf-model.imatrix --chunks 32
./llama.cpp/quantize --imatrix ./gguf-model.imatrix ./gguf-model_f16.gguf ./LightChatAssistant-TypeB-2x7B_iq4xs.gguf iq4_xs
おすすめ量子化タイプ(VRAM12GBの場合)
- 容量対精度に優れる: iQ4XS or Q4KM (製作者おすすめ)
- ContextSizeを32768にしつつVRAMにフルロード: iQ3XXS
- 精度重視: Q6K or Q8
参考
- llama.cpp:複雑化する量子化バリエーションの整理(2024.02現在) - ローカルLLM自由帳
「追記:KL-divergence による量子化評価」を参考にさせていただきました。 - llama.cpp:iMatrix量子化は日本語性能にどう影響するか? - ローカルLLM自由帳
iMatrix作成に用いるデータを検証していらっしゃって、とても参考になります。また公開してくださった日英混合iMatrix用テキストを使用させていただきました。
環境
- CPU: Ryzen 5 5600X
- GPU: GeForce RTX 3060 12GB
- RAM: DDR4-3200 96GB
- OS: Windows 10
- software: Python 3.10.11、KoboldCpp v1.62.2
KoboldCppの設定
(デフォルトから変更したもののみ記載)
GPU Layers: 33
(33以上でフルロード)Context Size: 32768
- Downloads last month
- 508