Edit model card

LightChatAssistant-TypeB-2x7B-GGUF

Sdff-Ltba/LightChatAssistant-TypeB-2x7BをGGUF変換したものです。
ファイル名に_imatrixが付いているものはiMatrixを併用して量子化しています。
iMatrix作成用データとしてTFMC/imatrix-dataset-for-japanese-llmを使わせていただきました。

量子化手順

以下の通りに実行しました。(iMatrixを併用してiQ4XSにする場合)

python ./llama.cpp/convert.py ./LightChatAssistant-TypeB-2x7B --outtype f16 --outfile ./gguf-model_f16.gguf
./llama.cpp/imatrix -m ./gguf-model_f16.gguf -f ./c4_en_ja_imatrix.txt -o ./gguf-model.imatrix --chunks 32
./llama.cpp/quantize --imatrix ./gguf-model.imatrix ./gguf-model_f16.gguf ./LightChatAssistant-TypeB-2x7B_iq4xs.gguf iq4_xs

おすすめ量子化タイプ(VRAM12GBの場合)

  • 容量対精度に優れる: iQ4XS or Q4KM (製作者おすすめ)
  • ContextSizeを32768にしつつVRAMにフルロード: iQ3XXS
  • 精度重視: Q6K or Q8

参考

環境

  • CPU: Ryzen 5 5600X
  • GPU: GeForce RTX 3060 12GB
  • RAM: DDR4-3200 96GB
  • OS: Windows 10
  • software: Python 3.10.11、KoboldCpp v1.62.2

KoboldCppの設定

(デフォルトから変更したもののみ記載)

  • GPU Layers: 33 (33以上でフルロード)
  • Context Size: 32768
Downloads last month
2,414
GGUF
Model size
12.9B params
Architecture
llama
+4
Inference Examples
Unable to determine this model's library. Check the docs .

Merge of

Dataset used to train Sdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUF