Sdff-Ltba
/

LightChatAssistant-TypeB-2x7B-GGUF

Text Generation

Mixture of Experts

Not-For-All-Audiences

nsfw

Inference Endpoints

Model card Files Files and versions Community

LightChatAssistant-TypeB-2x7B-GGUF / README.md

Sdff-Ltba's picture

Update README.md

d478aeb verified 7 months ago

|

1.75 kB

metadata

base_model:
  - NTQAI/chatntq-ja-7b-v1.0
  - Elizezen/Antler-7B
language:
  - ja
tags:
  - mistral
  - mixtral
  - merge
  - moe
  - not-for-all-audiences
  - nsfw
pipeline_tag: text-generation

LightChatAssistant-TypeB-2x7B-GGUF

Sdff-Ltba/LightChatAssistant-TypeB-2x7BをGGUF変換したものです。
ファイル名に_imatrixが付いているものはiMatrixを併用して量子化しています。

量子化手順

以下の通りに実行しました。(iMatrixを併用してiQ4XSにする場合)

python ./llama.cpp/convert.py ./LightChatAssistant-TypeB-2x7B --outtype f16 --outfile ./gguf-model_f16.gguf
./llama.cpp/imatrix -m ./gguf-model_f16.gguf -f ./wiki.train.raw -o ./gguf-model.imatrix --chunks 32
./llama.cpp/quantize --imatrix ./gguf-model.imatrix ./gguf-model_f16.gguf ./LightChatAssistant-TypeB-2x7B_iq4xs.gguf iq4_xs

おすすめ量子化タイプ(VRAM12GBの場合)

容量対精度に優れる: iQ4XS (製作者おすすめ)
ContextSizeを32768にしつつVRAMにフルロード: iQ3XXS
精度重視: Q6K or Q8

参考

llama.cpp：複雑化する量子化バリエーションの整理（2024.02現在） - ローカルLLM自由帳
「追記：KL-divergence による量子化評価」を参考にさせていただきました

環境

CPU: Ryzen 5 5600X
GPU: GeForce RTX 3060 12GB
RAM: DDR4-3200 96GB
OS: Windows 10
software: Python 3.10.11、KoboldCpp v1.62.2

KoboldCppの設定

(デフォルトから変更したもののみ記載)

GPU Layers: 33 (33以上でフルロード)
Context Size: 32768