File size: 1,511 Bytes
2e25030
a142e05
 
 
2e25030
 
 
 
 
a142e05
 
2e25030
 
 
 
 
aa7362b
2e25030
dadbe25
3a082ee
aa7362b
dccdb1e
757966a
2e25030
 
 
757966a
2e25030
aa7362b
2e25030
aa7362b
2e25030
60d0868
 
 
 
 
 
 
7125790
60d0868
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
---
base_model:
- NTQAI/chatntq-ja-7b-v1.0
- Elizezen/Antler-7B
language:
- ja
tags:
- mistral
- mixtral
- merge
- moe
- not-for-all-audiences
- nsfw
pipeline_tag: text-generation
---

# LightChatAssistant-2x7B-GGUF

#### より日本語を自然にする調整を手作業で施した[LightChatAssistant-TypeB-2x7Bを製作しました。](https://huggingface.co/Sdff-Ltba/LightChatAssistant-TypeB-2x7B-GGUF)

[Sdff-Ltba/LightChatAssistant-2x7B](https://huggingface.co/Sdff-Ltba/LightChatAssistant-2x7B)をGGUF変換したものです。
ファイル名に`_imatrix`が付いているものはiMatrixを併用して量子化しています。
※製作者は本モデルを使うときはiQ3_XXSを使用しています。

## 量子化手順

以下の通りに実行しました。(iMatrixを併用してiQ3_XXSにする場合)
```
python ./llama.cpp/convert.py ./LightChatAssistant-2x7B --outtype f16 --outfile ./gguf-model_f16.gguf
./llama.cpp/imatrix -m ./gguf-model_f16.gguf -f ./wiki.train.raw -o ./gguf-model_f16.imatrix --chunks 32
./llama.cpp/quantize --imatrix ./gguf-model_f16.imatrix ./gguf-model_f16.gguf ./LightChatAssistant-2x7B_iq3xxs.gguf iq3_xxs
```

## 環境

- CPU: Ryzen 5 5600X
- GPU: GeForce RTX 3060 12GB
- RAM: DDR4-3200 96GB
- OS: Windows 10
- software: Python 3.12.2、[KoboldCpp](https://github.com/LostRuins/koboldcpp) v1.62.2

#### KoboldCppの設定

(デフォルトから変更したもののみ記載)
- `GPU Layers: 33` (33以上でフルロード)
- `Context Size: 32768`