grapevine-AI commited on
Commit
640fea2
1 Parent(s): 3c352c6

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +24 -6
README.md CHANGED
@@ -2,11 +2,20 @@
2
  license: gemma
3
  ---
4
  # What is this?
5
- Googleの言語モデル[gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it)をGGUFフォーマットに変換したものです。
 
 
 
 
 
 
 
 
6
 
7
  # imatrix dataset
8
  日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。<br>
9
- なお、謎のエラー「GGML_ASSERT: D:\a\llama.cpp\llama.cpp\ggml\src\ggml-cuda.cu:1257: to_fp32_cuda != nullptr」を回避するため、imatrixの算出においてはf16精度のモデルを使用しました。
 
10
 
11
  # Chat template
12
  ```
@@ -15,13 +24,22 @@ Googleの言語モデル[gemma-2-27b-it](https://huggingface.co/google/gemma-2-2
15
  <start_of_turn>model
16
 
17
  ```
 
 
 
 
 
 
 
 
 
18
  # Note
19
- **llama.cpp-b3266以降でのみご利用が可能です。**<br>
20
- モデル本来のコンテキスト長は8192ですが、現状のGGUF版gemma-2は4096以上のトークンを扱えないようです。これは、llama.cppがSliding Window Attention(=前4096トークンのみに注意を向ける)を取り扱えず、Global Attentionとみなされて計算が行われてしまうためです。<br>
21
- また、このモデル特有の処理であるAttention logit cappingが存在するため、Flash Attentionの使用もできません。
22
 
23
  # Environment
24
- Windows版llama.cpp-b3266および同時リリースのconvert-hf-to-gguf.pyを使用して量子化作業を実施しました。
25
 
26
  # License
27
  gemma license
 
2
  license: gemma
3
  ---
4
  # What is this?
5
+ Googleの言語モデル[gemma-2-27b-it](https://huggingface.co/google/gemma-2-27b-it)をGGUFフォーマットに変換したものです。<br>
6
+ 一連の作業前にllama.cppのトークナイザテスト機能([#8248](https://github.com/ggerganov/llama.cpp/pull/8248))にて動作の正確性の確認を行いました。
7
+
8
+ テスト内容
9
+ ```
10
+ python convert_hf_to_gguf_update.py <hf_token>
11
+ python convert_hf_to_gguf.py models/tokenizers/gemma-2/ --outfile models/ggml-vocab-gemma-2.gguf --vocab-only
12
+ test-tokenizer-0 models/ggml-vocab-gemma-2.gguf
13
+ ```
14
 
15
  # imatrix dataset
16
  日本語能力を重視し、日本語が多量に含まれる[TFMC/imatrix-dataset-for-japanese-llm](https://huggingface.co/datasets/TFMC/imatrix-dataset-for-japanese-llm)データセットを使用しました。<br>
17
+ imatrixの算出は本来の精度(=bfloat16)で行いました。<br>
18
+ (余談ですが、CUDAを使わずCPUオンリーで数時間かけてimatrixを計算したのでなかなか大変でした。これは、bf16精度でのimatrix計算に現行のCUDA版llama.cppが対応していないことによるものです)
19
 
20
  # Chat template
21
  ```
 
24
  <start_of_turn>model
25
 
26
  ```
27
+
28
+ # Quants
29
+ 各クオンツと必要と想定されるVRAM使用量をまとめておきます。
30
+ |クオンツ|VRAM|
31
+ |---|---|
32
+ |IQ4_XS|20GB|
33
+ |Q4_K_M|22GB|
34
+ |Q5_K_M|24GB|
35
+
36
  # Note
37
+ **llama.cpp-b3389以降と合わせてご利用ください。**<br>
38
+ なお、このモデル特有の処理であるAttention logit soft-cappingが存在するため、現状では``-fa`` オプションによるFlash Attentionの使用はできません。<br>
39
+ GGUF版gemma-2が4096以上のトークンを扱えない問題は、llama.cppのSliding Window Attention対応アップデート([#8227](https://github.com/ggerganov/llama.cpp/pull/8227))によって解決されました。
40
 
41
  # Environment
42
+ Windows版llama.cpp-b3389および同時リリースのconvert_hf_to_gguf.pyを使用して量子化作業を実施しました。
43
 
44
  # License
45
  gemma license