lucianosb commited on
Commit
d1e9a5c
1 Parent(s): 4501490

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +5 -5
README.md CHANGED
@@ -20,11 +20,11 @@ pipeline_tag: text-generation
20
 
21
  | Nome | Método Quant | Bits | Tamanho | Desc |
22
  | ---- | ---- | ---- | ---- | ----- |
23
- | [ggml-opencabrita3b-q4_0.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/ggml-opencabrita3b-q4_0.gguf) | q4_0 | 4 | 1.94 GB | Quantização em 4-bit. |
24
- | [ggml-opencabrita3b-q4_1.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/ggml-opencabrita3b-q4_1.gguf) | q4_1 | 4 | 2.14 GB | Quantização em 4-bit. Acurácia maior que q4_0 mas não tão boa quanto q5_0. Inferência mais rápida que os modelos q5. |
25
- | [ggml-opencabrita3b-q5_0.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/ggml-opencabrita3b-q5_0.gguf) | q5_0 | 5 | 2.34 GB | Quantização em 5-bit. Melhor acurácia, maior uso de recursos, inferência mais lenta. |
26
- | [ggml-opencabrita3b-q5_1.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/ggml-opencabrita3b-q5_1.gguf) | q5_1 | 5 | 2.53 GB | Quantização em 5-bit. Ainda Melhor acurácia, maior uso de recursos, inferência mais lenta. |
27
- | [ggml-opencabrita3b-q8_0.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/ggml-opencabrita3b-q8_0.gguf) | q8_0 | 8 | 3.52 GB | Quantização em 8-bit. Quase indistinguível do float16. Usa muitos recursos e é mais lento. |
28
 
29
  **Observação**: os valores de RAM acima não pressupõem descarregamento de GPU. Se as camadas forem descarregadas para a GPU, isso reduzirá o uso de RAM e usará VRAM.
30
 
 
20
 
21
  | Nome | Método Quant | Bits | Tamanho | Desc |
22
  | ---- | ---- | ---- | ---- | ----- |
23
+ | [opencabrita3b-q4_0.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/opencabrita3b-q4_0.gguf) | q4_0 | 4 | 1.94 GB | Quantização em 4-bit. |
24
+ | [opencabrita3b-q4_1.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/opencabrita3b-q4_1.gguf) | q4_1 | 4 | 2.14 GB | Quantização em 4-bit. Acurácia maior que q4_0 mas não tão boa quanto q5_0. Inferência mais rápida que os modelos q5. |
25
+ | [opencabrita3b-q5_0.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/opencabrita3b-q5_0.gguf) | q5_0 | 5 | 2.34 GB | Quantização em 5-bit. Melhor acurácia, maior uso de recursos, inferência mais lenta. |
26
+ | [opencabrita3b-q5_1.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/opencabrita3b-q5_1.gguf) | q5_1 | 5 | 2.53 GB | Quantização em 5-bit. Ainda Melhor acurácia, maior uso de recursos, inferência mais lenta. |
27
+ | [opencabrita3b-q8_0.gguf](https://huggingface.co/lucianosb/open-cabrita3b-GGUF/blob/main/opencabrita3b-q8_0.gguf) | q8_0 | 8 | 3.52 GB | Quantização em 8-bit. Quase indistinguível do float16. Usa muitos recursos e é mais lento. |
28
 
29
  **Observação**: os valores de RAM acima não pressupõem descarregamento de GPU. Se as camadas forem descarregadas para a GPU, isso reduzirá o uso de RAM e usará VRAM.
30