RichardErkhov/chargoddard_-_llama-2-26b-trenchcoat-stack-gguf

Quantization made by Richard Erkhov.

llama-2-26b-trenchcoat-stack - GGUF

Name	Quant method	Size
llama-2-26b-trenchcoat-stack.Q2_K.gguf	Q2_K	8.87GB
llama-2-26b-trenchcoat-stack.IQ3_XS.gguf	IQ3_XS	9.8GB
llama-2-26b-trenchcoat-stack.IQ3_S.gguf	IQ3_S	10.35GB
llama-2-26b-trenchcoat-stack.Q3_K_S.gguf	Q3_K_S	10.35GB
llama-2-26b-trenchcoat-stack.IQ3_M.gguf	IQ3_M	10.96GB
llama-2-26b-trenchcoat-stack.Q3_K.gguf	Q3_K	11.62GB
llama-2-26b-trenchcoat-stack.Q3_K_M.gguf	Q3_K_M	11.62GB
llama-2-26b-trenchcoat-stack.Q3_K_L.gguf	Q3_K_L	12.72GB
llama-2-26b-trenchcoat-stack.IQ4_XS.gguf	IQ4_XS	2.4GB
llama-2-26b-trenchcoat-stack.Q4_0.gguf	Q4_0	13.51GB
llama-2-26b-trenchcoat-stack.IQ4_NL.gguf	IQ4_NL	13.59GB
llama-2-26b-trenchcoat-stack.Q4_K_S.gguf	Q4_K_S	9.59GB
llama-2-26b-trenchcoat-stack.Q4_K.gguf	Q4_K	14.44GB
llama-2-26b-trenchcoat-stack.Q4_K_M.gguf	Q4_K_M	5.12GB
llama-2-26b-trenchcoat-stack.Q4_1.gguf	Q4_1	14.99GB
llama-2-26b-trenchcoat-stack.Q5_0.gguf	Q5_0	16.48GB
llama-2-26b-trenchcoat-stack.Q5_K_S.gguf	Q5_K_S	16.48GB
llama-2-26b-trenchcoat-stack.Q5_K.gguf	Q5_K	16.96GB
llama-2-26b-trenchcoat-stack.Q5_K_M.gguf	Q5_K_M	16.96GB
llama-2-26b-trenchcoat-stack.Q5_1.gguf	Q5_1	17.97GB
llama-2-26b-trenchcoat-stack.Q6_K.gguf	Q6_K	19.64GB
llama-2-26b-trenchcoat-stack.Q8_0.gguf	Q8_0	25.44GB

Original model description:

Llama 2 13b is a pretty decent language model. You know what's probably better? Two Llama 2 13b models. In a trenchcoat.

Produced by bakllama.py with this config file:

layer_slices:
  - model: TheBloke/Llama-2-13B-fp16
    start: 0
    end: 40
  - model: TheBloke/Llama-2-13B-fp16
    start: 0
    end: 40

No fine tuning was done on this model. Yes, it's still coherent somehow.

Benchmark results:

Benchmark	Llama2-13b	Llama2-26b-tcs	Percent Change
ARC	59.3	55.03	-7.2%
HellaSwag	82.15	79.9	-2.74%
MMLU	55.67	53.73	-3.48%
TruthfulQA	37.39	40.48	+5.59%
Average	58.63	57.29	-2.29%
Average Minus TQA	65.70	62.85	-4.34%

This tells us two very important things: