RichardErkhov/yunconglong_-_Truthful_DPO_MOE_19B-gguf

Quantization made by Richard Erkhov.

Truthful_DPO_MOE_19B - GGUF

Model creator: https://huggingface.co/yunconglong/
Original model: https://huggingface.co/yunconglong/Truthful_DPO_MOE_19B/

Name	Quant method	Size
Truthful_DPO_MOE_19B.Q2_K.gguf	Q2_K	6.58GB
Truthful_DPO_MOE_19B.IQ3_XS.gguf	IQ3_XS	7.34GB
Truthful_DPO_MOE_19B.IQ3_S.gguf	IQ3_S	7.75GB
Truthful_DPO_MOE_19B.Q3_K_S.gguf	Q3_K_S	7.73GB
Truthful_DPO_MOE_19B.IQ3_M.gguf	IQ3_M	7.94GB
Truthful_DPO_MOE_19B.Q3_K.gguf	Q3_K	8.59GB
Truthful_DPO_MOE_19B.Q3_K_M.gguf	Q3_K_M	8.59GB
Truthful_DPO_MOE_19B.Q3_K_L.gguf	Q3_K_L	9.32GB
Truthful_DPO_MOE_19B.IQ4_XS.gguf	IQ4_XS	9.66GB
Truthful_DPO_MOE_19B.Q4_0.gguf	Q4_0	10.09GB
Truthful_DPO_MOE_19B.IQ4_NL.gguf	IQ4_NL	10.19GB
Truthful_DPO_MOE_19B.Q4_K_S.gguf	Q4_K_S	10.17GB
Truthful_DPO_MOE_19B.Q4_K.gguf	Q4_K	10.79GB
Truthful_DPO_MOE_19B.Q4_K_M.gguf	Q4_K_M	10.79GB
Truthful_DPO_MOE_19B.Q4_1.gguf	Q4_1	11.2GB
Truthful_DPO_MOE_19B.Q5_0.gguf	Q5_0	12.3GB
Truthful_DPO_MOE_19B.Q5_K_S.gguf	Q5_K_S	12.3GB
Truthful_DPO_MOE_19B.Q5_K.gguf	Q5_K	12.67GB
Truthful_DPO_MOE_19B.Q5_K_M.gguf	Q5_K_M	12.67GB
Truthful_DPO_MOE_19B.Q5_1.gguf	Q5_1	13.41GB
Truthful_DPO_MOE_19B.Q6_K.gguf	Q6_K	14.66GB
Truthful_DPO_MOE_19B.Q8_0.gguf	Q8_0	18.99GB

Original model description:

license: other tags: - moe - DPO - RL-TUNED

DPO Trainer with dataset jondurbin/truthy-dpo-v0.1

DPO Trainer TRL supports the DPO Trainer for training language models from preference data, as described in the paper Direct Preference Optimization: Your Language Model is Secretly a Reward Model by Rafailov et al., 2023.