UTI2_L3_625steps_1e8rate_03beta_CSFTDPO

This model is a fine-tuned version of tsavage68/UTI_L3_1000steps_1e5rate_SFT on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.6930
Rewards/chosen: 0.0036
Rewards/rejected: 0.0030
Rewards/accuracies: 0.3100
Rewards/margins: 0.0007
Logps/rejected: -28.4747
Logps/chosen: -19.0912
Logits/rejected: -1.1523
Logits/chosen: -1.1487

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-08
train_batch_size: 2
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 4
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 625

Training results

Training Loss	Epoch	Step	Validation Loss	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.6931	0.3333	25	0.6916	0.0014	-0.0018	0.1500	0.0032	-28.4908	-19.0987	-1.1522	-1.1486
0.6959	0.6667	50	0.6934	0.0017	0.0019	0.2800	-0.0002	-28.4782	-19.0975	-1.1525	-1.1489
0.6919	1.0	75	0.6912	0.0039	-0.0004	0.3800	0.0042	-28.4859	-19.0904	-1.1522	-1.1487
0.7011	1.3333	100	0.6916	0.0013	-0.0021	0.3500	0.0034	-28.4917	-19.0989	-1.1523	-1.1488
0.6915	1.6667	125	0.6917	0.0003	-0.0029	0.3400	0.0032	-28.4943	-19.1023	-1.1522	-1.1486
0.6967	2.0	150	0.6932	0.0027	0.0025	0.3600	0.0002	-28.4763	-19.0943	-1.1525	-1.1489
0.6894	2.3333	175	0.6908	0.0010	-0.0040	0.3700	0.0050	-28.4980	-19.1000	-1.1522	-1.1487
0.6915	2.6667	200	0.6905	0.0038	-0.0018	0.3500	0.0056	-28.4905	-19.0906	-1.1523	-1.1487
0.6964	3.0	225	0.6887	0.0058	-0.0034	0.4200	0.0093	-28.4961	-19.0839	-1.1522	-1.1487
0.6946	3.3333	250	0.6933	-0.0054	-0.0054	0.3400	-0.0000	-28.5026	-19.1214	-1.1524	-1.1488
0.6965	3.6667	275	0.6900	0.0072	0.0005	0.3600	0.0067	-28.4830	-19.0794	-1.1525	-1.1489
0.6953	4.0	300	0.6898	0.0014	-0.0056	0.3800	0.0070	-28.5032	-19.0985	-1.1524	-1.1488
0.6909	4.3333	325	0.6920	0.0006	-0.0020	0.3700	0.0026	-28.4913	-19.1012	-1.1524	-1.1489
0.6923	4.6667	350	0.6938	-0.0013	-0.0003	0.3600	-0.0010	-28.4858	-19.1076	-1.1524	-1.1488
0.6965	5.0	375	0.6895	0.0056	-0.0019	0.3800	0.0076	-28.4911	-19.0845	-1.1524	-1.1488
0.6973	5.3333	400	0.6910	0.0030	-0.0015	0.3700	0.0045	-28.4898	-19.0934	-1.1524	-1.1489
0.693	5.6667	425	0.6911	-0.0000	-0.0044	0.3700	0.0044	-28.4993	-19.1033	-1.1522	-1.1486
0.695	6.0	450	0.6935	0.0034	0.0037	0.3300	-0.0003	-28.4724	-19.0921	-1.1524	-1.1488
0.6878	6.3333	475	0.6901	0.0045	-0.0019	0.3600	0.0064	-28.4909	-19.0882	-1.1523	-1.1487
0.6889	6.6667	500	0.6924	0.0046	0.0027	0.3200	0.0019	-28.4758	-19.0881	-1.1523	-1.1487
0.6899	7.0	525	0.6930	0.0036	0.0030	0.3100	0.0007	-28.4747	-19.0912	-1.1523	-1.1487
0.6932	7.3333	550	0.6930	0.0036	0.0030	0.3100	0.0007	-28.4747	-19.0912	-1.1523	-1.1487
0.6929	7.6667	575	0.6930	0.0036	0.0030	0.3100	0.0007	-28.4747	-19.0912	-1.1523	-1.1487
0.6949	8.0	600	0.6930	0.0036	0.0030	0.3100	0.0007	-28.4747	-19.0912	-1.1523	-1.1487
0.6936	8.3333	625	0.6930	0.0036	0.0030	0.3100	0.0007	-28.4747	-19.0912	-1.1523	-1.1487

Framework versions

Transformers 4.41.2
Pytorch 2.0.0+cu117
Datasets 2.19.2
Tokenizers 0.19.1

tsavage68
/

UTI2_L3_625steps_1e8rate_03beta_CSFTDPO

UTI2_L3_625steps_1e8rate_03beta_CSFTDPO

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Evaluation results