Hyponatremia_M2_1000steps_1e6rate_01beta_DPO

This model is a fine-tuned version of tsavage68/Hyponatremia_M2_150steps_1e6rate_SFT on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 0.0000
Rewards/chosen: 1.4485
Rewards/rejected: -14.0474
Rewards/accuracies: 1.0
Rewards/margins: 15.4959
Logps/rejected: -211.3555
Logps/chosen: -22.2419
Logits/rejected: -2.0318
Logits/chosen: -2.0985

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 1e-06
train_batch_size: 2
eval_batch_size: 1
seed: 42
gradient_accumulation_steps: 2
total_train_batch_size: 4
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: cosine
lr_scheduler_warmup_steps: 100
training_steps: 1000

Training results

Epoch	Step	Rewards/chosen	Rewards/rejected	Rewards/accuracies	Rewards/margins	Logps/rejected	Logps/chosen	Logits/rejected	Logits/chosen
0.2667	50	0.7277	-11.0764	1.0	11.8041	-181.6457	-29.4503	-2.0841	-2.1392
0.5333	100	0.9330	-12.3903	1.0	13.3232	-194.7840	-27.3972	-2.0668	-2.1273
0.8	150	1.0593	-12.8919	1.0	13.9512	-199.8001	-26.1336	-2.0609	-2.1231
1.0667	200	1.1861	-13.1433	1.0	14.3295	-202.3148	-24.8656	-2.0551	-2.1184
1.3333	250	1.2721	-13.3214	1.0	14.5935	-204.0954	-24.0062	-2.0513	-2.1153
1.6	300	1.3228	-13.4611	1.0	14.7839	-205.4925	-23.4995	-2.0479	-2.1123
1.8667	350	1.3555	-13.5889	1.0	14.9444	-206.7701	-23.1722	-2.0441	-2.1089
2.1333	400	1.3827	-13.7042	1.0	15.0869	-207.9236	-22.9002	-2.0409	-2.1060
2.4	450	1.4065	-13.7799	1.0	15.1865	-208.6808	-22.6618	-2.0375	-2.1029
2.6667	500	1.4212	-13.8531	1.0	15.2744	-209.4129	-22.5149	-2.0370	-2.1026
2.9333	550	1.4265	-13.9342	1.0	15.3607	-210.2232	-22.4618	-2.0357	-2.1020
3.2	600	1.4339	-13.9717	1.0	15.4056	-210.5986	-22.3882	-2.0342	-2.1005
3.4667	650	1.4406	-14.0006	1.0	15.4412	-210.8875	-22.3212	-2.0335	-2.1000
3.7333	700	1.4439	-14.0232	1.0	15.4671	-211.1137	-22.2885	-2.0321	-2.0987
4.0	750	1.4465	-14.0340	1.0	15.4805	-211.2219	-22.2624	-2.0325	-2.0990
4.2667	800	1.4483	-14.0415	1.0	15.4898	-211.2962	-22.2436	-2.0324	-2.0990
4.5333	850	1.4487	-14.0425	1.0	15.4913	-211.3066	-22.2396	-2.0324	-2.0991
4.8	900	1.4483	-14.0489	1.0	15.4971	-211.3702	-22.2444	-2.0318	-2.0984
5.0667	950	1.4485	-14.0474	1.0	15.4959	-211.3555	-22.2419	-2.0318	-2.0985
5.3333	1000	1.4485	-14.0474	1.0	15.4959	-211.3555	-22.2419	-2.0318	-2.0985

Framework versions

Transformers 4.42.4
Pytorch 2.0.0+cu117
Datasets 2.20.0
Tokenizers 0.19.1

tsavage68
/

Hyponatremia_M2_1000steps_1e6rate_01beta_DPO

Hyponatremia_M2_1000steps_1e6rate_01beta_DPO

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for tsavage68/Hyponatremia_M2_1000steps_1e6rate_01beta_DPO

Evaluation results