Model save

Browse files

Files changed (9) hide show

README.md +22 -22
all_results.json +3 -3
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
runs/May17_14-57-56_n136-100-194/events.out.tfevents.1715930027.n136-100-194.4076912.0 +2 -2
train_results.json +3 -3
trainer_state.json +0 -0
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5418
-- Rewards/chosen: -3.1726
-- Rewards/rejected: -4.7390
-- Rewards/accuracies: 0.7539
-- Rewards/margins: 1.5664
-- Logps/rejected: -761.6608
-- Logps/chosen: -598.8974
-- Logits/rejected: 0.2389
-- Logits/chosen: -0.0634
 ## Model description
@@ -60,19 +60,19 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.6142        | 0.07  | 100  | 0.6372          | -0.2112        | -0.4255          | 0.6992             | 0.2143          | -330.3116      | -302.7545    | -1.7521         | -1.7871       |
-| 0.4726        | 0.15  | 200  | 0.5516          | -1.3441        | -2.1046          | 0.75               | 0.7605          | -498.2208      | -416.0410    | -2.0018         | -2.0471       |
-| 0.4421        | 0.22  | 300  | 0.5335          | -1.1470        | -2.0463          | 0.7539             | 0.8992          | -492.3901      | -396.3379    | -1.7522         | -1.8325       |
-| 0.3828        | 0.3   | 400  | 0.5238          | -1.6652        | -2.7617          | 0.7695             | 1.0965          | -563.9280      | -448.1488    | -0.9530         | -1.1204       |
-| 0.3576        | 0.37  | 500  | 0.5184          | -1.6238        | -2.7277          | 0.7695             | 1.1039          | -560.5328      | -444.0173    | -0.8922         | -1.1202       |
-| 0.3328        | 0.45  | 600  | 0.5151          | -2.1202        | -3.4092          | 0.7656             | 1.2890          | -628.6859      | -493.6552    | 0.2423          | -0.0694       |
-| 0.3131        | 0.52  | 700  | 0.5153          | -1.7034        | -2.9038          | 0.7656             | 1.2004          | -578.1398      | -451.9696    | 0.1729          | -0.1656       |
-| 0.2547        | 0.59  | 800  | 0.5256          | -2.5366        | -3.8570          | 0.7617             | 1.3204          | -673.4565      | -535.2915    | 0.4476          | 0.1270        |
-| 0.2764        | 0.67  | 900  | 0.5221          | -2.5675        | -3.9457          | 0.7773             | 1.3782          | -682.3342      | -538.3813    | 0.0520          | -0.2431       |
-| 0.2261        | 0.74  | 1000 | 0.5298          | -2.7657        | -4.2499          | 0.7695             | 1.4842          | -712.7483      | -558.2006    | 0.2023          | -0.1104       |
-| 0.2219        | 0.82  | 1100 | 0.5380          | -3.0986        | -4.6646          | 0.7695             | 1.5660          | -754.2211      | -591.4904    | 0.3078          | -0.0067       |
-| 0.2165        | 0.89  | 1200 | 0.5336          | -2.9855        | -4.5026          | 0.7617             | 1.5170          | -738.0179      | -580.1855    | 0.2015          | -0.0980       |
-| 0.1728        | 0.97  | 1300 | 0.5418          | -3.1726        | -4.7390          | 0.7539             | 1.5664          | -761.6608      | -598.8974    | 0.2389          | -0.0634       |
 ### Framework versions

 This model was trained from scratch on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5366
+- Rewards/chosen: -2.9738
+- Rewards/rejected: -4.4991
+- Rewards/accuracies: 0.7617
+- Rewards/margins: 1.5252
+- Logps/rejected: -767.4317
+- Logps/chosen: -609.1594
+- Logits/rejected: 1.6095
+- Logits/chosen: 0.9559
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5905        | 0.07  | 100  | 0.6429          | -0.1380        | -0.3441          | 0.6719             | 0.2061          | -351.9318      | -325.5744    | -1.7244         | -1.7878       |
+| 0.4495        | 0.15  | 200  | 0.5600          | -0.4940        | -1.0973          | 0.7461             | 0.6032          | -427.2510      | -361.1815    | -1.3665         | -1.4371       |
+| 0.3963        | 0.22  | 300  | 0.5291          | -1.1123        | -2.0359          | 0.7422             | 0.9236          | -521.1155      | -423.0034    | -1.2770         | -1.4609       |
+| 0.4012        | 0.3   | 400  | 0.5315          | -1.0588        | -1.9923          | 0.7734             | 0.9334          | -516.7505      | -417.6586    | -1.1223         | -1.3373       |
+| 0.3559        | 0.37  | 500  | 0.5276          | -1.4423        | -2.5146          | 0.7578             | 1.0723          | -568.9822      | -456.0086    | -0.6834         | -1.0067       |
+| 0.3291        | 0.45  | 600  | 0.5103          | -1.6617        | -2.7811          | 0.7695             | 1.1194          | -595.6332      | -477.9445    | 0.1886          | -0.2334       |
+| 0.2735        | 0.52  | 700  | 0.5289          | -2.2950        | -3.7006          | 0.7617             | 1.4056          | -687.5872      | -541.2795    | 0.6722          | 0.1870        |
+| 0.2752        | 0.59  | 800  | 0.5229          | -2.2134        | -3.5070          | 0.7656             | 1.2935          | -668.2236      | -533.1202    | 0.2752          | -0.1628       |
+| 0.2492        | 0.67  | 900  | 0.5152          | -2.0646        | -3.3529          | 0.7734             | 1.2882          | -652.8116      | -518.2382    | 1.0726          | 0.5184        |
+| 0.262         | 0.74  | 1000 | 0.5241          | -2.4505        | -3.8564          | 0.7617             | 1.4059          | -703.1603      | -556.8265    | 1.3124          | 0.6805        |
+| 0.2299        | 0.82  | 1100 | 0.5313          | -2.7647        | -4.2433          | 0.7578             | 1.4786          | -741.8574      | -588.2495    | 1.4834          | 0.8391        |
+| 0.1974        | 0.89  | 1200 | 0.5367          | -2.9484        | -4.4713          | 0.7617             | 1.5229          | -764.6512      | -606.6174    | 1.5458          | 0.8964        |
+| 0.1842        | 0.97  | 1300 | 0.5366          | -2.9738        | -4.4991          | 0.7617             | 1.5252          | -767.4317      | -609.1594    | 1.6095          | 0.9559        |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.3438705863959722,
-    "train_runtime": 21850.8794,
     "train_samples": 172268,
-    "train_samples_per_second": 7.884,
     "train_steps_per_second": 0.062
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.335402155391883,
+    "train_runtime": 21644.3608,
     "train_samples": 172268,
+    "train_samples_per_second": 7.959,
     "train_steps_per_second": 0.062
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd6ded02da6ed2a67b1ccb05b3e25c1a08de70168c93e24452883b16a331d860
 size 4943178720

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9f836055bbd8c90fff82b466785b3c0bb773e39b03a40c15c13a2e943087d51
 size 4943178720

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89ce8ea846a3d7c9e49af7bf0cabce9bf61d2357db44c6a45bf678e5f26f2442
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb1b6c8b26fd22edeb102b325e8c1fbfb5a31ab5cd157cb8b276c563db6e9c41
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fd7ad7a8a30cf5d12237b54b2b2736d530ebb352c2b25a8a564e6dd23102581
 size 4540532728

 version https://git-lfs.github.com/spec/v1
+oid sha256:959b85a59ee4907acea070d073fd679eee4438a9f246c343a20944bc8cecd8c7
 size 4540532728

runs/May17_14-57-56_n136-100-194/events.out.tfevents.1715930027.n136-100-194.4076912.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fef9caf1b1ec4f3fe749967e8892b92238853f89e0ab970a9ba1865fa9a1532
-size 104443

 version https://git-lfs.github.com/spec/v1
+oid sha256:b360ec29705dac95256bbf377f3b2e33f5187a31f2a6fb46a20456d52033f914
+size 107549

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.3438705863959722,
-    "train_runtime": 21850.8794,
     "train_samples": 172268,
-    "train_samples_per_second": 7.884,
     "train_steps_per_second": 0.062
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.335402155391883,
+    "train_runtime": 21644.3608,
     "train_samples": 172268,
+    "train_samples_per_second": 7.959,
     "train_steps_per_second": 0.062
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0caf9fbe23969e1c8a215e53c1fd063c17f339e7fb0eda9b65ed88e2360b089
-size 6200

 version https://git-lfs.github.com/spec/v1
+oid sha256:e502af158ed3a6fabdbc5ad5001d9718cbe7ad4aeeca45d421c1857817025938
+size 6264