anhnv125
/

reward-model

@@ -14,7 +14,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [ChaiML/reward_models_100_170000000_cp_498032](https://huggingface.co/ChaiML/reward_models_100_170000000_cp_498032) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6275
 ## Model description
@@ -37,6 +37,8 @@ The following hyperparameters were used during training:
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 7
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 200
@@ -46,29 +48,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.6911        | 0.04  | 200  | 0.6674          |
-| 0.654         | 0.09  | 400  | 0.6472          |
-| 0.6654        | 0.13  | 600  | 0.6429          |
-| 0.6381        | 0.17  | 800  | 0.6391          |
-| 0.6546        | 0.21  | 1000 | 0.6381          |
-| 0.6575        | 0.26  | 1200 | 0.6352          |
-| 0.6458        | 0.3   | 1400 | 0.6344          |
-| 0.6574        | 0.34  | 1600 | 0.6335          |
-| 0.6409        | 0.39  | 1800 | 0.6314          |
-| 0.6255        | 0.43  | 2000 | 0.6306          |
-| 0.6342        | 0.47  | 2200 | 0.6300          |
-| 0.6117        | 0.51  | 2400 | 0.6298          |
-| 0.6651        | 0.56  | 2600 | 0.6307          |
-| 0.6624        | 0.6   | 2800 | 0.6294          |
-| 0.6213        | 0.64  | 3000 | 0.6286          |
-| 0.6486        | 0.68  | 3200 | 0.6278          |
-| 0.6258        | 0.73  | 3400 | 0.6277          |
-| 0.6336        | 0.77  | 3600 | 0.6278          |
-| 0.5842        | 0.81  | 3800 | 0.6277          |
-| 0.6748        | 0.86  | 4000 | 0.6275          |
-| 0.5985        | 0.9   | 4200 | 0.6275          |
-| 0.6207        | 0.94  | 4400 | 0.6275          |
-| 0.5901        | 0.98  | 4600 | 0.6275          |
 ### Framework versions

 This model is a fine-tuned version of [ChaiML/reward_models_100_170000000_cp_498032](https://huggingface.co/ChaiML/reward_models_100_170000000_cp_498032) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6433
 ## Model description
 - train_batch_size: 16
 - eval_batch_size: 16
 - seed: 7
+- gradient_accumulation_steps: 16
+- total_train_batch_size: 256
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_steps: 200
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.6589        | 0.68  | 200  | 0.6433          |
 ### Framework versions

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c77f3c439e79b61353c7d208bb56505daf62353607e797738738c1ca330a015
 size 497780432

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ce85abb6b8d303da65c45a05e5eec017c2995136a0095956442d1d3f2dec0e3
 size 497780432

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:513e7d7e373ae76c6639bb27cab878f2d1198dd9669f21b92ce1e737a81403af
 size 497813601

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5c5bd47e5abb0ebad25475f8b9eb7fbfbb852d13635dc6ac6160260bb9fc0b1
 size 497813601

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2476ce46368e55f2548101f9c52721bb520a3d61335f0cb050bcde326b7c5640
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:1318d8ccd2e1aedee13b0a06a6be6c81e6da263c655cde47ca1117b3a444f3ab
 size 4027