Model save

Files changed (6) hide show

README.md +14 -14
all_results.json +16 -16
eval_results.json +12 -12
runs/Dec13_15-25-44_uclaml03.cs.ucla.edu/events.out.tfevents.1702571682.uclaml03.cs.ucla.edu.3094406.1 +3 -0
train_results.json +4 -4
trainer_state.json +0 -0

README.md CHANGED Viewed

@@ -15,15 +15,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5266
-- Rewards/chosen: -0.1470
-- Rewards/rejected: -0.8985
-- Rewards/accuracies: 0.7460
-- Rewards/margins: 0.7516
-- Logps/rejected: -228.2694
-- Logps/chosen: -266.1304
-- Logits/rejected: -1.9412
-- Logits/chosen: -2.0659
 ## Model description
@@ -48,8 +48,8 @@ The following hyperparameters were used during training:
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 64
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -60,9 +60,9 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
-| 0.5501        | 1.0   | 968  | 0.5560          | -0.1093        | -0.6400          | 0.7200             | 0.5307          | -225.6847      | -265.7538    | -1.9901         | -2.1115       |
-| 0.5412        | 2.0   | 1936 | 0.5318          | -0.1497        | -0.8640          | 0.7420             | 0.7143          | -227.9245      | -266.1583    | -1.9509         | -2.0748       |
-| 0.5454        | 3.0   | 2904 | 0.5266          | -0.1470        | -0.8985          | 0.7460             | 0.7516          | -228.2694      | -266.1304    | -1.9412         | -2.0659       |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5667
+- Rewards/chosen: -0.0775
+- Rewards/rejected: -0.5353
+- Rewards/accuracies: 0.7060
+- Rewards/margins: 0.4578
+- Logps/rejected: -224.6374
+- Logps/chosen: -265.4360
+- Logits/rejected: -2.0010
+- Logits/chosen: -2.1218
 ## Model description
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 4
+- gradient_accumulation_steps: 32
+- total_train_batch_size: 256
 - total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 | Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
 |:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6115        | 1.0   | 242  | 0.6071          | 0.0029         | -0.2411          | 0.6700             | 0.2439          | -221.6953      | -264.6323    | -2.0230         | -2.1432       |
+| 0.5855        | 2.0   | 484  | 0.5732          | -0.0602        | -0.4701          | 0.6920             | 0.4099          | -223.9853      | -265.2624    | -2.0070         | -2.1277       |
+| 0.5678        | 3.0   | 726  | 0.5667          | -0.0775        | -0.5353          | 0.7060             | 0.4578          | -224.6374      | -265.4360    | -2.0010         | -2.1218       |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.0658671855926514,
-    "eval_logits/rejected": -1.9411793947219849,
-    "eval_logps/chosen": -266.13037109375,
-    "eval_logps/rejected": -228.2694091796875,
-    "eval_loss": 0.5265706777572632,
-    "eval_rewards/accuracies": 0.7459999918937683,
-    "eval_rewards/chosen": -0.1469534933567047,
-    "eval_rewards/margins": 0.7515553832054138,
-    "eval_rewards/rejected": -0.8985088467597961,
-    "eval_runtime": 453.4186,
     "eval_samples": 2000,
-    "eval_samples_per_second": 4.411,
-    "eval_steps_per_second": 0.276,
-    "train_loss": 0.5642705829018732,
-    "train_runtime": 71197.0849,
     "train_samples": 61966,
-    "train_samples_per_second": 2.611,
-    "train_steps_per_second": 0.041
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.1217968463897705,
+    "eval_logits/rejected": -2.000995397567749,
+    "eval_logps/chosen": -265.43603515625,
+    "eval_logps/rejected": -224.63743591308594,
+    "eval_loss": 0.5667475461959839,
+    "eval_rewards/accuracies": 0.7059999704360962,
+    "eval_rewards/chosen": -0.07752041518688202,
+    "eval_rewards/margins": 0.4577913284301758,
+    "eval_rewards/rejected": -0.5353116989135742,
+    "eval_runtime": 441.295,
     "eval_samples": 2000,
+    "eval_samples_per_second": 4.532,
+    "eval_steps_per_second": 0.283,
+    "train_loss": 0.6037136622532668,
+    "train_runtime": 61083.6691,
     "train_samples": 61966,
+    "train_samples_per_second": 3.043,
+    "train_steps_per_second": 0.012
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 3.0,
-    "eval_logits/chosen": -2.0658671855926514,
-    "eval_logits/rejected": -1.9411793947219849,
-    "eval_logps/chosen": -266.13037109375,
-    "eval_logps/rejected": -228.2694091796875,
-    "eval_loss": 0.5265706777572632,
-    "eval_rewards/accuracies": 0.7459999918937683,
-    "eval_rewards/chosen": -0.1469534933567047,
-    "eval_rewards/margins": 0.7515553832054138,
-    "eval_rewards/rejected": -0.8985088467597961,
-    "eval_runtime": 453.4186,
     "eval_samples": 2000,
-    "eval_samples_per_second": 4.411,
-    "eval_steps_per_second": 0.276
 }

 {
     "epoch": 3.0,
+    "eval_logits/chosen": -2.1217968463897705,
+    "eval_logits/rejected": -2.000995397567749,
+    "eval_logps/chosen": -265.43603515625,
+    "eval_logps/rejected": -224.63743591308594,
+    "eval_loss": 0.5667475461959839,
+    "eval_rewards/accuracies": 0.7059999704360962,
+    "eval_rewards/chosen": -0.07752041518688202,
+    "eval_rewards/margins": 0.4577913284301758,
+    "eval_rewards/rejected": -0.5353116989135742,
+    "eval_runtime": 441.295,
     "eval_samples": 2000,
+    "eval_samples_per_second": 4.532,
+    "eval_steps_per_second": 0.283
 }

runs/Dec13_15-25-44_uclaml03.cs.ucla.edu/events.out.tfevents.1702571682.uclaml03.cs.ucla.edu.3094406.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d3138c5eed28d7705db22066bcf87b276549c1ca76d2fcf799012bdf7a67e1a
+size 828

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 3.0,
-    "train_loss": 0.5642705829018732,
-    "train_runtime": 71197.0849,
     "train_samples": 61966,
-    "train_samples_per_second": 2.611,
-    "train_steps_per_second": 0.041
 }

 {
     "epoch": 3.0,
+    "train_loss": 0.6037136622532668,
+    "train_runtime": 61083.6691,
     "train_samples": 61966,
+    "train_samples_per_second": 3.043,
+    "train_steps_per_second": 0.012
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff