Model save

Browse files

Files changed (8) hide show

README.md +8 -6
adapter_model.safetensors +1 -1
all_results.json +9 -9
eval_results.json +5 -5
runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705744129.98f107f1aa39.59272.0 +2 -2
runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705747380.98f107f1aa39.59272.1 +3 -0
train_results.json +5 -5
trainer_state.json +74 -40

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-Chat-v1.0](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.2578
 ## Model description
@@ -40,12 +40,12 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 10
-- eval_batch_size: 5
 - seed: 42
 - distributed_type: multi-GPU
 - gradient_accumulation_steps: 20
-- total_train_batch_size: 200
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - num_epochs: 1
@@ -54,8 +54,10 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.3338        | 0.39  | 10   | 1.2857          |
-| 1.2798        | 0.79  | 20   | 1.2591          |
 ### Framework versions

 This model is a fine-tuned version of [TinyLlama/TinyLlama-1.1B-Chat-v1.0](https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.2243
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 6
+- eval_batch_size: 3
 - seed: 42
 - distributed_type: multi-GPU
 - gradient_accumulation_steps: 20
+- total_train_batch_size: 120
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - num_epochs: 1
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.3384        | 0.24  | 10   | 1.2810          |
+| 1.2633        | 0.47  | 20   | 1.2418          |
+| 1.2495        | 0.71  | 30   | 1.2277          |
+| 1.2291        | 0.94  | 40   | 1.2244          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98cd3890c51ae5ffa91d126fdd9651957d93ea83b95be60e19440fa9853572b2
 size 26361536

 version https://git-lfs.github.com/spec/v1
+oid sha256:f965e58223d70e7e4cada5a72a84a621326ead0de0547c6040e366e7c5849d7d
 size 26361536

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.98,
-    "eval_loss": 1.257819414138794,
-    "eval_runtime": 24.0321,
     "eval_samples": 662,
-    "eval_samples_per_second": 5.368,
-    "eval_steps_per_second": 1.082,
-    "train_loss": 1.3208525276184082,
-    "train_runtime": 3151.0527,
     "train_samples": 25778,
-    "train_samples_per_second": 1.613,
-    "train_steps_per_second": 0.008
 }

 {
+    "epoch": 0.99,
+    "eval_loss": 1.2242895364761353,
+    "eval_runtime": 24.7608,
     "eval_samples": 662,
+    "eval_samples_per_second": 5.21,
+    "eval_steps_per_second": 1.737,
+    "train_loss": 1.282569306237357,
+    "train_runtime": 3226.4767,
     "train_samples": 25778,
+    "train_samples_per_second": 1.576,
+    "train_steps_per_second": 0.013
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.98,
-    "eval_loss": 1.257819414138794,
-    "eval_runtime": 24.0321,
     "eval_samples": 662,
-    "eval_samples_per_second": 5.368,
-    "eval_steps_per_second": 1.082
 }

 {
+    "epoch": 0.99,
+    "eval_loss": 1.2242895364761353,
+    "eval_runtime": 24.7608,
     "eval_samples": 662,
+    "eval_samples_per_second": 5.21,
+    "eval_steps_per_second": 1.737
 }

runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705744129.98f107f1aa39.59272.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ec6843eaefbf474d9105d7c7f25f544603a96e1b0683b083a1eae513311c0b6
-size 5822

 version https://git-lfs.github.com/spec/v1
+oid sha256:195513f1517de6140e91b2d0ea1567bf0817d870483f26c6ad36ed3d7ca013e8
+size 7318

runs/Jan20_09-47-06_98f107f1aa39/events.out.tfevents.1705747380.98f107f1aa39.59272.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c2ed3583edf8c7c082ba0e054e067c2c515a9f4a8eaf101cf3132cbda44515c
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.98,
-    "train_loss": 1.3208525276184082,
-    "train_runtime": 3151.0527,
     "train_samples": 25778,
-    "train_samples_per_second": 1.613,
-    "train_steps_per_second": 0.008
 }

 {
+    "epoch": 0.99,
+    "train_loss": 1.282569306237357,
+    "train_runtime": 3226.4767,
     "train_samples": 25778,
+    "train_samples_per_second": 1.576,
+    "train_steps_per_second": 0.013
 }

trainer_state.json CHANGED Viewed

@@ -1,82 +1,116 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9823182711198428,
   "eval_steps": 10,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.04,
-      "learning_rate": 4.980286753286195e-05,
-      "loss": 1.4539,
       "step": 1
     },
     {
-      "epoch": 0.2,
-      "learning_rate": 4.522542485937369e-05,
-      "loss": 1.4374,
       "step": 5
     },
     {
-      "epoch": 0.39,
-      "learning_rate": 3.272542485937369e-05,
-      "loss": 1.3338,
       "step": 10
     },
     {
-      "epoch": 0.39,
-      "eval_loss": 1.285738229751587,
-      "eval_runtime": 24.0251,
-      "eval_samples_per_second": 5.369,
-      "eval_steps_per_second": 1.082,
       "step": 10
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 1.7274575140626318e-05,
-      "loss": 1.286,
       "step": 15
     },
     {
-      "epoch": 0.79,
-      "learning_rate": 4.7745751406263165e-06,
-      "loss": 1.2798,
       "step": 20
     },
     {
-      "epoch": 0.79,
-      "eval_loss": 1.259059190750122,
-      "eval_runtime": 24.0291,
-      "eval_samples_per_second": 5.368,
-      "eval_steps_per_second": 1.082,
       "step": 20
     },
     {
-      "epoch": 0.98,
-      "learning_rate": 0.0,
-      "loss": 1.2639,
       "step": 25
     },
     {
-      "epoch": 0.98,
-      "step": 25,
-      "total_flos": 6.39647288959959e+16,
-      "train_loss": 1.3208525276184082,
-      "train_runtime": 3151.0527,
-      "train_samples_per_second": 1.613,
-      "train_steps_per_second": 0.008
     }
   ],
   "logging_steps": 5,
-  "max_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 20,
-  "total_flos": 6.39647288959959e+16,
-  "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9905660377358491,
   "eval_steps": 10,
+  "global_step": 42,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 4.9930094929529506e-05,
+      "loss": 1.458,
       "step": 1
     },
     {
+      "epoch": 0.12,
+      "learning_rate": 4.827184371610511e-05,
+      "loss": 1.4238,
       "step": 5
     },
     {
+      "epoch": 0.24,
+      "learning_rate": 4.332629679574566e-05,
+      "loss": 1.3384,
       "step": 10
     },
     {
+      "epoch": 0.24,
+      "eval_loss": 1.2809978723526,
+      "eval_runtime": 24.7617,
+      "eval_samples_per_second": 5.21,
+      "eval_steps_per_second": 1.737,
       "step": 10
     },
     {
+      "epoch": 0.35,
+      "learning_rate": 3.5847093477938956e-05,
+      "loss": 1.2865,
       "step": 15
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 2.686825233966061e-05,
+      "loss": 1.2633,
       "step": 20
     },
     {
+      "epoch": 0.47,
+      "eval_loss": 1.2418025732040405,
+      "eval_runtime": 24.7653,
+      "eval_samples_per_second": 5.209,
+      "eval_steps_per_second": 1.736,
       "step": 20
     },
     {
+      "epoch": 0.59,
+      "learning_rate": 1.7631120639727393e-05,
+      "loss": 1.2433,
       "step": 25
     },
     {
+      "epoch": 0.71,
+      "learning_rate": 9.412754953531663e-06,
+      "loss": 1.2495,
+      "step": 30
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 1.2276524305343628,
+      "eval_runtime": 24.7715,
+      "eval_samples_per_second": 5.208,
+      "eval_steps_per_second": 1.736,
+      "step": 30
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 3.3493649053890326e-06,
+      "loss": 1.2364,
+      "step": 35
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 2.7922934437178695e-07,
+      "loss": 1.2291,
+      "step": 40
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 1.2243515253067017,
+      "eval_runtime": 24.7908,
+      "eval_samples_per_second": 5.204,
+      "eval_steps_per_second": 1.735,
+      "step": 40
+    },
+    {
+      "epoch": 0.99,
+      "step": 42,
+      "total_flos": 6.447644673468006e+16,
+      "train_loss": 1.282569306237357,
+      "train_runtime": 3226.4767,
+      "train_samples_per_second": 1.576,
+      "train_steps_per_second": 0.013
     }
   ],
   "logging_steps": 5,
+  "max_steps": 42,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 20,
+  "total_flos": 6.447644673468006e+16,
+  "train_batch_size": 6,
   "trial_name": null,
   "trial_params": null
 }