phi-3.5-new

Browse files

Files changed (9) hide show

adapter_config.json +1 -1
adapter_model.safetensors +1 -1
all_results.json +10 -10
eval_results.json +5 -5
runs/Jan27_12-23-32_dmlab/events.out.tfevents.1737973412.dmlab.10950.0 +3 -0
runs/Jan27_12-23-32_dmlab/events.out.tfevents.1737974014.dmlab.10950.1 +3 -0
train_results.json +6 -6
trainer_state.json +84 -54
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -23,8 +23,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_up_proj",
     "down_proj",
     "qkv_proj",
     "o_proj"
   ],

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
+    "gate_up_proj",
     "qkv_proj",
     "o_proj"
   ],

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:263a69bdb9de370405091d8f38a7af188f5c8271576941714e6e32907ca8a968
 size 50365768

 version https://git-lfs.github.com/spec/v1
+oid sha256:4304b28412f7f55d6290ffd8d0f78abe64343826c049368281ccf51c7c170087
 size 50365768

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 6.9523809523809526,
-    "eval_loss": 1.0488358736038208,
-    "eval_runtime": 3.908,
-    "eval_samples_per_second": 4.35,
-    "eval_steps_per_second": 2.303,
-    "total_flos": 6666636405768192.0,
-    "train_loss": 1.0272208958455962,
-    "train_runtime": 456.6289,
-    "train_samples_per_second": 1.818,
-    "train_steps_per_second": 0.219
 }

 {
+    "epoch": 8.952380952380953,
+    "eval_loss": 1.0497090816497803,
+    "eval_runtime": 3.9138,
+    "eval_samples_per_second": 4.344,
+    "eval_steps_per_second": 2.3,
+    "total_flos": 8571389664559104.0,
+    "train_loss": 0.9873519552514908,
+    "train_runtime": 598.1578,
+    "train_samples_per_second": 1.388,
+    "train_steps_per_second": 0.167
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 6.9523809523809526,
-    "eval_loss": 1.0488358736038208,
-    "eval_runtime": 3.908,
-    "eval_samples_per_second": 4.35,
-    "eval_steps_per_second": 2.303
 }

 {
+    "epoch": 8.952380952380953,
+    "eval_loss": 1.0497090816497803,
+    "eval_runtime": 3.9138,
+    "eval_samples_per_second": 4.344,
+    "eval_steps_per_second": 2.3
 }

runs/Jan27_12-23-32_dmlab/events.out.tfevents.1737973412.dmlab.10950.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f951710b7e4600dde972ecf56a65162cf3d95d1d42a91f7ba8c6568555f3fd0
+size 12921

runs/Jan27_12-23-32_dmlab/events.out.tfevents.1737974014.dmlab.10950.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:08d71714ffcca237e8a8ef12feeeec01044fb1858c12f6899b27de42418385e8
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 6.9523809523809526,
-    "total_flos": 6666636405768192.0,
-    "train_loss": 1.0272208958455962,
-    "train_runtime": 456.6289,
-    "train_samples_per_second": 1.818,
-    "train_steps_per_second": 0.219
 }

 {
+    "epoch": 8.952380952380953,
+    "total_flos": 8571389664559104.0,
+    "train_loss": 0.9873519552514908,
+    "train_runtime": 598.1578,
+    "train_samples_per_second": 1.388,
+    "train_steps_per_second": 0.167
 }

trainer_state.json CHANGED Viewed

@@ -1,126 +1,156 @@
 {
-  "best_metric": 1.0488358736038208,
-  "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-42",
-  "epoch": 6.9523809523809526,
   "eval_steps": 500,
-  "global_step": 73,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.9523809523809523,
-      "grad_norm": 2.678637981414795,
       "learning_rate": 0.0001,
-      "loss": 1.5168,
       "step": 10
     },
     {
       "epoch": 0.9523809523809523,
-      "eval_loss": 1.3078712224960327,
-      "eval_runtime": 3.9056,
-      "eval_samples_per_second": 4.353,
-      "eval_steps_per_second": 2.304,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "grad_norm": 2.171729564666748,
       "learning_rate": 9.635919272833938e-05,
-      "loss": 1.0953,
       "step": 21
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.1388882398605347,
-      "eval_runtime": 3.9103,
-      "eval_samples_per_second": 4.348,
-      "eval_steps_per_second": 2.302,
       "step": 21
     },
     {
       "epoch": 2.9523809523809526,
-      "grad_norm": 2.044914960861206,
       "learning_rate": 8.715724127386972e-05,
-      "loss": 1.0287,
       "step": 31
     },
     {
       "epoch": 2.9523809523809526,
-      "eval_loss": 1.0680148601531982,
-      "eval_runtime": 3.9097,
-      "eval_samples_per_second": 4.348,
-      "eval_steps_per_second": 2.302,
       "step": 31
     },
     {
       "epoch": 4.0,
-      "grad_norm": 3.0813491344451904,
       "learning_rate": 7.191855733945387e-05,
-      "loss": 0.8858,
       "step": 42
     },
     {
       "epoch": 4.0,
-      "eval_loss": 1.0488358736038208,
-      "eval_runtime": 3.9065,
-      "eval_samples_per_second": 4.352,
-      "eval_steps_per_second": 2.304,
       "step": 42
     },
     {
       "epoch": 4.9523809523809526,
-      "grad_norm": 2.399099349975586,
       "learning_rate": 5.522642316338268e-05,
-      "loss": 0.9442,
       "step": 52
     },
     {
       "epoch": 4.9523809523809526,
-      "eval_loss": 1.0551538467407227,
-      "eval_runtime": 3.9027,
-      "eval_samples_per_second": 4.356,
-      "eval_steps_per_second": 2.306,
       "step": 52
     },
     {
       "epoch": 6.0,
-      "grad_norm": 2.558990240097046,
       "learning_rate": 3.6218132209150045e-05,
-      "loss": 0.8393,
       "step": 63
     },
     {
       "epoch": 6.0,
-      "eval_loss": 1.0510764122009277,
-      "eval_runtime": 3.9324,
-      "eval_samples_per_second": 4.323,
-      "eval_steps_per_second": 2.289,
       "step": 63
     },
     {
       "epoch": 6.9523809523809526,
-      "grad_norm": 2.0949923992156982,
       "learning_rate": 2.061073738537635e-05,
-      "loss": 0.9065,
       "step": 73
     },
     {
       "epoch": 6.9523809523809526,
-      "eval_loss": 1.0621706247329712,
-      "eval_runtime": 3.9116,
-      "eval_samples_per_second": 4.346,
-      "eval_steps_per_second": 2.301,
       "step": 73
     },
     {
-      "epoch": 6.9523809523809526,
-      "step": 73,
-      "total_flos": 6666636405768192.0,
-      "train_loss": 1.0272208958455962,
-      "train_runtime": 456.6289,
-      "train_samples_per_second": 1.818,
-      "train_steps_per_second": 0.219
     }
   ],
   "logging_steps": 500,
@@ -149,7 +179,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6666636405768192.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0497090816497803,
+  "best_model_checkpoint": "/home/labuser/Documents/phi-3/phi-3.5-new/checkpoint-63",
+  "epoch": 8.952380952380953,
   "eval_steps": 500,
+  "global_step": 94,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.9523809523809523,
+      "grad_norm": 2.605168342590332,
       "learning_rate": 0.0001,
+      "loss": 1.515,
       "step": 10
     },
     {
       "epoch": 0.9523809523809523,
+      "eval_loss": 1.310670256614685,
+      "eval_runtime": 3.9865,
+      "eval_samples_per_second": 4.264,
+      "eval_steps_per_second": 2.258,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "grad_norm": 2.2956364154815674,
       "learning_rate": 9.635919272833938e-05,
+      "loss": 1.0908,
       "step": 21
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.1376752853393555,
+      "eval_runtime": 3.9866,
+      "eval_samples_per_second": 4.264,
+      "eval_steps_per_second": 2.258,
       "step": 21
     },
     {
       "epoch": 2.9523809523809526,
+      "grad_norm": 1.952481746673584,
       "learning_rate": 8.715724127386972e-05,
+      "loss": 1.0257,
       "step": 31
     },
     {
       "epoch": 2.9523809523809526,
+      "eval_loss": 1.0673834085464478,
+      "eval_runtime": 4.0023,
+      "eval_samples_per_second": 4.248,
+      "eval_steps_per_second": 2.249,
       "step": 31
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.819559097290039,
       "learning_rate": 7.191855733945387e-05,
+      "loss": 0.886,
       "step": 42
     },
     {
       "epoch": 4.0,
+      "eval_loss": 1.050466537475586,
+      "eval_runtime": 4.0072,
+      "eval_samples_per_second": 4.242,
+      "eval_steps_per_second": 2.246,
       "step": 42
     },
     {
       "epoch": 4.9523809523809526,
+      "grad_norm": 2.7341201305389404,
       "learning_rate": 5.522642316338268e-05,
+      "loss": 0.9453,
       "step": 52
     },
     {
       "epoch": 4.9523809523809526,
+      "eval_loss": 1.0541181564331055,
+      "eval_runtime": 4.0101,
+      "eval_samples_per_second": 4.239,
+      "eval_steps_per_second": 2.244,
       "step": 52
     },
     {
       "epoch": 6.0,
+      "grad_norm": 2.5818099975585938,
       "learning_rate": 3.6218132209150045e-05,
+      "loss": 0.8409,
       "step": 63
     },
     {
       "epoch": 6.0,
+      "eval_loss": 1.0497090816497803,
+      "eval_runtime": 3.9956,
+      "eval_samples_per_second": 4.255,
+      "eval_steps_per_second": 2.252,
       "step": 63
     },
     {
       "epoch": 6.9523809523809526,
+      "grad_norm": 2.11718487739563,
       "learning_rate": 2.061073738537635e-05,
+      "loss": 0.9078,
       "step": 73
     },
     {
       "epoch": 6.9523809523809526,
+      "eval_loss": 1.0589897632598877,
+      "eval_runtime": 4.0003,
+      "eval_samples_per_second": 4.25,
+      "eval_steps_per_second": 2.25,
       "step": 73
     },
     {
+      "epoch": 8.0,
+      "grad_norm": 2.463954210281372,
+      "learning_rate": 7.597595192178702e-06,
+      "loss": 0.8154,
+      "step": 84
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.0593781471252441,
+      "eval_runtime": 3.9931,
+      "eval_samples_per_second": 4.257,
+      "eval_steps_per_second": 2.254,
+      "step": 84
+    },
+    {
+      "epoch": 8.952380952380953,
+      "grad_norm": 2.035900831222534,
+      "learning_rate": 1.0926199633097157e-06,
+      "loss": 0.8909,
+      "step": 94
+    },
+    {
+      "epoch": 8.952380952380953,
+      "eval_loss": 1.057528018951416,
+      "eval_runtime": 3.9065,
+      "eval_samples_per_second": 4.352,
+      "eval_steps_per_second": 2.304,
+      "step": 94
+    },
+    {
+      "epoch": 8.952380952380953,
+      "step": 94,
+      "total_flos": 8571389664559104.0,
+      "train_loss": 0.9873519552514908,
+      "train_runtime": 598.1578,
+      "train_samples_per_second": 1.388,
+      "train_steps_per_second": 0.167
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 8571389664559104.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:906c3e67879a4a768ad056051772ba574f2f336ffda087c2d37e302a39428848
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:3cc87110c49fdc13ae4a9c637c417bf45b1df7830aa3e7ba4f2e0ca0aadba6ac
 size 5624