Training in progress, step 137000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fe644242ac85364957a221ecb3fda251252bbb21f78dcf32d44ddb45cee4b8c
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b38436cae5381f691ba804b915e325932d55429d83532b1470e95efd579a29b
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a0bb2637b2d27c703e80119c30822f6cacfac9cba885cfe1635772ce684b387
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b3d9c01ac2fd401fd65707f0e1d6a24eefcca9fe471c863196aa9b97efe6f47
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c2ffcf5f582912b4a7016b15e29048dddaa402730efcd133059a2e08945301c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7354a4e3d8de85b55d51bbeb0dfcfc86efd5d09ac4e401efe6b4ee83bc0b66a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff50fa4a38896a05eab7dc1bfd456c8019098d112a942a25a411381c6596e51c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bf416de216a0fa7180c9c5b3632984e63b58047aa8bc6d944e50f798fb000d5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.297449229044683,
   "eval_steps": 500,
-  "global_step": 136000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -24216,11 +24216,189 @@
       "eval_steps_per_second": 15.073,
       "num_input_tokens_seen": 71291638272,
       "step": 136000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 71291638272,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -24235,7 +24413,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2617319614661919e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3069892793684486,
   "eval_steps": 500,
+  "global_step": 137000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.073,
       "num_input_tokens_seen": 71291638272,
       "step": 136000
+    },
+    {
+      "epoch": 1.2979262315608715,
+      "grad_norm": 0.1190498098731041,
+      "learning_rate": 4.8305620184135315e-05,
+      "loss": 2.0321,
+      "num_input_tokens_seen": 71317844512,
+      "step": 136050
+    },
+    {
+      "epoch": 1.2984032340770597,
+      "grad_norm": 0.11770997196435928,
+      "learning_rate": 4.7109889986402973e-05,
+      "loss": 2.0341,
+      "num_input_tokens_seen": 71344050560,
+      "step": 136100
+    },
+    {
+      "epoch": 1.2988802365932481,
+      "grad_norm": 0.11683844774961472,
+      "learning_rate": 4.592841308745932e-05,
+      "loss": 2.0243,
+      "num_input_tokens_seen": 71370258656,
+      "step": 136150
+    },
+    {
+      "epoch": 1.2993572391094363,
+      "grad_norm": 0.12114414572715759,
+      "learning_rate": 4.476122667059207e-05,
+      "loss": 2.0379,
+      "num_input_tokens_seen": 71396470656,
+      "step": 136200
+    },
+    {
+      "epoch": 1.2998342416256246,
+      "grad_norm": 0.11975762993097305,
+      "learning_rate": 4.3608367469340547e-05,
+      "loss": 2.0359,
+      "num_input_tokens_seen": 71422685056,
+      "step": 136250
+    },
+    {
+      "epoch": 1.3003112441418128,
+      "grad_norm": 0.11278797686100006,
+      "learning_rate": 4.2469871766340095e-05,
+      "loss": 2.0219,
+      "num_input_tokens_seen": 71448892928,
+      "step": 136300
+    },
+    {
+      "epoch": 1.3007882466580012,
+      "grad_norm": 0.11854268610477448,
+      "learning_rate": 4.1345775392179654e-05,
+      "loss": 2.0404,
+      "num_input_tokens_seen": 71475094528,
+      "step": 136350
+    },
+    {
+      "epoch": 1.3012652491741894,
+      "grad_norm": 0.11631016433238983,
+      "learning_rate": 4.0236113724274713e-05,
+      "loss": 2.0301,
+      "num_input_tokens_seen": 71501303968,
+      "step": 136400
+    },
+    {
+      "epoch": 1.3017422516903776,
+      "grad_norm": 0.11170602589845657,
+      "learning_rate": 3.9140921685753064e-05,
+      "loss": 2.0431,
+      "num_input_tokens_seen": 71527518368,
+      "step": 136450
+    },
+    {
+      "epoch": 1.302219254206566,
+      "grad_norm": 0.11311063915491104,
+      "learning_rate": 3.806023374435663e-05,
+      "loss": 2.0173,
+      "num_input_tokens_seen": 71553726688,
+      "step": 136500
+    },
+    {
+      "epoch": 1.302219254206566,
+      "eval_loss": 1.9524949789047241,
+      "eval_runtime": 83.0874,
+      "eval_samples_per_second": 60.178,
+      "eval_steps_per_second": 15.044,
+      "num_input_tokens_seen": 71553726688,
+      "step": 136500
+    },
+    {
+      "epoch": 1.3026962567227542,
+      "grad_norm": 0.728589653968811,
+      "learning_rate": 3.699408391135611e-05,
+      "loss": 2.0415,
+      "num_input_tokens_seen": 71579934304,
+      "step": 136550
+    },
+    {
+      "epoch": 1.3031732592389424,
+      "grad_norm": 0.11253057420253754,
+      "learning_rate": 3.594250574048058e-05,
+      "loss": 2.0334,
+      "num_input_tokens_seen": 71606145184,
+      "step": 136600
+    },
+    {
+      "epoch": 1.3036502617551307,
+      "grad_norm": 0.12201691418886185,
+      "learning_rate": 3.4905532326861944e-05,
+      "loss": 2.0403,
+      "num_input_tokens_seen": 71632351648,
+      "step": 136650
+    },
+    {
+      "epoch": 1.304127264271319,
+      "grad_norm": 0.11976749449968338,
+      "learning_rate": 3.3883196305992905e-05,
+      "loss": 2.0292,
+      "num_input_tokens_seen": 71658566048,
+      "step": 136700
+    },
+    {
+      "epoch": 1.3046042667875073,
+      "grad_norm": 0.12131944298744202,
+      "learning_rate": 3.2875529852700146e-05,
+      "loss": 2.0405,
+      "num_input_tokens_seen": 71684775808,
+      "step": 136750
+    },
+    {
+      "epoch": 1.3050812693036955,
+      "grad_norm": 0.11625051498413086,
+      "learning_rate": 3.18825646801314e-05,
+      "loss": 2.0392,
+      "num_input_tokens_seen": 71710990048,
+      "step": 136800
+    },
+    {
+      "epoch": 1.305558271819884,
+      "grad_norm": 0.11870067566633224,
+      "learning_rate": 3.0904332038757974e-05,
+      "loss": 2.0388,
+      "num_input_tokens_seen": 71737198176,
+      "step": 136850
+    },
+    {
+      "epoch": 1.3060352743360721,
+      "grad_norm": 0.11490604281425476,
+      "learning_rate": 2.994086271539048e-05,
+      "loss": 2.0261,
+      "num_input_tokens_seen": 71763409248,
+      "step": 136900
+    },
+    {
+      "epoch": 1.3065122768522603,
+      "grad_norm": 0.1218944787979126,
+      "learning_rate": 2.8992187032210516e-05,
+      "loss": 2.0421,
+      "num_input_tokens_seen": 71789610880,
+      "step": 136950
+    },
+    {
+      "epoch": 1.3069892793684486,
+      "grad_norm": 0.11681609600782394,
+      "learning_rate": 2.8058334845816213e-05,
+      "loss": 2.0287,
+      "num_input_tokens_seen": 71815816608,
+      "step": 137000
+    },
+    {
+      "epoch": 1.3069892793684486,
+      "eval_loss": 1.951898455619812,
+      "eval_runtime": 82.7779,
+      "eval_samples_per_second": 60.403,
+      "eval_steps_per_second": 15.101,
+      "num_input_tokens_seen": 71815816608,
+      "step": 137000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 71815816608,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.271008961912107e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null