Training in progress, step 100, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step100/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/trainer_state.json +353 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9248e2b1615374a06e8dee75ffc04a644ddab9e208c5bf3f3ebc69f054e7a1cf
 size 42002584

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c78281bd0c0ce0d995c6529c137c2f59f5e28d6236147ae87a5653be04c8cda
 size 42002584

last-checkpoint/global_step100/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d89c5ba85c3e6dbb68471d74c69db9c86e201c092db369bd9537d34bfedb3376
+size 251710672

last-checkpoint/global_step100/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eacbbd6bf54cc77109197e4731a2c66ce4a5cf3964f595cbfdefb39ac3c25c47
+size 153726841

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step50~~


1	+ global_step100

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe8bfc6b0f53f4d9b34af3c2ef2e30568782e5a62c9cc7e8746ad11958c29eae
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c2063b95060e60409af367f8752ca270dbc5da979bb7aecd30bf77c7bf56b63
 size 14244

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3058103975535168,
   "eval_steps": 1000,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -357,6 +357,356 @@
       "learning_rate": 0.00010833333333333333,
       "loss": 2.1969,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -376,7 +726,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 468719355559936.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.6116207951070336,
   "eval_steps": 1000,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.00010833333333333333,
       "loss": 2.1969,
       "step": 50
+    },
+    {
+      "epoch": 0.3119266055045872,
+      "grad_norm": 6.529269695281982,
+      "learning_rate": 0.00010625000000000001,
+      "loss": 2.7562,
+      "step": 51
+    },
+    {
+      "epoch": 0.3180428134556575,
+      "grad_norm": 6.519890308380127,
+      "learning_rate": 0.00010416666666666667,
+      "loss": 1.6187,
+      "step": 52
+    },
+    {
+      "epoch": 0.3241590214067278,
+      "grad_norm": 5.84199333190918,
+      "learning_rate": 0.00010208333333333333,
+      "loss": 1.4098,
+      "step": 53
+    },
+    {
+      "epoch": 0.3302752293577982,
+      "grad_norm": 5.9514336585998535,
+      "learning_rate": 0.0001,
+      "loss": 1.3005,
+      "step": 54
+    },
+    {
+      "epoch": 0.3363914373088685,
+      "grad_norm": 5.569624423980713,
+      "learning_rate": 9.791666666666667e-05,
+      "loss": 1.8324,
+      "step": 55
+    },
+    {
+      "epoch": 0.3425076452599388,
+      "grad_norm": 6.462126731872559,
+      "learning_rate": 9.583333333333334e-05,
+      "loss": 1.5223,
+      "step": 56
+    },
+    {
+      "epoch": 0.3486238532110092,
+      "grad_norm": 5.906198501586914,
+      "learning_rate": 9.375e-05,
+      "loss": 1.8126,
+      "step": 57
+    },
+    {
+      "epoch": 0.3547400611620795,
+      "grad_norm": 8.181982040405273,
+      "learning_rate": 9.166666666666667e-05,
+      "loss": 1.5992,
+      "step": 58
+    },
+    {
+      "epoch": 0.36085626911314983,
+      "grad_norm": 4.730391979217529,
+      "learning_rate": 8.958333333333335e-05,
+      "loss": 1.6709,
+      "step": 59
+    },
+    {
+      "epoch": 0.3669724770642202,
+      "grad_norm": 5.18928337097168,
+      "learning_rate": 8.75e-05,
+      "loss": 1.7399,
+      "step": 60
+    },
+    {
+      "epoch": 0.3730886850152905,
+      "grad_norm": 7.227060317993164,
+      "learning_rate": 8.541666666666666e-05,
+      "loss": 2.1354,
+      "step": 61
+    },
+    {
+      "epoch": 0.37920489296636084,
+      "grad_norm": 6.325191497802734,
+      "learning_rate": 8.333333333333334e-05,
+      "loss": 2.2917,
+      "step": 62
+    },
+    {
+      "epoch": 0.3853211009174312,
+      "grad_norm": 7.269418239593506,
+      "learning_rate": 8.125000000000001e-05,
+      "loss": 2.4691,
+      "step": 63
+    },
+    {
+      "epoch": 0.39143730886850153,
+      "grad_norm": 9.848830223083496,
+      "learning_rate": 7.916666666666666e-05,
+      "loss": 2.9251,
+      "step": 64
+    },
+    {
+      "epoch": 0.39755351681957185,
+      "grad_norm": 2.8502776622772217,
+      "learning_rate": 7.708333333333334e-05,
+      "loss": 0.1757,
+      "step": 65
+    },
+    {
+      "epoch": 0.4036697247706422,
+      "grad_norm": 4.723325252532959,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 1.3464,
+      "step": 66
+    },
+    {
+      "epoch": 0.40978593272171254,
+      "grad_norm": 8.410296440124512,
+      "learning_rate": 7.291666666666667e-05,
+      "loss": 2.6273,
+      "step": 67
+    },
+    {
+      "epoch": 0.41590214067278286,
+      "grad_norm": 7.364680290222168,
+      "learning_rate": 7.083333333333334e-05,
+      "loss": 2.2223,
+      "step": 68
+    },
+    {
+      "epoch": 0.42201834862385323,
+      "grad_norm": 7.319981575012207,
+      "learning_rate": 6.875e-05,
+      "loss": 1.9165,
+      "step": 69
+    },
+    {
+      "epoch": 0.42813455657492355,
+      "grad_norm": 6.94813346862793,
+      "learning_rate": 6.666666666666667e-05,
+      "loss": 2.2407,
+      "step": 70
+    },
+    {
+      "epoch": 0.43425076452599387,
+      "grad_norm": 6.473064422607422,
+      "learning_rate": 6.458333333333334e-05,
+      "loss": 1.212,
+      "step": 71
+    },
+    {
+      "epoch": 0.44036697247706424,
+      "grad_norm": 8.280125617980957,
+      "learning_rate": 6.25e-05,
+      "loss": 2.5599,
+      "step": 72
+    },
+    {
+      "epoch": 0.44648318042813456,
+      "grad_norm": 7.279771327972412,
+      "learning_rate": 6.041666666666667e-05,
+      "loss": 2.2878,
+      "step": 73
+    },
+    {
+      "epoch": 0.4525993883792049,
+      "grad_norm": 8.446040153503418,
+      "learning_rate": 5.833333333333334e-05,
+      "loss": 2.9793,
+      "step": 74
+    },
+    {
+      "epoch": 0.45871559633027525,
+      "grad_norm": 4.083460330963135,
+      "learning_rate": 5.6250000000000005e-05,
+      "loss": 0.8241,
+      "step": 75
+    },
+    {
+      "epoch": 0.4648318042813456,
+      "grad_norm": 4.364982604980469,
+      "learning_rate": 5.4166666666666664e-05,
+      "loss": 0.3777,
+      "step": 76
+    },
+    {
+      "epoch": 0.4709480122324159,
+      "grad_norm": 5.940834045410156,
+      "learning_rate": 5.208333333333334e-05,
+      "loss": 2.491,
+      "step": 77
+    },
+    {
+      "epoch": 0.47706422018348627,
+      "grad_norm": 9.047613143920898,
+      "learning_rate": 5e-05,
+      "loss": 2.649,
+      "step": 78
+    },
+    {
+      "epoch": 0.4831804281345566,
+      "grad_norm": 8.733380317687988,
+      "learning_rate": 4.791666666666667e-05,
+      "loss": 2.8966,
+      "step": 79
+    },
+    {
+      "epoch": 0.4892966360856269,
+      "grad_norm": 8.215818405151367,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 2.5587,
+      "step": 80
+    },
+    {
+      "epoch": 0.4954128440366973,
+      "grad_norm": 6.593921661376953,
+      "learning_rate": 4.375e-05,
+      "loss": 2.1509,
+      "step": 81
+    },
+    {
+      "epoch": 0.5015290519877675,
+      "grad_norm": 7.0422563552856445,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 2.6517,
+      "step": 82
+    },
+    {
+      "epoch": 0.5076452599388379,
+      "grad_norm": 6.228955268859863,
+      "learning_rate": 3.958333333333333e-05,
+      "loss": 1.8935,
+      "step": 83
+    },
+    {
+      "epoch": 0.5137614678899083,
+      "grad_norm": 5.051086902618408,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 1.1341,
+      "step": 84
+    },
+    {
+      "epoch": 0.5198776758409785,
+      "grad_norm": 6.446547985076904,
+      "learning_rate": 3.541666666666667e-05,
+      "loss": 2.4077,
+      "step": 85
+    },
+    {
+      "epoch": 0.5259938837920489,
+      "grad_norm": 8.105069160461426,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 1.3238,
+      "step": 86
+    },
+    {
+      "epoch": 0.5321100917431193,
+      "grad_norm": 7.07869291305542,
+      "learning_rate": 3.125e-05,
+      "loss": 1.8556,
+      "step": 87
+    },
+    {
+      "epoch": 0.5382262996941896,
+      "grad_norm": 7.414394378662109,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 2.7577,
+      "step": 88
+    },
+    {
+      "epoch": 0.5443425076452599,
+      "grad_norm": 3.7846713066101074,
+      "learning_rate": 2.7083333333333332e-05,
+      "loss": 0.9188,
+      "step": 89
+    },
+    {
+      "epoch": 0.5504587155963303,
+      "grad_norm": 6.049407482147217,
+      "learning_rate": 2.5e-05,
+      "loss": 1.6882,
+      "step": 90
+    },
+    {
+      "epoch": 0.5565749235474006,
+      "grad_norm": 6.262319564819336,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 2.7452,
+      "step": 91
+    },
+    {
+      "epoch": 0.5626911314984709,
+      "grad_norm": 6.638827800750732,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.9348,
+      "step": 92
+    },
+    {
+      "epoch": 0.5688073394495413,
+      "grad_norm": 9.3283052444458,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 3.2134,
+      "step": 93
+    },
+    {
+      "epoch": 0.5749235474006116,
+      "grad_norm": 5.360898017883301,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.019,
+      "step": 94
+    },
+    {
+      "epoch": 0.581039755351682,
+      "grad_norm": 8.911893844604492,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 3.1926,
+      "step": 95
+    },
+    {
+      "epoch": 0.5871559633027523,
+      "grad_norm": 7.837462425231934,
+      "learning_rate": 1.25e-05,
+      "loss": 2.5144,
+      "step": 96
+    },
+    {
+      "epoch": 0.5932721712538226,
+      "grad_norm": 5.172741889953613,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 1.7045,
+      "step": 97
+    },
+    {
+      "epoch": 0.599388379204893,
+      "grad_norm": 7.193814277648926,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 2.8239,
+      "step": 98
+    },
+    {
+      "epoch": 0.6055045871559633,
+      "grad_norm": 5.897807598114014,
+      "learning_rate": 6.25e-06,
+      "loss": 1.1928,
+      "step": 99
+    },
+    {
+      "epoch": 0.6116207951070336,
+      "grad_norm": 5.558406352996826,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 1.8766,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 916043819384832.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null