Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +3 -323

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:164b5494ac7dc63ddd647f8c38f8282e5bab9fd22022d2076c188a5d2a5b1cfe
 size 1625422896

 version https://git-lfs.github.com/spec/v1
+oid sha256:76d474395b6ded24d34bcba3b256936e3bae1cfde6619e057cb3113a59307aa8
 size 1625422896

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88054f4b96e2c48d52f7e14d9dd88d01981d1c768ba436efeaceade549897e7f
 size 3250751759

 version https://git-lfs.github.com/spec/v1
+oid sha256:86e3fe5f60ee64213cce6953f073415e24ea7076ada3726ea4f9730db4bf2b8f
 size 3250751759

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6f76dc88a49fbe8084c46058a6690efc16d635806e103f2dda5d02d870b82e5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:45b46a8489ea46d5b64d8445e0eb4a38d6580878b08ba5dfb0ca38bbfb48916c
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:420fc5f51a05e0274a48344decd52036c9e49d1a1fff581ca68f3034646a3c19
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bef528486c1f6fe0aba355f463beb7a35f44ba66f2f32f593828dbf6daf991fb
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9848398495383563,
   "eval_steps": 720,
-  "global_step": 17280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -167,326 +167,6 @@
       "eval_samples_per_second": 1.158,
       "eval_steps_per_second": 0.3,
       "step": 5760
-    },
-    {
-      "epoch": 0.37,
-      "grad_norm": 0.4224866032600403,
-      "learning_rate": 8.154797526431279e-05,
-      "loss": 0.0904,
-      "step": 6480
-    },
-    {
-      "epoch": 0.37,
-      "eval_bertscore": 0.7329062819480896,
-      "eval_loss": 0.10619346052408218,
-      "eval_rouge1": 0.564360420431112,
-      "eval_rouge2": 0.3430202743146231,
-      "eval_rougeL": 0.43258159937823415,
-      "eval_rougeLsum": 0.4342682613180943,
-      "eval_runtime": 43.9471,
-      "eval_samples_per_second": 1.229,
-      "eval_steps_per_second": 0.319,
-      "step": 6480
-    },
-    {
-      "epoch": 0.41,
-      "grad_norm": 0.326298326253891,
-      "learning_rate": 7.949616710837537e-05,
-      "loss": 0.088,
-      "step": 7200
-    },
-    {
-      "epoch": 0.41,
-      "eval_bertscore": 0.7319415807723999,
-      "eval_loss": 0.10810621827840805,
-      "eval_rouge1": 0.567691068841891,
-      "eval_rouge2": 0.3516256462902142,
-      "eval_rougeL": 0.42838027396990275,
-      "eval_rougeLsum": 0.4324782503340911,
-      "eval_runtime": 46.4934,
-      "eval_samples_per_second": 1.161,
-      "eval_steps_per_second": 0.301,
-      "step": 7200
-    },
-    {
-      "epoch": 0.45,
-      "grad_norm": 0.38782864809036255,
-      "learning_rate": 7.744720868598786e-05,
-      "loss": 0.099,
-      "step": 7920
-    },
-    {
-      "epoch": 0.45,
-      "eval_bertscore": 0.7281920909881592,
-      "eval_loss": 0.1160830408334732,
-      "eval_rouge1": 0.5638078274676868,
-      "eval_rouge2": 0.33447827597228297,
-      "eval_rougeL": 0.42103610080157494,
-      "eval_rougeLsum": 0.421241459135431,
-      "eval_runtime": 43.8757,
-      "eval_samples_per_second": 1.231,
-      "eval_steps_per_second": 0.319,
-      "step": 7920
-    },
-    {
-      "epoch": 0.49,
-      "grad_norm": 0.3241174519062042,
-      "learning_rate": 7.539540053005044e-05,
-      "loss": 0.0872,
-      "step": 8640
-    },
-    {
-      "epoch": 0.49,
-      "eval_bertscore": 0.7242642045021057,
-      "eval_loss": 0.10293756425380707,
-      "eval_rouge1": 0.5632532860588884,
-      "eval_rouge2": 0.34322756987289393,
-      "eval_rougeL": 0.42262041814568485,
-      "eval_rougeLsum": 0.423440338568295,
-      "eval_runtime": 46.2455,
-      "eval_samples_per_second": 1.168,
-      "eval_steps_per_second": 0.303,
-      "step": 8640
-    },
-    {
-      "epoch": 0.53,
-      "grad_norm": 0.3583599030971527,
-      "learning_rate": 7.334359237411302e-05,
-      "loss": 0.0873,
-      "step": 9360
-    },
-    {
-      "epoch": 0.53,
-      "eval_bertscore": 0.6995793581008911,
-      "eval_loss": 0.1057819277048111,
-      "eval_rouge1": 0.5146289688453939,
-      "eval_rouge2": 0.31515963367438793,
-      "eval_rougeL": 0.3849697348906047,
-      "eval_rougeLsum": 0.3853863269798617,
-      "eval_runtime": 41.7431,
-      "eval_samples_per_second": 1.294,
-      "eval_steps_per_second": 0.335,
-      "step": 9360
-    },
-    {
-      "epoch": 0.57,
-      "grad_norm": 0.2910310626029968,
-      "learning_rate": 7.12917842181756e-05,
-      "loss": 0.0867,
-      "step": 10080
-    },
-    {
-      "epoch": 0.57,
-      "eval_bertscore": 0.6976329684257507,
-      "eval_loss": 0.1045340821146965,
-      "eval_rouge1": 0.5207467825430098,
-      "eval_rouge2": 0.3033279665805546,
-      "eval_rougeL": 0.3864676775585604,
-      "eval_rougeLsum": 0.38810836905339663,
-      "eval_runtime": 42.5457,
-      "eval_samples_per_second": 1.269,
-      "eval_steps_per_second": 0.329,
-      "step": 10080
-    },
-    {
-      "epoch": 0.62,
-      "grad_norm": 0.3698158860206604,
-      "learning_rate": 6.92428257957881e-05,
-      "loss": 0.0877,
-      "step": 10800
-    },
-    {
-      "epoch": 0.62,
-      "eval_bertscore": 0.6928555369377136,
-      "eval_loss": 0.10213906317949295,
-      "eval_rouge1": 0.5052125219715984,
-      "eval_rouge2": 0.2901105424948756,
-      "eval_rougeL": 0.38512895532246294,
-      "eval_rougeLsum": 0.38700266390157023,
-      "eval_runtime": 43.2036,
-      "eval_samples_per_second": 1.25,
-      "eval_steps_per_second": 0.324,
-      "step": 10800
-    },
-    {
-      "epoch": 0.66,
-      "grad_norm": 0.31327977776527405,
-      "learning_rate": 6.719101763985067e-05,
-      "loss": 0.0863,
-      "step": 11520
-    },
-    {
-      "epoch": 0.66,
-      "eval_bertscore": 0.7075583338737488,
-      "eval_loss": 0.10120192915201187,
-      "eval_rouge1": 0.5255501659415194,
-      "eval_rouge2": 0.313837826701734,
-      "eval_rougeL": 0.40085373784140194,
-      "eval_rougeLsum": 0.40434970576567464,
-      "eval_runtime": 42.8949,
-      "eval_samples_per_second": 1.259,
-      "eval_steps_per_second": 0.326,
-      "step": 11520
-    },
-    {
-      "epoch": 0.7,
-      "grad_norm": 0.3461964428424835,
-      "learning_rate": 6.514205921746318e-05,
-      "loss": 0.0872,
-      "step": 12240
-    },
-    {
-      "epoch": 0.7,
-      "eval_bertscore": 0.7073290348052979,
-      "eval_loss": 0.10406655818223953,
-      "eval_rouge1": 0.5477131085772904,
-      "eval_rouge2": 0.33149979593857803,
-      "eval_rougeL": 0.40632334489545124,
-      "eval_rougeLsum": 0.4095457087623684,
-      "eval_runtime": 44.6457,
-      "eval_samples_per_second": 1.21,
-      "eval_steps_per_second": 0.314,
-      "step": 12240
-    },
-    {
-      "epoch": 0.74,
-      "grad_norm": 0.5959820747375488,
-      "learning_rate": 6.309025106152576e-05,
-      "loss": 0.0865,
-      "step": 12960
-    },
-    {
-      "epoch": 0.74,
-      "eval_bertscore": 0.7051340937614441,
-      "eval_loss": 0.10186685621738434,
-      "eval_rouge1": 0.5286009039113435,
-      "eval_rouge2": 0.30974761597035483,
-      "eval_rougeL": 0.39408942231662314,
-      "eval_rougeLsum": 0.39582462237360283,
-      "eval_runtime": 41.0675,
-      "eval_samples_per_second": 1.315,
-      "eval_steps_per_second": 0.341,
-      "step": 12960
-    },
-    {
-      "epoch": 0.78,
-      "grad_norm": 0.3375673294067383,
-      "learning_rate": 6.104129263913825e-05,
-      "loss": 0.0882,
-      "step": 13680
-    },
-    {
-      "epoch": 0.78,
-      "eval_bertscore": 0.7006374001502991,
-      "eval_loss": 0.10748545080423355,
-      "eval_rouge1": 0.5293328711395651,
-      "eval_rouge2": 0.30648192947303854,
-      "eval_rougeL": 0.38835230184676583,
-      "eval_rougeLsum": 0.3893932601411799,
-      "eval_runtime": 42.4292,
-      "eval_samples_per_second": 1.273,
-      "eval_steps_per_second": 0.33,
-      "step": 13680
-    },
-    {
-      "epoch": 0.82,
-      "grad_norm": 0.2677787244319916,
-      "learning_rate": 5.899233421675073e-05,
-      "loss": 0.0974,
-      "step": 14400
-    },
-    {
-      "epoch": 0.82,
-      "eval_bertscore": 0.7165916562080383,
-      "eval_loss": 0.1007571741938591,
-      "eval_rouge1": 0.5513926515300362,
-      "eval_rouge2": 0.33911911389049787,
-      "eval_rougeL": 0.416442801833816,
-      "eval_rougeLsum": 0.4183281343761722,
-      "eval_runtime": 44.5976,
-      "eval_samples_per_second": 1.211,
-      "eval_steps_per_second": 0.314,
-      "step": 14400
-    },
-    {
-      "epoch": 0.86,
-      "grad_norm": 0.37346717715263367,
-      "learning_rate": 5.694052606081331e-05,
-      "loss": 0.0873,
-      "step": 15120
-    },
-    {
-      "epoch": 0.86,
-      "eval_bertscore": 0.7286005616188049,
-      "eval_loss": 0.10275202244520187,
-      "eval_rouge1": 0.568867460495994,
-      "eval_rouge2": 0.3456103655679248,
-      "eval_rougeL": 0.43306516695459163,
-      "eval_rougeLsum": 0.43448984907617605,
-      "eval_runtime": 45.9446,
-      "eval_samples_per_second": 1.175,
-      "eval_steps_per_second": 0.305,
-      "step": 15120
-    },
-    {
-      "epoch": 0.9,
-      "grad_norm": 0.42003852128982544,
-      "learning_rate": 5.4888717904875894e-05,
-      "loss": 0.0884,
-      "step": 15840
-    },
-    {
-      "epoch": 0.9,
-      "eval_bertscore": 0.6985941529273987,
-      "eval_loss": 0.10138168185949326,
-      "eval_rouge1": 0.5142689394504161,
-      "eval_rouge2": 0.29174269779985657,
-      "eval_rougeL": 0.38750085273888524,
-      "eval_rougeLsum": 0.38942879459463353,
-      "eval_runtime": 45.3145,
-      "eval_samples_per_second": 1.192,
-      "eval_steps_per_second": 0.309,
-      "step": 15840
-    },
-    {
-      "epoch": 0.94,
-      "grad_norm": 0.2986052334308624,
-      "learning_rate": 5.283690974893848e-05,
-      "loss": 0.0843,
-      "step": 16560
-    },
-    {
-      "epoch": 0.94,
-      "eval_bertscore": 0.7196215391159058,
-      "eval_loss": 0.09988830983638763,
-      "eval_rouge1": 0.5568270207411694,
-      "eval_rouge2": 0.3344249967035061,
-      "eval_rougeL": 0.42228876150966843,
-      "eval_rougeLsum": 0.4241723819280844,
-      "eval_runtime": 43.9057,
-      "eval_samples_per_second": 1.23,
-      "eval_steps_per_second": 0.319,
-      "step": 16560
-    },
-    {
-      "epoch": 0.98,
-      "grad_norm": 0.42629748582839966,
-      "learning_rate": 5.078510159300106e-05,
-      "loss": 0.0841,
-      "step": 17280
-    },
-    {
-      "epoch": 0.98,
-      "eval_bertscore": 0.7275723814964294,
-      "eval_loss": 0.09897469729185104,
-      "eval_rouge1": 0.5719705231392143,
-      "eval_rouge2": 0.3548031109092683,
-      "eval_rougeL": 0.44224082293068945,
-      "eval_rougeLsum": 0.4454366319399464,
-      "eval_runtime": 44.0423,
-      "eval_samples_per_second": 1.226,
-      "eval_steps_per_second": 0.318,
-      "step": 17280
     }
   ],
   "logging_steps": 720,
@@ -494,7 +174,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 2880,
-  "total_flos": 1.4979027009798144e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.32827994984611875,
   "eval_steps": 720,
+  "global_step": 5760,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.158,
       "eval_steps_per_second": 0.3,
       "step": 5760
     }
   ],
   "logging_steps": 720,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 2880,
+  "total_flos": 4.993009003266048e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null