Training in progress, step 2000, checkpoint

Files changed (6) hide show

checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c730e41d1bcfd71103e30657f95a9ae9efb962bbf6ed9b8cdb87c28a32180be5
 size 14809584

 version https://git-lfs.github.com/spec/v1
+oid sha256:89a4a4ff899412c0f94103da4db2d0d9d066ddc993d2489c0839e5cf8b9ef1ae
 size 14809584

checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c9b433a88b7ca02beb74edc7466bb2246344deea0848280de6b59b972378b69
 size 29680378

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcff9961e9ae31dfc42d7e7d0ae109fcd0acfee2e17a4d3146700d07277d827e
 size 29680378

checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b4e8d85a41d0619fa1f8c5f8c08f47c4a6c437c454f5a187a5bb6975c0754b7
 size 1192

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1351d9c97531aea713a6673605d4148ed6d2b7cf22d3a76ceb37f32de0e8cdf
 size 1192

checkpoint-2000/tokenizer.json CHANGED Viewed

@@ -1,21 +1,7 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 128,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
-  "padding": {
-    "strategy": {
-      "Fixed": 128
-    },
-    "direction": "Right",
-    "pad_to_multiple_of": null,
-    "pad_id": 3,
-    "pad_type_id": 0,
-    "pad_token": "[PAD]"
-  },
   "added_tokens": [
     {
       "id": 0,

 {
   "version": "1.0",
+  "truncation": null,
+  "padding": null,
   "added_tokens": [
     {
       "id": 0,

checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.19154727458953857,
   "best_model_checkpoint": "/Users/frapadovani/Desktop/babyLM_controlled/models_trained/convergence_french/random_sentence_french/checkpoint-2000",
-  "epoch": 0.003616819658138206,
   "eval_steps": 2000,
   "global_step": 2000,
   "is_hyper_param_search": false,
@@ -9,23 +9,23 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.003616819658138206,
-      "grad_norm": 0.14744240045547485,
       "learning_rate": 0.0001,
-      "loss": 0.7697,
       "step": 2000
     },
     {
-      "epoch": 0.003616819658138206,
-      "eval_loss": 0.19154727458953857,
-      "eval_runtime": 91.812,
-      "eval_samples_per_second": 397.933,
-      "eval_steps_per_second": 24.877,
       "step": 2000
     }
   ],
   "logging_steps": 2000,
-  "max_steps": 552972,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2000,

 {
+  "best_metric": 4.0236735343933105,
   "best_model_checkpoint": "/Users/frapadovani/Desktop/babyLM_controlled/models_trained/convergence_french/random_sentence_french/checkpoint-2000",
+  "epoch": 0.059218902673733455,
   "eval_steps": 2000,
   "global_step": 2000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.059218902673733455,
+      "grad_norm": 1.0812722444534302,
       "learning_rate": 0.0001,
+      "loss": 4.7523,
       "step": 2000
     },
     {
+      "epoch": 0.059218902673733455,
+      "eval_loss": 4.0236735343933105,
+      "eval_runtime": 5.173,
+      "eval_samples_per_second": 425.477,
+      "eval_steps_per_second": 26.677,
       "step": 2000
     }
   ],
   "logging_steps": 2000,
+  "max_steps": 33773,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 2000,

checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5e294196a968439ae6368c7b1ef6eb6e2124702ff760349c5ba2ea15623271d
 size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:fce3a8508ad2aa1c0ae1cc54c6fe1747e2312953499cad9c035bc201c305894e
 size 5496