Upload 8 files

Browse files

Files changed (8) hide show

config.json +4 -2
generation_config.json +1 -1
model.safetensors +3 -0
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +265 -147
training_args.bin +2 -2

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/nllb-200-distilled-600M",
   "activation_dropout": 0.0,
   "activation_function": "relu",
   "architectures": [
@@ -19,8 +19,10 @@
   "encoder_layerdrop": 0,
   "encoder_layers": 12,
   "eos_token_id": 2,
   "init_std": 0.02,
   "is_encoder_decoder": true,
   "max_length": 200,
   "max_position_embeddings": 1024,
   "model_type": "m2m_100",
@@ -29,7 +31,7 @@
   "scale_embedding": true,
   "tokenizer_class": "NllbTokenizer",
   "torch_dtype": "float32",
-  "transformers_version": "4.33.1",
   "use_cache": true,
   "vocab_size": 256206
 }

 {
+  "_name_or_path": "./models/facebook/nllb-200-distilled-600M",
   "activation_dropout": 0.0,
   "activation_function": "relu",
   "architectures": [
   "encoder_layerdrop": 0,
   "encoder_layers": 12,
   "eos_token_id": 2,
+  "id2label": {},
   "init_std": 0.02,
   "is_encoder_decoder": true,
+  "label2id": {},
   "max_length": 200,
   "max_position_embeddings": 1024,
   "model_type": "m2m_100",
   "scale_embedding": true,
   "tokenizer_class": "NllbTokenizer",
   "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
   "use_cache": true,
   "vocab_size": 256206
 }

generation_config.json CHANGED Viewed

@@ -4,5 +4,5 @@
   "eos_token_id": 2,
   "max_length": 200,
   "pad_token_id": 1,
-  "transformers_version": "4.33.1"
 }

   "eos_token_id": 2,
   "max_length": 200,
   "pad_token_id": 1,
+  "transformers_version": "4.35.2"
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbc36bbddb21ad3db45831721e9bff170a067515204655ccbb1916ee83ab6b3e
+size 2460354912

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc0dc7832b72a061bfd12eace3caeaf02fb97f5941e3747397a50d5f590f8180
-size 4921022932

 version https://git-lfs.github.com/spec/v1
+oid sha256:de324c10686035063e89b70b9b577400051ab0c8c333daeb459107912afd8f1c
+size 4921022996

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18024cb89a10c3fe74f4e14c4463c5bc84cd730736c1f4db43e2a571f0f8ba6e
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:3eb202a8db0c6740a779ef7a3a34190b17e26d421eaadfe5f2519e6480d625df
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d8bd97df0539aae0394fc2e4314f21cef5a17ea814a0e642ed64ec769f28c57
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:a01737a678c054e9c843164cdc8b032e6f5dadf1833008bde13bc3bde1d48d31
 size 627

trainer_state.json CHANGED Viewed

@@ -1,243 +1,361 @@
 {
-  "best_metric": 0.28169530630111694,
-  "best_model_checkpoint": "./checkpoint-lo/checkpoint-1500",
-  "epoch": 12.698301245753115,
   "eval_steps": 500,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.91,
-      "learning_rate": 1.8790078644888082e-05,
-      "loss": 4.5919,
       "step": 500
     },
     {
-      "epoch": 0.91,
-      "eval_bleu": 32.6249,
-      "eval_gen_len": 32.6077,
-      "eval_loss": 1.1729092597961426,
-      "eval_runtime": 207.0111,
-      "eval_samples_per_second": 4.889,
-      "eval_steps_per_second": 1.222,
       "step": 500
     },
     {
-      "epoch": 1.81,
-      "learning_rate": 1.7580157289776165e-05,
-      "loss": 0.3216,
       "step": 1000
     },
     {
-      "epoch": 1.81,
-      "eval_bleu": 33.2994,
-      "eval_gen_len": 32.8577,
-      "eval_loss": 0.2831147611141205,
-      "eval_runtime": 231.4494,
-      "eval_samples_per_second": 4.372,
-      "eval_steps_per_second": 1.093,
       "step": 1000
     },
     {
-      "epoch": 2.72,
-      "learning_rate": 1.637023593466425e-05,
-      "loss": 0.1325,
       "step": 1500
     },
     {
-      "epoch": 2.72,
-      "eval_bleu": 33.7596,
-      "eval_gen_len": 32.5978,
-      "eval_loss": 0.28169530630111694,
-      "eval_runtime": 195.7742,
-      "eval_samples_per_second": 5.169,
-      "eval_steps_per_second": 1.292,
       "step": 1500
     },
     {
-      "epoch": 3.63,
-      "learning_rate": 1.516031457955233e-05,
-      "loss": 0.2509,
       "step": 2000
     },
     {
-      "epoch": 3.63,
-      "eval_bleu": 8.1225,
-      "eval_gen_len": 42.5958,
-      "eval_loss": 0.576555609703064,
-      "eval_runtime": 240.5328,
-      "eval_samples_per_second": 4.207,
-      "eval_steps_per_second": 1.052,
       "step": 2000
     },
     {
-      "epoch": 4.53,
-      "learning_rate": 1.3950393224440413e-05,
-      "loss": 0.2255,
       "step": 2500
     },
     {
-      "epoch": 4.53,
-      "eval_bleu": 7.8932,
-      "eval_gen_len": 43.3468,
-      "eval_loss": 0.5630556344985962,
-      "eval_runtime": 238.3063,
-      "eval_samples_per_second": 4.247,
-      "eval_steps_per_second": 1.062,
       "step": 2500
     },
     {
-      "epoch": 5.44,
-      "learning_rate": 1.2740471869328494e-05,
-      "loss": 0.2123,
       "step": 3000
     },
     {
-      "epoch": 5.44,
-      "eval_bleu": 7.8523,
-      "eval_gen_len": 43.2866,
-      "eval_loss": 0.5581173896789551,
-      "eval_runtime": 238.527,
-      "eval_samples_per_second": 4.243,
-      "eval_steps_per_second": 1.061,
       "step": 3000
     },
     {
-      "epoch": 6.35,
-      "learning_rate": 1.1530550514216576e-05,
-      "loss": 0.2061,
       "step": 3500
     },
     {
-      "epoch": 6.35,
-      "eval_bleu": 7.8532,
-      "eval_gen_len": 42.9358,
-      "eval_loss": 0.555178701877594,
-      "eval_runtime": 243.8895,
-      "eval_samples_per_second": 4.149,
-      "eval_steps_per_second": 1.037,
       "step": 3500
     },
     {
-      "epoch": 7.25,
-      "learning_rate": 1.0320629159104658e-05,
-      "loss": 0.2001,
       "step": 4000
     },
     {
-      "epoch": 7.25,
-      "eval_bleu": 7.8643,
-      "eval_gen_len": 43.7075,
-      "eval_loss": 0.5538426637649536,
-      "eval_runtime": 243.9747,
-      "eval_samples_per_second": 4.148,
-      "eval_steps_per_second": 1.037,
       "step": 4000
     },
     {
-      "epoch": 8.16,
-      "learning_rate": 9.110707803992742e-06,
-      "loss": 0.1935,
       "step": 4500
     },
     {
-      "epoch": 8.16,
-      "eval_bleu": 7.884,
-      "eval_gen_len": 43.6126,
-      "eval_loss": 0.5509431958198547,
-      "eval_runtime": 253.7386,
-      "eval_samples_per_second": 3.988,
-      "eval_steps_per_second": 0.997,
       "step": 4500
     },
     {
-      "epoch": 9.07,
-      "learning_rate": 7.900786448880823e-06,
-      "loss": 0.1902,
       "step": 5000
     },
     {
-      "epoch": 9.07,
-      "eval_bleu": 7.8327,
-      "eval_gen_len": 43.2352,
-      "eval_loss": 0.5488432049751282,
-      "eval_runtime": 241.3846,
-      "eval_samples_per_second": 4.192,
-      "eval_steps_per_second": 1.048,
       "step": 5000
     },
     {
-      "epoch": 9.97,
-      "learning_rate": 6.690865093768906e-06,
-      "loss": 0.1867,
       "step": 5500
     },
     {
-      "epoch": 9.97,
-      "eval_bleu": 7.8753,
-      "eval_gen_len": 43.75,
-      "eval_loss": 0.5456582903862,
-      "eval_runtime": 247.5702,
-      "eval_samples_per_second": 4.088,
-      "eval_steps_per_second": 1.022,
       "step": 5500
     },
     {
-      "epoch": 10.89,
-      "learning_rate": 5.480943738656987e-06,
-      "loss": 0.1295,
       "step": 6000
     },
     {
-      "epoch": 10.89,
-      "eval_bleu": 33.7401,
-      "eval_gen_len": 32.753,
-      "eval_loss": 0.2826240658760071,
-      "eval_runtime": 200.2264,
-      "eval_samples_per_second": 5.054,
-      "eval_steps_per_second": 1.264,
       "step": 6000
     },
     {
-      "epoch": 11.79,
-      "learning_rate": 4.27102238354507e-06,
-      "loss": 0.1255,
       "step": 6500
     },
     {
-      "epoch": 11.79,
-      "eval_bleu": 33.767,
-      "eval_gen_len": 32.7213,
-      "eval_loss": 0.2822073698043823,
-      "eval_runtime": 206.8407,
-      "eval_samples_per_second": 4.893,
-      "eval_steps_per_second": 1.223,
       "step": 6500
     },
     {
-      "epoch": 12.7,
-      "learning_rate": 3.061101028433152e-06,
-      "loss": 0.1246,
       "step": 7000
     },
     {
-      "epoch": 12.7,
-      "eval_bleu": 33.7958,
-      "eval_gen_len": 32.7233,
-      "eval_loss": 0.2822967767715454,
-      "eval_runtime": 200.4031,
-      "eval_samples_per_second": 5.05,
-      "eval_steps_per_second": 1.262,
       "step": 7000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 8265,
-  "num_train_epochs": 15,
   "save_steps": 500,
-  "total_flos": 4.85372919048831e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.26939964294433594,
+  "best_model_checkpoint": "./checkpoint/checkpoint-4000",
+  "epoch": 4.790692369111441,
   "eval_steps": 500,
+  "global_step": 10500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0,
+      "learning_rate": 4e-08,
+      "loss": 12.0623,
+      "step": 1
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 1.9960000000000002e-05,
+      "loss": 7.4437,
       "step": 500
     },
     {
+      "epoch": 0.23,
+      "eval_bleu": 33.6574,
+      "eval_gen_len": 31.2317,
+      "eval_loss": 3.4493963718414307,
+      "eval_runtime": 576.3536,
+      "eval_samples_per_second": 1.73,
+      "eval_steps_per_second": 1.73,
       "step": 500
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 1.904543280726925e-05,
+      "loss": 1.3107,
       "step": 1000
     },
     {
+      "epoch": 0.46,
+      "eval_bleu": 33.3513,
+      "eval_gen_len": 31.7091,
+      "eval_loss": 0.2903362810611725,
+      "eval_runtime": 476.1637,
+      "eval_samples_per_second": 2.094,
+      "eval_steps_per_second": 2.094,
       "step": 1000
     },
     {
+      "epoch": 0.68,
+      "learning_rate": 1.8088952654232427e-05,
+      "loss": 0.1582,
       "step": 1500
     },
     {
+      "epoch": 0.68,
+      "eval_bleu": 33.7009,
+      "eval_gen_len": 31.7202,
+      "eval_loss": 0.2747056484222412,
+      "eval_runtime": 477.4288,
+      "eval_samples_per_second": 2.088,
+      "eval_steps_per_second": 2.088,
       "step": 1500
     },
     {
+      "epoch": 0.91,
+      "learning_rate": 1.71324725011956e-05,
+      "loss": 0.1477,
       "step": 2000
     },
     {
+      "epoch": 0.91,
+      "eval_bleu": 34.2274,
+      "eval_gen_len": 31.5557,
+      "eval_loss": 0.2713315188884735,
+      "eval_runtime": 473.8787,
+      "eval_samples_per_second": 2.104,
+      "eval_steps_per_second": 2.104,
       "step": 2000
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 1.617599234815878e-05,
+      "loss": 0.1413,
       "step": 2500
     },
     {
+      "epoch": 1.14,
+      "eval_bleu": 34.0664,
+      "eval_gen_len": 31.674,
+      "eval_loss": 0.2716849446296692,
+      "eval_runtime": 477.2223,
+      "eval_samples_per_second": 2.089,
+      "eval_steps_per_second": 2.089,
       "step": 2500
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 1.5219512195121952e-05,
+      "loss": 0.1355,
       "step": 3000
     },
     {
+      "epoch": 1.37,
+      "eval_bleu": 34.1168,
+      "eval_gen_len": 31.8506,
+      "eval_loss": 0.2718922197818756,
+      "eval_runtime": 479.68,
+      "eval_samples_per_second": 2.078,
+      "eval_steps_per_second": 2.078,
       "step": 3000
     },
     {
+      "epoch": 1.6,
+      "learning_rate": 1.4263032042085128e-05,
+      "loss": 0.136,
       "step": 3500
     },
     {
+      "epoch": 1.6,
+      "eval_bleu": 34.2638,
+      "eval_gen_len": 31.7523,
+      "eval_loss": 0.270623117685318,
+      "eval_runtime": 479.0203,
+      "eval_samples_per_second": 2.081,
+      "eval_steps_per_second": 2.081,
       "step": 3500
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 1.3306551889048302e-05,
+      "loss": 0.1316,
       "step": 4000
     },
     {
+      "epoch": 1.83,
+      "eval_bleu": 34.1582,
+      "eval_gen_len": 31.6931,
+      "eval_loss": 0.26939964294433594,
+      "eval_runtime": 477.4424,
+      "eval_samples_per_second": 2.088,
+      "eval_steps_per_second": 2.088,
       "step": 4000
     },
     {
+      "epoch": 2.05,
+      "learning_rate": 1.235007173601148e-05,
+      "loss": 0.1312,
       "step": 4500
     },
     {
+      "epoch": 2.05,
+      "eval_bleu": 34.4277,
+      "eval_gen_len": 31.662,
+      "eval_loss": 0.2704804539680481,
+      "eval_runtime": 479.1942,
+      "eval_samples_per_second": 2.081,
+      "eval_steps_per_second": 2.081,
       "step": 4500
     },
     {
+      "epoch": 2.28,
+      "learning_rate": 1.1393591582974655e-05,
+      "loss": 0.1258,
       "step": 5000
     },
     {
+      "epoch": 2.28,
+      "eval_bleu": 34.3594,
+      "eval_gen_len": 31.651,
+      "eval_loss": 0.27046987414360046,
+      "eval_runtime": 478.936,
+      "eval_samples_per_second": 2.082,
+      "eval_steps_per_second": 2.082,
       "step": 5000
     },
     {
+      "epoch": 2.51,
+      "learning_rate": 1.043711142993783e-05,
+      "loss": 0.1271,
       "step": 5500
     },
     {
+      "epoch": 2.51,
+      "eval_bleu": 34.3412,
+      "eval_gen_len": 31.8094,
+      "eval_loss": 0.27054643630981445,
+      "eval_runtime": 481.7151,
+      "eval_samples_per_second": 2.07,
+      "eval_steps_per_second": 2.07,
       "step": 5500
     },
     {
+      "epoch": 2.74,
+      "learning_rate": 9.480631276901005e-06,
+      "loss": 0.1249,
       "step": 6000
     },
     {
+      "epoch": 2.74,
+      "eval_bleu": 34.2387,
+      "eval_gen_len": 31.7212,
+      "eval_loss": 0.2704330086708069,
+      "eval_runtime": 479.9945,
+      "eval_samples_per_second": 2.077,
+      "eval_steps_per_second": 2.077,
       "step": 6000
     },
     {
+      "epoch": 2.97,
+      "learning_rate": 8.52415112386418e-06,
+      "loss": 0.1245,
       "step": 6500
     },
     {
+      "epoch": 2.97,
+      "eval_bleu": 34.3033,
+      "eval_gen_len": 31.8616,
+      "eval_loss": 0.27082785964012146,
+      "eval_runtime": 482.2741,
+      "eval_samples_per_second": 2.067,
+      "eval_steps_per_second": 2.067,
       "step": 6500
     },
     {
+      "epoch": 3.19,
+      "learning_rate": 7.5676709708273554e-06,
+      "loss": 0.1195,
       "step": 7000
     },
     {
+      "epoch": 3.19,
+      "eval_bleu": 34.2748,
+      "eval_gen_len": 31.9017,
+      "eval_loss": 0.27176010608673096,
+      "eval_runtime": 484.0841,
+      "eval_samples_per_second": 2.06,
+      "eval_steps_per_second": 2.06,
       "step": 7000
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 6.611190817790531e-06,
+      "loss": 0.1198,
+      "step": 7500
+    },
+    {
+      "epoch": 3.42,
+      "eval_bleu": 34.2897,
+      "eval_gen_len": 31.7312,
+      "eval_loss": 0.27175214886665344,
+      "eval_runtime": 479.5665,
+      "eval_samples_per_second": 2.079,
+      "eval_steps_per_second": 2.079,
+      "step": 7500
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 5.654710664753707e-06,
+      "loss": 0.1209,
+      "step": 8000
+    },
+    {
+      "epoch": 3.65,
+      "eval_bleu": 34.4446,
+      "eval_gen_len": 31.7272,
+      "eval_loss": 0.2709992527961731,
+      "eval_runtime": 478.4748,
+      "eval_samples_per_second": 2.084,
+      "eval_steps_per_second": 2.084,
+      "step": 8000
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 4.6982305117168825e-06,
+      "loss": 0.1201,
+      "step": 8500
+    },
+    {
+      "epoch": 3.88,
+      "eval_bleu": 34.3571,
+      "eval_gen_len": 31.7432,
+      "eval_loss": 0.2712614834308624,
+      "eval_runtime": 478.6295,
+      "eval_samples_per_second": 2.083,
+      "eval_steps_per_second": 2.083,
+      "step": 8500
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 3.7417503586800574e-06,
+      "loss": 0.1201,
+      "step": 9000
+    },
+    {
+      "epoch": 4.11,
+      "eval_bleu": 34.4398,
+      "eval_gen_len": 31.7613,
+      "eval_loss": 0.27223262190818787,
+      "eval_runtime": 478.6225,
+      "eval_samples_per_second": 2.083,
+      "eval_steps_per_second": 2.083,
+      "step": 9000
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 2.785270205643233e-06,
+      "loss": 0.1178,
+      "step": 9500
+    },
+    {
+      "epoch": 4.33,
+      "eval_bleu": 34.4074,
+      "eval_gen_len": 31.7753,
+      "eval_loss": 0.27177131175994873,
+      "eval_runtime": 479.0762,
+      "eval_samples_per_second": 2.081,
+      "eval_steps_per_second": 2.081,
+      "step": 9500
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 1.8287900526064088e-06,
+      "loss": 0.1181,
+      "step": 10000
+    },
+    {
+      "epoch": 4.56,
+      "eval_bleu": 34.4628,
+      "eval_gen_len": 31.8034,
+      "eval_loss": 0.2723881006240845,
+      "eval_runtime": 479.5721,
+      "eval_samples_per_second": 2.079,
+      "eval_steps_per_second": 2.079,
+      "step": 10000
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 8.72309899569584e-07,
+      "loss": 0.1169,
+      "step": 10500
+    },
+    {
+      "epoch": 4.79,
+      "eval_bleu": 34.563,
+      "eval_gen_len": 31.7442,
+      "eval_loss": 0.2720402777194977,
+      "eval_runtime": 478.0313,
+      "eval_samples_per_second": 2.086,
+      "eval_steps_per_second": 2.086,
+      "step": 10500
     }
   ],
   "logging_steps": 500,
+  "max_steps": 10955,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 1.820292017113006e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8dfbd515e9eda14c4f8041c5aebfc0a3a080a820bfc19ea73f21fe2ae0cfb96
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:47575ec633d51ca41dc7576e53b8a49ad285943a3852130adba912f886871277
+size 4219