update model

Browse files

Files changed (9) hide show

generation_config.json +1 -1
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +42 -6
tokenizer_config.json +44 -9
trainer_state.json +207 -0
training_args.bin +3 -0

generation_config.json CHANGED Viewed

@@ -4,5 +4,5 @@
   "eos_token_id": 2,
   "forced_eos_token_id": 2,
   "pad_token_id": 1,
-  "transformers_version": "4.31.0"
 }

   "eos_token_id": 2,
   "forced_eos_token_id": 2,
   "pad_token_id": 1,
+  "transformers_version": "4.46.0.dev0"
 }

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8cfb5bf9aa521336b586ae37eecac31ed7e86327a1be1802d32551472988633
+size 2468961388

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:effe05830fd50a56a6e9872b81d573e07cf6c91261cd48880aca08db611299dd
+size 4936191835

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:517bd588fb9ad506ac1303ef0497609383ce21e9c6ec4f26ce6682deb37888cf
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc00424e1006d8552c992d3bde1acf8d4282909093c4e18a2112a6e6b087b217
+size 1064

special_tokens_map.json CHANGED Viewed

@@ -1,7 +1,25 @@
 {
-  "bos_token": "<s>",
-  "cls_token": "<s>",
-  "eos_token": "</s>",
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
@@ -9,7 +27,25 @@
     "rstrip": false,
     "single_word": false
   },
-  "pad_token": "<pad>",
-  "sep_token": "</s>",
-  "unk_token": "<unk>"
 }

 {
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "mask_token": {
     "content": "<mask>",
     "lstrip": true,
     "rstrip": false,
     "single_word": false
   },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer_config.json CHANGED Viewed

@@ -1,16 +1,51 @@
 {
   "bos_token": "<s>",
-  "clean_up_tokenization_spaces": true,
   "cls_token": "<s>",
   "eos_token": "</s>",
-  "mask_token": {
-    "__type": "AddedToken",
-    "content": "<mask>",
-    "lstrip": true,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  },
   "model_max_length": 512,
   "pad_token": "<pad>",
   "sep_token": "</s>",

 {
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "256001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
   "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
   "cls_token": "<s>",
   "eos_token": "</s>",
+  "mask_token": "<mask>",
   "model_max_length": 512,
   "pad_token": "<pad>",
   "sep_token": "</s>",

trainer_state.json ADDED Viewed

	@@ -0,0 +1,207 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 6480,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.7716049382716049,
+      "grad_norm": 1.0553990602493286,
+      "learning_rate": 1.846913580246914e-05,
+      "loss": 0.9346,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 10.0959,
+      "eval_loss": 0.15309424698352814,
+      "eval_runtime": 7.8759,
+      "eval_samples_per_second": 154.903,
+      "eval_steps_per_second": 2.539,
+      "step": 648
+    },
+    {
+      "epoch": 1.5432098765432098,
+      "grad_norm": 0.7297214269638062,
+      "learning_rate": 1.6925925925925926e-05,
+      "loss": 0.0763,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 10.159,
+      "eval_loss": 0.16104426980018616,
+      "eval_runtime": 7.6405,
+      "eval_samples_per_second": 159.674,
+      "eval_steps_per_second": 2.618,
+      "step": 1296
+    },
+    {
+      "epoch": 2.314814814814815,
+      "grad_norm": 0.44237253069877625,
+      "learning_rate": 1.5382716049382717e-05,
+      "loss": 0.0446,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 10.0426,
+      "eval_loss": 0.17489495873451233,
+      "eval_runtime": 7.8385,
+      "eval_samples_per_second": 155.642,
+      "eval_steps_per_second": 2.552,
+      "step": 1944
+    },
+    {
+      "epoch": 3.0864197530864197,
+      "grad_norm": 0.3801327049732208,
+      "learning_rate": 1.3839506172839507e-05,
+      "loss": 0.0275,
+      "step": 2000
+    },
+    {
+      "epoch": 3.8580246913580245,
+      "grad_norm": 0.29495081305503845,
+      "learning_rate": 1.2296296296296298e-05,
+      "loss": 0.0162,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 10.1139,
+      "eval_loss": 0.1843736320734024,
+      "eval_runtime": 7.7649,
+      "eval_samples_per_second": 157.118,
+      "eval_steps_per_second": 2.576,
+      "step": 2592
+    },
+    {
+      "epoch": 4.62962962962963,
+      "grad_norm": 0.29735738039016724,
+      "learning_rate": 1.0753086419753086e-05,
+      "loss": 0.0106,
+      "step": 3000
+    },
+    {
+      "epoch": 5.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 9.9508,
+      "eval_loss": 0.19341909885406494,
+      "eval_runtime": 7.6995,
+      "eval_samples_per_second": 158.452,
+      "eval_steps_per_second": 2.598,
+      "step": 3240
+    },
+    {
+      "epoch": 5.401234567901234,
+      "grad_norm": 0.07027166336774826,
+      "learning_rate": 9.209876543209877e-06,
+      "loss": 0.0076,
+      "step": 3500
+    },
+    {
+      "epoch": 6.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 9.9377,
+      "eval_loss": 0.20017552375793457,
+      "eval_runtime": 7.6996,
+      "eval_samples_per_second": 158.45,
+      "eval_steps_per_second": 2.598,
+      "step": 3888
+    },
+    {
+      "epoch": 6.172839506172839,
+      "grad_norm": 0.1504916250705719,
+      "learning_rate": 7.666666666666667e-06,
+      "loss": 0.0059,
+      "step": 4000
+    },
+    {
+      "epoch": 6.944444444444445,
+      "grad_norm": 0.24264627695083618,
+      "learning_rate": 6.123456790123458e-06,
+      "loss": 0.0043,
+      "step": 4500
+    },
+    {
+      "epoch": 7.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 10.0279,
+      "eval_loss": 0.20386986434459686,
+      "eval_runtime": 7.7944,
+      "eval_samples_per_second": 156.523,
+      "eval_steps_per_second": 2.566,
+      "step": 4536
+    },
+    {
+      "epoch": 7.716049382716049,
+      "grad_norm": 0.08363181352615356,
+      "learning_rate": 4.580246913580247e-06,
+      "loss": 0.0035,
+      "step": 5000
+    },
+    {
+      "epoch": 8.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 10.1566,
+      "eval_loss": 0.20531675219535828,
+      "eval_runtime": 7.6989,
+      "eval_samples_per_second": 158.465,
+      "eval_steps_per_second": 2.598,
+      "step": 5184
+    },
+    {
+      "epoch": 8.487654320987655,
+      "grad_norm": 0.13225023448467255,
+      "learning_rate": 3.0370370370370372e-06,
+      "loss": 0.0029,
+      "step": 5500
+    },
+    {
+      "epoch": 9.0,
+      "eval_bleu": 0.0,
+      "eval_gen_len": 10.0689,
+      "eval_loss": 0.20702147483825684,
+      "eval_runtime": 7.6619,
+      "eval_samples_per_second": 159.23,
+      "eval_steps_per_second": 2.61,
+      "step": 5832
+    },
+    {
+      "epoch": 9.25925925925926,
+      "grad_norm": 0.022540247067809105,
+      "learning_rate": 1.4938271604938272e-06,
+      "loss": 0.003,
+      "step": 6000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 6480,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.288315707563704e+17,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cac52e28b14106cbb32ed28da554d23ebe13705f9b1a96081743a9266949f0e
+size 5496