Model save

Files changed (12) hide show

README.md CHANGED Viewed

@@ -35,14 +35,14 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
-- train_batch_size: 8
-- eval_batch_size: 8
-- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 128
-- total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
@@ -54,7 +54,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.35.2
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
-- Tokenizers 0.14.1

 The following hyperparameters were used during training:
 - learning_rate: 5e-07
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
+- gradient_accumulation_steps: 16
 - total_train_batch_size: 128
+- total_eval_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
 ### Framework versions
+- Transformers 4.41.1
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.29227719434256694,
-    "train_runtime": 2368.6921,
-    "train_samples": 39494,
-    "train_samples_per_second": 16.673,
-    "train_steps_per_second": 0.13
 }

 {
+    "epoch": 0.9998009950248756,
+    "total_flos": 0.0,
+    "train_loss": 0.017644011282071378,
+    "train_runtime": 64691.5343,
+    "train_samples": 160800,
+    "train_samples_per_second": 2.486,
+    "train_steps_per_second": 0.019
 }

config.json CHANGED Viewed

@@ -3,6 +3,7 @@
   "architectures": [
     "MistralForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
@@ -19,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.35.2",
   "use_cache": false,
   "vocab_size": 32000
 }

   "architectures": [
     "MistralForCausalLM"
   ],
+  "attention_dropout": 0.0,
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.41.1",
   "use_cache": false,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.35.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.41.1"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c2ba5f0a961585b40d16135c17eafa4fdf03f5a42f890844186a18b238c4ca6
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:94741663b8c22d9d63dc103e16021d4a795bebc3806bc8a3a28df4389a2a3436
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff12e41f45a36c3f68890ef475dcd6c05be44dedb814cf20a0f21a884a55dbdd
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c7ea3821a24d6f5d661d04d83b9368480e46efa1906566d522b643a56e54714
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af1132bbacd4b520075a385096f1f152b8e4ca6f3f46aec4c5c4824b996b83f0
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3d5ac37fcc5e44bdbcf64441154710502567ad3af48f65a66a7f9644cc8630d
 size 4540516344

tokenizer.json CHANGED Viewed

@@ -134,6 +134,7 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
+    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",

 {
+  "add_bos_token": true,
+  "add_eos_token": false,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",

train_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.29227719434256694,
-    "train_runtime": 2368.6921,
-    "train_samples": 39494,
-    "train_samples_per_second": 16.673,
-    "train_steps_per_second": 0.13
 }

 {
+    "epoch": 0.9998009950248756,
+    "total_flos": 0.0,
+    "train_loss": 0.017644011282071378,
+    "train_runtime": 64691.5343,
+    "train_samples": 160800,
+    "train_samples_per_second": 2.486,
+    "train_steps_per_second": 0.019
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d65697231b98f7e888eecc68068bced2937dd398ec5f61cc77ca94851e4af926
-size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c944456dbc3ebf108bccf6fc2316ab03d0876e88963b264d4065848df494725
+size 6520