Model save

Files changed (12) hide show

README.md CHANGED Viewed

@@ -35,14 +35,14 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-07
-- train_batch_size: 8
-- eval_batch_size: 8
-- seed: 1
 - distributed_type: multi-GPU
 - num_devices: 8
-- gradient_accumulation_steps: 2
 - total_train_batch_size: 128
-- total_eval_batch_size: 64
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
@@ -54,7 +54,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.35.2
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
-- Tokenizers 0.14.1

 The following hyperparameters were used during training:
 - learning_rate: 5e-07
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
 - distributed_type: multi-GPU
 - num_devices: 8
+- gradient_accumulation_steps: 16
 - total_train_batch_size: 128
+- total_eval_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
 ### Framework versions
+- Transformers 4.41.1
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.08378113324027234,
-    "train_runtime": 6993.2008,
-    "train_samples": 113028,
-    "train_samples_per_second": 16.163,
-    "train_steps_per_second": 0.126
 }

 {
+    "epoch": 0.9998009950248756,
+    "total_flos": 0.0,
+    "train_loss": 0.014570614962192004,
+    "train_runtime": 64930.7281,
+    "train_samples": 160800,
+    "train_samples_per_second": 2.476,
+    "train_steps_per_second": 0.019
 }

config.json CHANGED Viewed

@@ -3,6 +3,7 @@
   "architectures": [
     "MistralForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
@@ -19,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.35.2",
   "use_cache": false,
   "vocab_size": 32000
 }

   "architectures": [
     "MistralForCausalLM"
   ],
+  "attention_dropout": 0.0,
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.41.1",
   "use_cache": false,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.35.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.41.1"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:838031801f2ea73eb654ebe606cccf2b4130145bc19d9e2d6b8cdb50a28c1799
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0db91e71386822f409e6ab63788ace1a576450c0f487294f79d59f5c14a22e2
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:69bbc88f6afb4c0deee65ca47310de3fb169db13f56bc45520dc473515a10a77
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:e52446e0acc443b4873312d3c40a4dc8431e8b2dcc3b1596c653510e86e7d557
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c00ea15750965c967d83ce2e53f7dc44baaf4c4177ae897d67b0a221b0910eaa
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:84d2ee9f2f29354cf39c25a5f1bd68aac05d810bf8d0da0a0e6a5f28da90f46b
 size 4540516344

tokenizer.json CHANGED Viewed

@@ -134,6 +134,7 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
+    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",

 {
+  "add_bos_token": true,
+  "add_eos_token": false,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",

train_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.08378113324027234,
-    "train_runtime": 6993.2008,
-    "train_samples": 113028,
-    "train_samples_per_second": 16.163,
-    "train_steps_per_second": 0.126
 }

 {
+    "epoch": 0.9998009950248756,
+    "total_flos": 0.0,
+    "train_loss": 0.014570614962192004,
+    "train_runtime": 64930.7281,
+    "train_samples": 160800,
+    "train_samples_per_second": 2.476,
+    "train_steps_per_second": 0.019
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2c2b38cd03213ddb0147115226a1dd63c7f51797e46fa0c7983c978031310c5
-size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:83255af7dbd2cea8368e0e7405c859e40ac92e8bf2f57a4290284d554cd32666
+size 6520