End of training

Files changed (6) hide show

README.md CHANGED Viewed

@@ -36,7 +36,7 @@ This model was trained with SFT.
 - TRL: 0.18.1
 - Transformers: 4.52.4
-- Pytorch: 2.6.0+cu124
 - Datasets: 3.6.0
 - Tokenizers: 0.21.1

 - TRL: 0.18.1
 - Transformers: 4.52.4
+- Pytorch: 2.7.1+cu118
 - Datasets: 3.6.0
 - Tokenizers: 0.21.1

config.json CHANGED Viewed

@@ -32,7 +32,7 @@
       "max_length": 50
     }
   },
-  "torch_dtype": "float16",
   "transformers_version": "4.52.4",
   "use_cache": true,
   "vocab_size": 50259

       "max_length": 50
     }
   },
+  "torch_dtype": "float32",
   "transformers_version": "4.52.4",
   "use_cache": true,
   "vocab_size": 50259

config.yaml CHANGED Viewed

@@ -2,17 +2,18 @@ model_name_or_path: "openai-community/gpt2-large"
 dataset_name_or_path: "allenai/tulu-3-sft-olmo-2-mixture-0225"
 project_name: "scaling-post-training"
 training_args:
   num_train_epochs: 1
   per_device_train_batch_size: 2
   per_device_eval_batch_size: 2
-  gradient_accumulation_steps: 32
   warmup_ratio: 0.05
   weight_decay: 0.01
   logging_steps: 10
   eval_strategy: "steps"
-  eval_steps: 100
   report_to: "wandb"
-  bf16: true
   learning_rate: 3.0e-5
   lr_scheduler_type: "cosine"
   run_name: "gpt2-large-sft"
@@ -21,5 +22,4 @@ training_args:
   metric_for_best_model: "eval_loss"
   load_best_model_at_end: true
   save_total_limit: 1
-  hub_model_id: "gpt2-large-sft"
-  max_seq_length: 1024

 dataset_name_or_path: "allenai/tulu-3-sft-olmo-2-mixture-0225"
 project_name: "scaling-post-training"
 training_args:
+  seed: 42
   num_train_epochs: 1
   per_device_train_batch_size: 2
   per_device_eval_batch_size: 2
+  gradient_accumulation_steps: 8
   warmup_ratio: 0.05
   weight_decay: 0.01
   logging_steps: 10
   eval_strategy: "steps"
+  eval_steps: 50
   report_to: "wandb"
+  fp16: true
   learning_rate: 3.0e-5
   lr_scheduler_type: "cosine"
   run_name: "gpt2-large-sft"
   metric_for_best_model: "eval_loss"
   load_best_model_at_end: true
   save_total_limit: 1
+  hub_model_id: "gpt2-large-sft"

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d05e964aa4ec887aa6d74feb4886ada1dc46f292f6598e298b3f82001ecafc9
-size 1548110536

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8281c2976ad8d88173ee3987577c57dc5fc09dec9e42ccbc57c0efc0bb64613
+size 3096176168

special_tokens_map.json CHANGED Viewed

@@ -1,34 +1,22 @@
 {
   "additional_special_tokens": [
-    "<|im_start|>",
-    "<|im_end|>"
   ],
-  "bos_token": {
-    "content": "<|im_start|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "eos_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "pad_token": {
-    "content": "<|im_end|>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<|endoftext|>",
-    "lstrip": false,
-    "normalized": true,
-    "rstrip": false,
-    "single_word": false
-  }
 }

 {
   "additional_special_tokens": [
+    {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
   ],
+  "bos_token": "<|im_start|>",
+  "eos_token": "<|im_end|>",
+  "pad_token": "<|im_end|>",
+  "unk_token": "<|endoftext|>"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f789ac2f351e9d6ab0c56301cdc999f1a692da331f32f97078f325930e5323c
-size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:aac7eeffffdb956445972568f726a050e85b19840e295e3e495a4ddbd2ec9d9f
+size 6097