ahmedheakl
/

asm2asm-qwen2.5coder-0.5b-100k-2ep-tokenizer

@@ -36,12 +36,12 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0002
-- train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 8
-- total_train_batch_size: 16
-- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - num_epochs: 2
@@ -51,7 +51,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.44.2
 - Pytorch 2.4.1+cu118
-- Datasets 3.0.0
-- Tokenizers 0.19.1

 The following hyperparameters were used during training:
 - learning_rate: 0.0002
+- train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
 - gradient_accumulation_steps: 8
+- total_train_batch_size: 8
+- optimizer: Use paged_adamw_32bit with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
 - num_epochs: 2
 ### Framework versions
+- Transformers 4.46.0
 - Pytorch 2.4.1+cu118
+- Datasets 3.0.1
+- Tokenizers 0.20.1

generation_config.json CHANGED Viewed

@@ -10,5 +10,5 @@
   "temperature": 0.7,
   "top_k": 20,
   "top_p": 0.8,
-  "transformers_version": "4.44.2"
 }

   "temperature": 0.7,
   "top_k": 20,
   "top_p": 0.8,
+  "transformers_version": "4.46.0"
 }