AswanthCManoj
/

results

PEFT

Safetensors

Generated from Trainer

Model card Files Files and versions Community

AswanthCManoj commited on Jan 15

Commit

a6df6cf

•

1 Parent(s): e18d521

azma-deepseek-coder-1.3b-instruct-structured-output

Browse files

Files changed (2) hide show

README.md +24 -18
adapter_model.safetensors +1 -1

README.md CHANGED Viewed

@@ -17,8 +17,6 @@ should probably proofread and complete it, then remove this comment. -->
 # results
 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-instruct](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-instruct) on the None dataset.
-It achieves the following results on the evaluation set:
-- Loss: 1.1485
 ## Model description
@@ -37,7 +35,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0001
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
@@ -46,28 +44,36 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
-- lr_scheduler_warmup_steps: 50
-- training_steps: 200
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step | Validation Loss |
-|:-------------:|:-----:|:----:|:---------------:|
-| 1.3759        | 0.02  | 25   | 1.3449          |
-| 0.5848        | 0.03  | 50   | 1.2507          |
-| 1.0184        | 0.05  | 75   | 1.1688          |
-| 0.5275        | 0.07  | 100  | 1.1849          |
-| 0.9792        | 0.08  | 125  | 1.1529          |
-| 0.5695        | 0.1   | 150  | 1.1572          |
-| 0.8567        | 0.11  | 175  | 1.1495          |
-| 0.5234        | 0.13  | 200  | 1.1485          |
 ### Framework versions
-- PEFT 0.7.2.dev0
-- Transformers 4.37.0.dev0
 - Pytorch 2.1.0+cu121
 - Datasets 2.16.1
-- Tokenizers 0.15.0

 # results
 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-instruct](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-instruct) on the None dataset.
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0002
 - train_batch_size: 4
 - eval_batch_size: 4
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.03
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 0.5
 - mixed_precision_training: Native AMP
 ### Training results
 ### Framework versions
+- Transformers 4.36.2
 - Pytorch 2.1.0+cu121
 - Datasets 2.16.1
+- Tokenizers 0.15.0
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0478dfa6bba88fcd883af6305b3d233433cfa8b8158038961318fcc6215a0141
 size 409720

 version https://git-lfs.github.com/spec/v1
+oid sha256:79acdcc1b8e57db310c2b04aab07db81dd60615a67b42d7a105b2b40f171d1e8
 size 409720