flytech
/

devchat-llama-7b

@@ -32,14 +32,16 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 2
-- eval_batch_size: 2
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 100
 ### Training results

 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 8
+- eval_batch_size: 12
 - seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 2
 ### Training results

events.out.tfevents.1694186175.ef7f542c87ff.437745.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:677b9e8d93d882b360ed4bcf906fcceddaa82de6464b08de3d6069c6ed3066be
-size 2684

 version https://git-lfs.github.com/spec/v1
+oid sha256:288e4a5c34ef363954ba5803511ce204b5d298740e1ee819781060b782c4e96d
+size 3219