impossibleexchange
/

poureris

Model card Files Files and versions Community

impossibleexchange commited on Aug 31, 2024

Commit

62351af

·

verified ·

1 Parent(s): f49013a

Update training_config.yml

Files changed (1) hide show

training_config.yml +17 -11

training_config.yml CHANGED Viewed

@@ -22,35 +22,43 @@ checkpointer:
   output_dir: output_checkpoints/experiment_1
   model_type: LLAMA3
 resume_from_checkpoint: false
-interim_checkpoint_steps: 10000
 interim_gen_steps: null
 max_new_tokens: 77
 temperature: 0.6
 top_k: 231
 dataset:
   _component_: ds.EvenBatcher
-  buffer_size: 1
   dataset:
     _component_: ds.RoundRobinDataset
     datasets:
     - _component_: ds.OmegaVideoCaptionDataset
       length: 500000
 seed: null
 shuffle: true
 batch_size: 6
 optimizer:
   _component_: torch.optim.AdamW
-  weight_decay: 0.98765
-  lr: 0.123456
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
-  num_warmup_steps: 25
 loss:
   _component_: torch.nn.CrossEntropyLoss
-epochs: 15
 max_steps_per_epoch: null
-gradient_accumulation_steps: 4
 compile: false
 output_dir: /tmp/lora_finetune_output
 metric_logger:
@@ -65,12 +73,10 @@ profiler:
   enabled: false
 inference:
   prompt_template: 'Video:
     {video}
     Caption the previous video.'
   max_new_tokens: 231
   temperature: 0.8
   top_k: 231
   quantizer: null
-gradient-accumulation-steps: 32

   output_dir: output_checkpoints/experiment_1
   model_type: LLAMA3
 resume_from_checkpoint: false
+interim_checkpoint_steps: 15000
 interim_gen_steps: null
 max_new_tokens: 77
 temperature: 0.6
 top_k: 231
 dataset:
   _component_: ds.EvenBatcher
+  buffer_size: 72
   dataset:
     _component_: ds.RoundRobinDataset
     datasets:
     - _component_: ds.OmegaVideoCaptionDataset
       length: 500000
+    - _component_: ds.LlavaInstructDataset
+      dataset_path: ds/coco_llava_instruct/output.parquet
+      train_on_input: false
+    - _component_: ds.LlavaInstructDataset
+      dataset_path: ds/vision_flan/output.parquet
+      train_on_input: false
+    - _component_: ds.CaptionInstructDataset
+      dataset_path: ds/sam_llava/output.parquet
+      train_on_input: false
 seed: null
 shuffle: true
 batch_size: 6
 optimizer:
   _component_: torch.optim.AdamW
+  weight_decay: 0.99
+  lr: 20.0e-05
 lr_scheduler:
   _component_: torchtune.modules.get_cosine_schedule_with_warmup
+  num_warmup_steps: 4
 loss:
   _component_: torch.nn.CrossEntropyLoss
+epochs: 60
 max_steps_per_epoch: null
+gradient_accumulation_steps: 260
 compile: false
 output_dir: /tmp/lora_finetune_output
 metric_logger:
   enabled: false
 inference:
   prompt_template: 'Video:
     {video}
     Caption the previous video.'
   max_new_tokens: 231
   temperature: 0.8
   top_k: 231
   quantizer: null
+gradient-accumulation-steps: 32