jxm
/

t5-basellama-7bone-million-instructions__emb

Transformers

Safetensors

Inference Endpoints

Model card Files Files and versions Community

jxm commited on Nov 20, 2023

Commit

c41cb5d

•

1 Parent(s): 49a8027

Upload model

Browse files

Files changed (1) hide show

config.json +9 -12

config.json CHANGED Viewed

@@ -1,7 +1,6 @@
 {
   "_frozen": true,
   "_n_gpu": 1,
-  "_name_or_path": "/home/wentingz/research/vec2text/vec2text/saves/llama-align-3/checkpoint-125000",
   "adafactor": false,
   "adam_beta1": 0.9,
   "adam_beta2": 0.999,
@@ -21,7 +20,7 @@
   "corrector_model_from_pretrained": null,
   "data_seed": null,
   "dataloader_drop_last": false,
-  "dataloader_num_workers": 7,
   "dataloader_pin_memory": true,
   "dataset_name": "one_million_instructions",
   "ddp_backend": null,
@@ -85,25 +84,25 @@
   "jit_mode_eval": false,
   "label_names": null,
   "label_smoothing_factor": 0.0,
-  "learning_rate": 0.0003,
   "length_column_name": "length",
   "load_best_model_at_end": true,
   "local_rank": 0,
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
-  "logging_dir": "saves/llama-align-3/runs/Nov16_07-33-02_mosaic-cirrascale-37.reviz.ai2.in",
   "logging_first_step": false,
   "logging_nan_inf_filter": true,
   "logging_steps": 50,
   "logging_strategy": "steps",
-  "lr_scheduler_type": "constant_with_warmup",
   "max_eval_samples": 500,
   "max_grad_norm": 1.0,
   "max_seq_length": 64,
   "max_steps": -1,
   "metric_for_best_model": "one_million_instructions_loss",
-  "mock_embedder": true,
   "model_name_or_path": "t5-base",
   "model_revision": "main",
   "mp_parameters": "",
@@ -113,7 +112,7 @@
   "num_train_epochs": 200.0,
   "optim": "adamw_torch",
   "optim_args": null,
-  "output_dir": "saves/llama-align-3",
   "overwrite_output_dir": false,
   "past_index": -1,
   "per_device_eval_batch_size": 256,
@@ -127,11 +126,9 @@
   "push_to_hub_token": null,
   "ray_scope": "last",
   "remove_unused_columns": false,
-  "report_to": [
-    "wandb"
-  ],
   "resume_from_checkpoint": null,
-  "run_name": "saves/llama-align-3",
   "save_on_each_node": false,
   "save_safetensors": true,
   "save_steps": 500,
@@ -159,7 +156,7 @@
   "use_less_data": -1,
   "use_lora": false,
   "use_mps_device": false,
-  "use_wandb": true,
   "warmup_ratio": 0.0,
   "warmup_steps": 12500,
   "weight_decay": 0.0

 {
   "_frozen": true,
   "_n_gpu": 1,
   "adafactor": false,
   "adam_beta1": 0.9,
   "adam_beta2": 0.999,
   "corrector_model_from_pretrained": null,
   "data_seed": null,
   "dataloader_drop_last": false,
+  "dataloader_num_workers": 0,
   "dataloader_pin_memory": true,
   "dataset_name": "one_million_instructions",
   "ddp_backend": null,
   "jit_mode_eval": false,
   "label_names": null,
   "label_smoothing_factor": 0.0,
+  "learning_rate": 0.0002,
   "length_column_name": "length",
   "load_best_model_at_end": true,
   "local_rank": 0,
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
+  "logging_dir": "saves/llama-align-4/runs/Nov17_12-43-44_mosaic-cirrascale-37.reviz.ai2.in",
   "logging_first_step": false,
   "logging_nan_inf_filter": true,
   "logging_steps": 50,
   "logging_strategy": "steps",
+  "lr_scheduler_type": "linear",
   "max_eval_samples": 500,
   "max_grad_norm": 1.0,
   "max_seq_length": 64,
   "max_steps": -1,
   "metric_for_best_model": "one_million_instructions_loss",
+  "mock_embedder": false,
   "model_name_or_path": "t5-base",
   "model_revision": "main",
   "mp_parameters": "",
   "num_train_epochs": 200.0,
   "optim": "adamw_torch",
   "optim_args": null,
+  "output_dir": "saves/llama-align-4",
   "overwrite_output_dir": false,
   "past_index": -1,
   "per_device_eval_batch_size": 256,
   "push_to_hub_token": null,
   "ray_scope": "last",
   "remove_unused_columns": false,
+  "report_to": [],
   "resume_from_checkpoint": null,
+  "run_name": "saves/llama-align-4",
   "save_on_each_node": false,
   "save_safetensors": true,
   "save_steps": 500,
   "use_less_data": -1,
   "use_lora": false,
   "use_mps_device": false,
+  "use_wandb": false,
   "warmup_ratio": 0.0,
   "warmup_steps": 12500,
   "weight_decay": 0.0