kejian
/

curious-rwr

@@ -36,10 +36,10 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 0.0005
-- train_batch_size: 32
-- eval_batch_size: 16
 - seed: 42
-- gradient_accumulation_steps: 4
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
@@ -60,7 +60,7 @@ The following hyperparameters were used during training:
              'is_split_by_sentences': True,
              'skip_tokens': 1649999872},
  'generation': {'batch_size': 128,
-                'every_n_steps': 256,
                 'force_call_on': [12588],
                 'metrics_configs': [{}, {'n': 1}, {}],
                 'scenario_configs': [{'display_as_html': True,
@@ -88,7 +88,7 @@ The following hyperparameters were used during training:
                                       'prompts_path': 'resources/functions_csnet.jsonl',
                                       'use_prompt_for_scoring': True}],
                 'scorer_config': {}},
- 'kl_gpt3_callback': {'every_n_steps': 256,
                       'force_call_on': [12588],
                       'gpt3_kwargs': {'model_name': 'code-cushman-001'},
                       'max_tokens': 64,
@@ -96,7 +96,8 @@ The following hyperparameters were used during training:
  'model': {'from_scratch': False,
            'gpt2_config_kwargs': {'reorder_and_upcast_attn': True,
                                   'scale_attn_by': True},
-           'model_kwargs': {'revision': 'c38e2b6acf17781918d39a310ee1adc4674a8225'},
            'path_or_name': 'kejian/mighty-rwr'},
  'objective': {'alpha': 1, 'beta': 10, 'name': 'AWR'},
  'tokenizer': {'path_or_name': 'codeparrot/codeparrot-small'},
@@ -122,4 +123,4 @@ The following hyperparameters were used during training:
               'weight_decay': 0.1}}
 # Wandb URL:
-https://wandb.ai/kejian/uncategorized/runs/1wuapzsu

 The following hyperparameters were used during training:
 - learning_rate: 0.0005
+- train_batch_size: 64
+- eval_batch_size: 32
 - seed: 42
+- gradient_accumulation_steps: 2
 - total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
              'is_split_by_sentences': True,
              'skip_tokens': 1649999872},
  'generation': {'batch_size': 128,
+                'every_n_steps': 512,
                 'force_call_on': [12588],
                 'metrics_configs': [{}, {'n': 1}, {}],
                 'scenario_configs': [{'display_as_html': True,
                                       'prompts_path': 'resources/functions_csnet.jsonl',
                                       'use_prompt_for_scoring': True}],
                 'scorer_config': {}},
+ 'kl_gpt3_callback': {'every_n_steps': 512,
                       'force_call_on': [12588],
                       'gpt3_kwargs': {'model_name': 'code-cushman-001'},
                       'max_tokens': 64,
  'model': {'from_scratch': False,
            'gpt2_config_kwargs': {'reorder_and_upcast_attn': True,
                                   'scale_attn_by': True},
+           'model_kwargs': {'revision': 'c38e2b6acf17781918d39a310ee1adc4674a8225',
+                            'value_head_config': {'is_detached': False}},
            'path_or_name': 'kejian/mighty-rwr'},
  'objective': {'alpha': 1, 'beta': 10, 'name': 'AWR'},
  'tokenizer': {'path_or_name': 'codeparrot/codeparrot-small'},
               'weight_decay': 0.1}}
 # Wandb URL:
+https://wandb.ai/kejian/uncategorized/runs/39mf4btg