tomekkorbak/kfkopwjrtnbd

This model was trained from scratch on the kejian/codeparrot-train-more-filter-3.3b-cleaned dataset.

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 0.1
train_batch_size: 16
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 64
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.01
training_steps: 50354
mixed_precision_training: Native AMP

Framework versions

Transformers 4.20.1
Pytorch 1.11.0+cu113
Datasets 2.5.1
Tokenizers 0.11.6

Full config

{'dataset': {'conditional_training_config': {'aligned_prefix': '<|aligned|>', 'misaligned_prefix': '<|misaligned|>', 'threshold': 0}, 'datasets': ['kejian/codeparrot-train-more-filter-3.3b-cleaned'], 'is_split_by_sentences': True}, 'generation': {'batch_size': 32, 'metrics_configs': [{}, {}], 'scenario_configs': [{'generate_kwargs': {'bad_words_ids': [[32768], [32769]], 'do_sample': True, 'eos_token_id': 0, 'max_new_tokens': 1012, 'min_length': 10, 'temperature': 0.7, 'top_k': 0, 'top_p': 0.9}, 'name': 'unconditional', 'num_samples': 32, 'prefix': '<|aligned|>'}, {'generate_kwargs': {'bad_words_ids': [[32768], [32769]], 'do_sample': True, 'eos_token_id': 0, 'max_new_tokens': 192, 'min_length': 10, 'temperature': 0.7, 'top_k': 0, 'top_p': 0.9}, 'name': 'functions_csnet_before', 'num_samples': 32, 'prefix': '<|aligned|>', 'prompt_before_control': True, 'prompts_path': 'resources/functions_csnet.jsonl', 'use_prompt_for_scoring': True}, {'generate_kwargs': {'bad_words_ids': [[32768], [32769]], 'do_sample': True, 'eos_token_id': 0, 'max_new_tokens': 192, 'min_length': 10, 'temperature': 0.7, 'top_k': 0, 'top_p': 0.9}, 'name': 'functions_csnet_after', 'num_samples': 32, 'prefix': '<|aligned|>', 'prompt_before_control': False, 'prompts_path': 'resources/functions_csnet.jsonl', 'use_prompt_for_scoring': True}], 'scorer_config': {}}, 'model': {'from_scratch': True, 'gpt2_config_kwargs': {'reorder_and_upcast_attn': True, 'scale_attn_by': True}, 'num_additional_tokens': 2, 'path_or_name': 'codeparrot/codeparrot-small'}, 'objective': {'name': 'MLE'}, 'tokenizer': {'path_or_name': 'codeparrot/codeparrot-small', 'special_tokens': ['<|aligned|>', '<|misaligned|>']}, 'training': {'dataloader_num_workers': 0, 'effective_batch_size': 64, 'evaluation_strategy': 'no', 'fp16': True, 'hub_model_id': 'tomekkorbak/kfkopwjrtnbd', 'hub_strategy': 'all_checkpoints', 'learning_rate': 0.1, 'logging_first_step': True, 'logging_steps': 1, 'num_tokens': 3300000000.0, 'output_dir': 'training_output4', 'per_device_train_batch_size': 16, 'push_to_hub': True, 'remove_unused_columns': False, 'save_steps': 5000, 'save_strategy': 'steps', 'seed': 42, 'warmup_ratio': 0.01, 'weight_decay': 0.1}}

Wandb URL:

https://wandb.ai/tomekkorbak/apo/runs/1vqvmq8u

tomekkorbak
/

kfkopwjrtnbd

tomekkorbak/kfkopwjrtnbd

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Framework versions

Full config

Wandb URL:

Dataset used to train tomekkorbak/kfkopwjrtnbd

Evaluation results