younadi's picture
added the jolt dynamics and comparison with heuristics
ff1ceb8
python train.py\
--testing True\
--seed 97\
--data_dir ./demos/ftd_processed\
--n_embd 64\
--n_head 4\
--n_layer 2\
--ff_width 4\
--intermediate_schedules True\
--train_batch_size 64\
--val_batch_size 256\
--nb_epochs 5\
--early_stopping_patience 15\
--dropout 0.0\
--checkpoint_interval_ratio 0.25\
--decay_lr True\
--lr_partitions_ratios 0.66\
--init_lr 1e-4\
--max_lr 1e-3\
--min_lr 5e-5\
--lr_warmup_iters_ratio 0.1\
--lr_decay_iters_ratio 0.95\
--beta1 0.9\
--beta2 0.95\
--weight_decay 1e-1\
--grad_clip 1.0\
--compile ""\
--compile_mode default\
--save_only_last_checkpoint True\
--output_dir "./demos/train_artifacts"\