{"per_device_train_batch_size": 8, "per_device_eval_batch_size": 8, "gradient_accumulation_steps": 4, "learning_rate": 0.0005, "num_train_epochs": 8, "max_steps": -1}