{"train/loss": 3.5326, "train/grad_norm": 3.3439154624938965, "train/learning_rate": 0.0, "train/epoch": 0.0, "train/global_step": 20, "_timestamp": 1712797418.7374408, "_runtime": 154.75297474861145, "_step": 1, "train_runtime": 169.16, "train_samples_per_second": 1.892, "train_steps_per_second": 0.118, "total_flos": 301651923975168.0, "train_loss": 3.5326202392578123}