{"train/loss": 2.9072, "train/grad_norm": 5.856708526611328, "train/learning_rate": 0.0, "train/epoch": 0.05, "train/global_step": 17000, "_timestamp": 1712634864.438166, "_runtime": 26610.075627803802, "_step": 850, "train/train_runtime": 26611.8721, "train/train_samples_per_second": 2.555, "train/train_steps_per_second": 0.639, "train/total_flos": 4.633591751009894e+16, "train/train_loss": 2.869654561435475}