{"train/loss": 4.6952, "train/grad_norm": NaN, "train/learning_rate": 1.9999999999999998e-05, "train/epoch": 0.0, "train/global_step": 40, "_timestamp": 1713089723.99176, "_runtime": 523.5366990566254, "_step": 2}