| { |
| "best_metric": 0.38298845291137695, |
| "best_model_checkpoint": "outputs/checkpoint-512", |
| "epoch": 3.002932551319648, |
| "eval_steps": 32, |
| "global_step": 512, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.05, |
| "grad_norm": 0.08740234375, |
| "learning_rate": 0.000125, |
| "loss": 1.2568, |
| "step": 8 |
| }, |
| { |
| "epoch": 0.09, |
| "grad_norm": 0.09375, |
| "learning_rate": 0.00025, |
| "loss": 1.1087, |
| "step": 16 |
| }, |
| { |
| "epoch": 0.14, |
| "grad_norm": 0.08251953125, |
| "learning_rate": 0.000375, |
| "loss": 0.8374, |
| "step": 24 |
| }, |
| { |
| "epoch": 0.19, |
| "grad_norm": 0.076171875, |
| "learning_rate": 0.0005, |
| "loss": 0.7087, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.19, |
| "eval_loss": 0.582936704158783, |
| "eval_runtime": 2.9206, |
| "eval_samples_per_second": 16.435, |
| "eval_steps_per_second": 2.054, |
| "step": 32 |
| }, |
| { |
| "epoch": 0.23, |
| "grad_norm": 0.07470703125, |
| "learning_rate": 0.0004916666666666666, |
| "loss": 0.6099, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.28, |
| "grad_norm": 0.0751953125, |
| "learning_rate": 0.00048333333333333334, |
| "loss": 0.5956, |
| "step": 48 |
| }, |
| { |
| "epoch": 0.33, |
| "grad_norm": 0.06982421875, |
| "learning_rate": 0.000475, |
| "loss": 0.5691, |
| "step": 56 |
| }, |
| { |
| "epoch": 0.38, |
| "grad_norm": 0.09375, |
| "learning_rate": 0.00046666666666666666, |
| "loss": 0.5675, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.38, |
| "eval_loss": 0.47926369309425354, |
| "eval_runtime": 2.1968, |
| "eval_samples_per_second": 21.85, |
| "eval_steps_per_second": 2.731, |
| "step": 64 |
| }, |
| { |
| "epoch": 0.42, |
| "grad_norm": 0.058349609375, |
| "learning_rate": 0.0004583333333333333, |
| "loss": 0.5528, |
| "step": 72 |
| }, |
| { |
| "epoch": 0.47, |
| "grad_norm": 0.0595703125, |
| "learning_rate": 0.00045000000000000004, |
| "loss": 0.535, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.52, |
| "grad_norm": 0.056396484375, |
| "learning_rate": 0.00044166666666666665, |
| "loss": 0.5055, |
| "step": 88 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 0.05224609375, |
| "learning_rate": 0.00043333333333333337, |
| "loss": 0.5163, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.56, |
| "eval_loss": 0.44680991768836975, |
| "eval_runtime": 2.197, |
| "eval_samples_per_second": 21.848, |
| "eval_steps_per_second": 2.731, |
| "step": 96 |
| }, |
| { |
| "epoch": 0.61, |
| "grad_norm": 0.048828125, |
| "learning_rate": 0.000425, |
| "loss": 0.513, |
| "step": 104 |
| }, |
| { |
| "epoch": 0.66, |
| "grad_norm": 0.053955078125, |
| "learning_rate": 0.0004166666666666667, |
| "loss": 0.4927, |
| "step": 112 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 0.056396484375, |
| "learning_rate": 0.00040833333333333336, |
| "loss": 0.5163, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.75, |
| "grad_norm": 0.047607421875, |
| "learning_rate": 0.0004, |
| "loss": 0.4923, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.75, |
| "eval_loss": 0.4288952052593231, |
| "eval_runtime": 2.2003, |
| "eval_samples_per_second": 21.815, |
| "eval_steps_per_second": 2.727, |
| "step": 128 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.05078125, |
| "learning_rate": 0.0003916666666666667, |
| "loss": 0.484, |
| "step": 136 |
| }, |
| { |
| "epoch": 0.84, |
| "grad_norm": 0.052001953125, |
| "learning_rate": 0.00038333333333333334, |
| "loss": 0.4698, |
| "step": 144 |
| }, |
| { |
| "epoch": 0.89, |
| "grad_norm": 0.057861328125, |
| "learning_rate": 0.000375, |
| "loss": 0.4682, |
| "step": 152 |
| }, |
| { |
| "epoch": 0.94, |
| "grad_norm": 0.0517578125, |
| "learning_rate": 0.00036666666666666667, |
| "loss": 0.4661, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.94, |
| "eval_loss": 0.4169415235519409, |
| "eval_runtime": 2.1996, |
| "eval_samples_per_second": 21.822, |
| "eval_steps_per_second": 2.728, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.99, |
| "grad_norm": 0.050048828125, |
| "learning_rate": 0.00035833333333333333, |
| "loss": 0.4717, |
| "step": 168 |
| }, |
| { |
| "epoch": 1.03, |
| "grad_norm": 0.059326171875, |
| "learning_rate": 0.00035, |
| "loss": 0.4706, |
| "step": 176 |
| }, |
| { |
| "epoch": 1.08, |
| "grad_norm": 0.05224609375, |
| "learning_rate": 0.00034166666666666666, |
| "loss": 0.4541, |
| "step": 184 |
| }, |
| { |
| "epoch": 1.13, |
| "grad_norm": 0.055908203125, |
| "learning_rate": 0.0003333333333333333, |
| "loss": 0.4428, |
| "step": 192 |
| }, |
| { |
| "epoch": 1.13, |
| "eval_loss": 0.4122503697872162, |
| "eval_runtime": 2.1981, |
| "eval_samples_per_second": 21.837, |
| "eval_steps_per_second": 2.73, |
| "step": 192 |
| }, |
| { |
| "epoch": 1.17, |
| "grad_norm": 0.0576171875, |
| "learning_rate": 0.00032500000000000004, |
| "loss": 0.4415, |
| "step": 200 |
| }, |
| { |
| "epoch": 1.22, |
| "grad_norm": 0.0625, |
| "learning_rate": 0.00031666666666666665, |
| "loss": 0.4701, |
| "step": 208 |
| }, |
| { |
| "epoch": 1.27, |
| "grad_norm": 0.0546875, |
| "learning_rate": 0.00030833333333333337, |
| "loss": 0.4445, |
| "step": 216 |
| }, |
| { |
| "epoch": 1.31, |
| "grad_norm": 0.060302734375, |
| "learning_rate": 0.0003, |
| "loss": 0.4311, |
| "step": 224 |
| }, |
| { |
| "epoch": 1.31, |
| "eval_loss": 0.4041053056716919, |
| "eval_runtime": 2.1997, |
| "eval_samples_per_second": 21.821, |
| "eval_steps_per_second": 2.728, |
| "step": 224 |
| }, |
| { |
| "epoch": 1.36, |
| "grad_norm": 0.0556640625, |
| "learning_rate": 0.0002916666666666667, |
| "loss": 0.4614, |
| "step": 232 |
| }, |
| { |
| "epoch": 1.41, |
| "grad_norm": 0.05859375, |
| "learning_rate": 0.00028333333333333335, |
| "loss": 0.4434, |
| "step": 240 |
| }, |
| { |
| "epoch": 1.45, |
| "grad_norm": 0.062255859375, |
| "learning_rate": 0.000275, |
| "loss": 0.427, |
| "step": 248 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 0.059814453125, |
| "learning_rate": 0.0002666666666666667, |
| "loss": 0.4554, |
| "step": 256 |
| }, |
| { |
| "epoch": 1.5, |
| "eval_loss": 0.3991839587688446, |
| "eval_runtime": 2.2002, |
| "eval_samples_per_second": 21.816, |
| "eval_steps_per_second": 2.727, |
| "step": 256 |
| }, |
| { |
| "epoch": 1.55, |
| "grad_norm": 0.05224609375, |
| "learning_rate": 0.00025833333333333334, |
| "loss": 0.4375, |
| "step": 264 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 0.059814453125, |
| "learning_rate": 0.00025, |
| "loss": 0.4379, |
| "step": 272 |
| }, |
| { |
| "epoch": 1.64, |
| "grad_norm": 0.057861328125, |
| "learning_rate": 0.00024166666666666667, |
| "loss": 0.4335, |
| "step": 280 |
| }, |
| { |
| "epoch": 1.69, |
| "grad_norm": 0.056396484375, |
| "learning_rate": 0.00023333333333333333, |
| "loss": 0.4451, |
| "step": 288 |
| }, |
| { |
| "epoch": 1.69, |
| "eval_loss": 0.3925025165081024, |
| "eval_runtime": 2.2103, |
| "eval_samples_per_second": 21.716, |
| "eval_steps_per_second": 2.715, |
| "step": 288 |
| }, |
| { |
| "epoch": 1.74, |
| "grad_norm": 0.050537109375, |
| "learning_rate": 0.00022500000000000002, |
| "loss": 0.4681, |
| "step": 296 |
| }, |
| { |
| "epoch": 1.78, |
| "grad_norm": 0.06494140625, |
| "learning_rate": 0.00021666666666666668, |
| "loss": 0.4313, |
| "step": 304 |
| }, |
| { |
| "epoch": 1.83, |
| "grad_norm": 0.05224609375, |
| "learning_rate": 0.00020833333333333335, |
| "loss": 0.4539, |
| "step": 312 |
| }, |
| { |
| "epoch": 1.88, |
| "grad_norm": 0.0634765625, |
| "learning_rate": 0.0002, |
| "loss": 0.4364, |
| "step": 320 |
| }, |
| { |
| "epoch": 1.88, |
| "eval_loss": 0.3885883390903473, |
| "eval_runtime": 2.2015, |
| "eval_samples_per_second": 21.804, |
| "eval_steps_per_second": 2.725, |
| "step": 320 |
| }, |
| { |
| "epoch": 1.92, |
| "grad_norm": 0.049560546875, |
| "learning_rate": 0.00019166666666666667, |
| "loss": 0.4425, |
| "step": 328 |
| }, |
| { |
| "epoch": 1.97, |
| "grad_norm": 0.0625, |
| "learning_rate": 0.00018333333333333334, |
| "loss": 0.4327, |
| "step": 336 |
| }, |
| { |
| "epoch": 2.02, |
| "grad_norm": 0.052978515625, |
| "learning_rate": 0.000175, |
| "loss": 0.4296, |
| "step": 344 |
| }, |
| { |
| "epoch": 2.06, |
| "grad_norm": 0.0625, |
| "learning_rate": 0.00016666666666666666, |
| "loss": 0.417, |
| "step": 352 |
| }, |
| { |
| "epoch": 2.06, |
| "eval_loss": 0.3900233209133148, |
| "eval_runtime": 2.2074, |
| "eval_samples_per_second": 21.745, |
| "eval_steps_per_second": 2.718, |
| "step": 352 |
| }, |
| { |
| "epoch": 2.11, |
| "grad_norm": 0.05615234375, |
| "learning_rate": 0.00015833333333333332, |
| "loss": 0.3998, |
| "step": 360 |
| }, |
| { |
| "epoch": 2.16, |
| "grad_norm": 0.0576171875, |
| "learning_rate": 0.00015, |
| "loss": 0.4019, |
| "step": 368 |
| }, |
| { |
| "epoch": 2.21, |
| "grad_norm": 0.054443359375, |
| "learning_rate": 0.00014166666666666668, |
| "loss": 0.4096, |
| "step": 376 |
| }, |
| { |
| "epoch": 2.25, |
| "grad_norm": 0.0673828125, |
| "learning_rate": 0.00013333333333333334, |
| "loss": 0.4349, |
| "step": 384 |
| }, |
| { |
| "epoch": 2.25, |
| "eval_loss": 0.38732287287712097, |
| "eval_runtime": 2.1995, |
| "eval_samples_per_second": 21.823, |
| "eval_steps_per_second": 2.728, |
| "step": 384 |
| }, |
| { |
| "epoch": 2.3, |
| "grad_norm": 0.06201171875, |
| "learning_rate": 0.000125, |
| "loss": 0.4235, |
| "step": 392 |
| }, |
| { |
| "epoch": 2.35, |
| "grad_norm": 0.0625, |
| "learning_rate": 0.00011666666666666667, |
| "loss": 0.4056, |
| "step": 400 |
| }, |
| { |
| "epoch": 2.39, |
| "grad_norm": 0.06396484375, |
| "learning_rate": 0.00010833333333333334, |
| "loss": 0.4116, |
| "step": 408 |
| }, |
| { |
| "epoch": 2.44, |
| "grad_norm": 0.0634765625, |
| "learning_rate": 0.0001, |
| "loss": 0.416, |
| "step": 416 |
| }, |
| { |
| "epoch": 2.44, |
| "eval_loss": 0.3866064250469208, |
| "eval_runtime": 2.2006, |
| "eval_samples_per_second": 21.812, |
| "eval_steps_per_second": 2.727, |
| "step": 416 |
| }, |
| { |
| "epoch": 2.49, |
| "grad_norm": 0.06787109375, |
| "learning_rate": 9.166666666666667e-05, |
| "loss": 0.4214, |
| "step": 424 |
| }, |
| { |
| "epoch": 2.53, |
| "grad_norm": 0.060791015625, |
| "learning_rate": 8.333333333333333e-05, |
| "loss": 0.386, |
| "step": 432 |
| }, |
| { |
| "epoch": 2.58, |
| "grad_norm": 0.062255859375, |
| "learning_rate": 7.5e-05, |
| "loss": 0.3994, |
| "step": 440 |
| }, |
| { |
| "epoch": 2.63, |
| "grad_norm": 0.06103515625, |
| "learning_rate": 6.666666666666667e-05, |
| "loss": 0.4169, |
| "step": 448 |
| }, |
| { |
| "epoch": 2.63, |
| "eval_loss": 0.38443723320961, |
| "eval_runtime": 2.2022, |
| "eval_samples_per_second": 21.796, |
| "eval_steps_per_second": 2.725, |
| "step": 448 |
| }, |
| { |
| "epoch": 2.67, |
| "grad_norm": 0.0654296875, |
| "learning_rate": 5.833333333333333e-05, |
| "loss": 0.392, |
| "step": 456 |
| }, |
| { |
| "epoch": 2.72, |
| "grad_norm": 0.064453125, |
| "learning_rate": 5e-05, |
| "loss": 0.4002, |
| "step": 464 |
| }, |
| { |
| "epoch": 2.77, |
| "grad_norm": 0.0615234375, |
| "learning_rate": 4.1666666666666665e-05, |
| "loss": 0.4362, |
| "step": 472 |
| }, |
| { |
| "epoch": 2.82, |
| "grad_norm": 0.061279296875, |
| "learning_rate": 3.3333333333333335e-05, |
| "loss": 0.3852, |
| "step": 480 |
| }, |
| { |
| "epoch": 2.82, |
| "eval_loss": 0.38356801867485046, |
| "eval_runtime": 2.2009, |
| "eval_samples_per_second": 21.809, |
| "eval_steps_per_second": 2.726, |
| "step": 480 |
| }, |
| { |
| "epoch": 2.86, |
| "grad_norm": 0.06201171875, |
| "learning_rate": 2.5e-05, |
| "loss": 0.3989, |
| "step": 488 |
| }, |
| { |
| "epoch": 2.91, |
| "grad_norm": 0.0634765625, |
| "learning_rate": 1.6666666666666667e-05, |
| "loss": 0.4017, |
| "step": 496 |
| }, |
| { |
| "epoch": 2.96, |
| "grad_norm": 0.0634765625, |
| "learning_rate": 8.333333333333334e-06, |
| "loss": 0.4178, |
| "step": 504 |
| }, |
| { |
| "epoch": 3.0, |
| "grad_norm": 0.058837890625, |
| "learning_rate": 0.0, |
| "loss": 0.3916, |
| "step": 512 |
| }, |
| { |
| "epoch": 3.0, |
| "eval_loss": 0.38298845291137695, |
| "eval_runtime": 2.1989, |
| "eval_samples_per_second": 21.829, |
| "eval_steps_per_second": 2.729, |
| "step": 512 |
| }, |
| { |
| "epoch": 3.0, |
| "step": 512, |
| "total_flos": 1.005493534658642e+17, |
| "train_loss": 0.4858610653318465, |
| "train_runtime": 1143.2565, |
| "train_samples_per_second": 7.165, |
| "train_steps_per_second": 0.448 |
| } |
| ], |
| "logging_steps": 8, |
| "max_steps": 512, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 4, |
| "save_steps": 32, |
| "total_flos": 1.005493534658642e+17, |
| "train_batch_size": 4, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|