irodkin
/

run_21

Safetensors

armt

custom_code

Model card Files Files and versions

xet

Community

irodkin commited on Nov 11, 2025

Commit

a03ccaa

verified ·

1 Parent(s): 0f0a241

Training checkpoint at step 15000

Browse files

Files changed (1) hide show

trainer_state.json +366 -6

trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 13900,
-  "best_metric": 2.3990118503570557,
-  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-13000",
-  "epoch": 0.28,
   "eval_steps": 100,
-  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5048,6 +5048,366 @@
       "eval_samples_per_second": 3.222,
       "eval_steps_per_second": 1.611,
       "step": 14000
     }
   ],
   "logging_steps": 25,
@@ -5067,7 +5427,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.456483217658085e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 15000,
+  "best_metric": 2.397136688232422,
+  "best_model_checkpoint": "../runs/karpathy/fineweb-edu-100b-shuffle/meta-llama/Llama-3.2-1B/linear_adamw_wd1e-03_8x1024_mem32_bs64_hf_armt_dmem64/run_21/checkpoint-15000",
+  "epoch": 0.3,
   "eval_steps": 100,
+  "global_step": 15000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.222,
       "eval_steps_per_second": 1.611,
       "step": 14000
+    },
+    {
+      "epoch": 0.2805,
+      "grad_norm": 0.5680524398621669,
+      "learning_rate": 7.994666666666666e-06,
+      "loss": 2.382,
+      "step": 14025
+    },
+    {
+      "epoch": 0.281,
+      "grad_norm": 0.5577808062612865,
+      "learning_rate": 7.989111111111112e-06,
+      "loss": 2.3817,
+      "step": 14050
+    },
+    {
+      "epoch": 0.2815,
+      "grad_norm": 0.5609272583996402,
+      "learning_rate": 7.983555555555557e-06,
+      "loss": 2.3807,
+      "step": 14075
+    },
+    {
+      "epoch": 0.282,
+      "grad_norm": 0.5572862450140419,
+      "learning_rate": 7.978e-06,
+      "loss": 2.3883,
+      "step": 14100
+    },
+    {
+      "epoch": 0.282,
+      "eval_loss": 2.399045467376709,
+      "eval_runtime": 31.4262,
+      "eval_samples_per_second": 3.246,
+      "eval_steps_per_second": 1.623,
+      "step": 14100
+    },
+    {
+      "epoch": 0.2825,
+      "grad_norm": 0.5548825232758766,
+      "learning_rate": 7.972444444444444e-06,
+      "loss": 2.3906,
+      "step": 14125
+    },
+    {
+      "epoch": 0.283,
+      "grad_norm": 0.5699464235282781,
+      "learning_rate": 7.96688888888889e-06,
+      "loss": 2.3985,
+      "step": 14150
+    },
+    {
+      "epoch": 0.2835,
+      "grad_norm": 0.5949860745449153,
+      "learning_rate": 7.961333333333335e-06,
+      "loss": 2.384,
+      "step": 14175
+    },
+    {
+      "epoch": 0.284,
+      "grad_norm": 1.207767068552352,
+      "learning_rate": 7.955777777777778e-06,
+      "loss": 2.3897,
+      "step": 14200
+    },
+    {
+      "epoch": 0.284,
+      "eval_loss": 2.3988163471221924,
+      "eval_runtime": 31.5331,
+      "eval_samples_per_second": 3.235,
+      "eval_steps_per_second": 1.617,
+      "step": 14200
+    },
+    {
+      "epoch": 0.2845,
+      "grad_norm": 0.5734778733619218,
+      "learning_rate": 7.950222222222222e-06,
+      "loss": 2.3995,
+      "step": 14225
+    },
+    {
+      "epoch": 0.285,
+      "grad_norm": 0.5809053174835214,
+      "learning_rate": 7.944666666666667e-06,
+      "loss": 2.3935,
+      "step": 14250
+    },
+    {
+      "epoch": 0.2855,
+      "grad_norm": 0.5721177604701749,
+      "learning_rate": 7.939111111111112e-06,
+      "loss": 2.3831,
+      "step": 14275
+    },
+    {
+      "epoch": 0.286,
+      "grad_norm": 0.5870187369085319,
+      "learning_rate": 7.933555555555556e-06,
+      "loss": 2.3876,
+      "step": 14300
+    },
+    {
+      "epoch": 0.286,
+      "eval_loss": 2.3985910415649414,
+      "eval_runtime": 31.8276,
+      "eval_samples_per_second": 3.205,
+      "eval_steps_per_second": 1.602,
+      "step": 14300
+    },
+    {
+      "epoch": 0.2865,
+      "grad_norm": 0.5540420732959112,
+      "learning_rate": 7.928e-06,
+      "loss": 2.3894,
+      "step": 14325
+    },
+    {
+      "epoch": 0.287,
+      "grad_norm": 0.5771375830109964,
+      "learning_rate": 7.922444444444445e-06,
+      "loss": 2.3919,
+      "step": 14350
+    },
+    {
+      "epoch": 0.2875,
+      "grad_norm": 0.558274829145414,
+      "learning_rate": 7.91688888888889e-06,
+      "loss": 2.3792,
+      "step": 14375
+    },
+    {
+      "epoch": 0.288,
+      "grad_norm": 0.5489382411994304,
+      "learning_rate": 7.911333333333333e-06,
+      "loss": 2.382,
+      "step": 14400
+    },
+    {
+      "epoch": 0.288,
+      "eval_loss": 2.398547887802124,
+      "eval_runtime": 31.7859,
+      "eval_samples_per_second": 3.209,
+      "eval_steps_per_second": 1.604,
+      "step": 14400
+    },
+    {
+      "epoch": 0.2885,
+      "grad_norm": 0.5437020470565486,
+      "learning_rate": 7.905777777777779e-06,
+      "loss": 2.391,
+      "step": 14425
+    },
+    {
+      "epoch": 0.289,
+      "grad_norm": 0.5822012645571201,
+      "learning_rate": 7.900222222222222e-06,
+      "loss": 2.3774,
+      "step": 14450
+    },
+    {
+      "epoch": 0.2895,
+      "grad_norm": 0.5662409547337693,
+      "learning_rate": 7.894666666666667e-06,
+      "loss": 2.3754,
+      "step": 14475
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.574336415517884,
+      "learning_rate": 7.889111111111113e-06,
+      "loss": 2.3696,
+      "step": 14500
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 2.3984858989715576,
+      "eval_runtime": 31.7473,
+      "eval_samples_per_second": 3.213,
+      "eval_steps_per_second": 1.606,
+      "step": 14500
+    },
+    {
+      "epoch": 0.2905,
+      "grad_norm": 0.5564392509678192,
+      "learning_rate": 7.883555555555556e-06,
+      "loss": 2.3856,
+      "step": 14525
+    },
+    {
+      "epoch": 0.291,
+      "grad_norm": 0.5518394045498354,
+      "learning_rate": 7.878e-06,
+      "loss": 2.3972,
+      "step": 14550
+    },
+    {
+      "epoch": 0.2915,
+      "grad_norm": 0.5795808696759357,
+      "learning_rate": 7.872444444444445e-06,
+      "loss": 2.3831,
+      "step": 14575
+    },
+    {
+      "epoch": 0.292,
+      "grad_norm": 0.5601055983017486,
+      "learning_rate": 7.86688888888889e-06,
+      "loss": 2.3844,
+      "step": 14600
+    },
+    {
+      "epoch": 0.292,
+      "eval_loss": 2.3982439041137695,
+      "eval_runtime": 31.6763,
+      "eval_samples_per_second": 3.22,
+      "eval_steps_per_second": 1.61,
+      "step": 14600
+    },
+    {
+      "epoch": 0.2925,
+      "grad_norm": 0.5964235234322374,
+      "learning_rate": 7.861333333333334e-06,
+      "loss": 2.3899,
+      "step": 14625
+    },
+    {
+      "epoch": 0.293,
+      "grad_norm": 0.5610795516162878,
+      "learning_rate": 7.855777777777779e-06,
+      "loss": 2.3838,
+      "step": 14650
+    },
+    {
+      "epoch": 0.2935,
+      "grad_norm": 0.5670881867616083,
+      "learning_rate": 7.850222222222223e-06,
+      "loss": 2.3825,
+      "step": 14675
+    },
+    {
+      "epoch": 0.294,
+      "grad_norm": 0.5643624181789829,
+      "learning_rate": 7.844666666666668e-06,
+      "loss": 2.3882,
+      "step": 14700
+    },
+    {
+      "epoch": 0.294,
+      "eval_loss": 2.398089647293091,
+      "eval_runtime": 31.7677,
+      "eval_samples_per_second": 3.211,
+      "eval_steps_per_second": 1.605,
+      "step": 14700
+    },
+    {
+      "epoch": 0.2945,
+      "grad_norm": 0.5686315690402087,
+      "learning_rate": 7.839111111111111e-06,
+      "loss": 2.3745,
+      "step": 14725
+    },
+    {
+      "epoch": 0.295,
+      "grad_norm": 0.5893983725540548,
+      "learning_rate": 7.833555555555557e-06,
+      "loss": 2.378,
+      "step": 14750
+    },
+    {
+      "epoch": 0.2955,
+      "grad_norm": 0.5972901998200331,
+      "learning_rate": 7.828000000000002e-06,
+      "loss": 2.377,
+      "step": 14775
+    },
+    {
+      "epoch": 0.296,
+      "grad_norm": 0.5804879541179684,
+      "learning_rate": 7.822444444444446e-06,
+      "loss": 2.3911,
+      "step": 14800
+    },
+    {
+      "epoch": 0.296,
+      "eval_loss": 2.397839069366455,
+      "eval_runtime": 31.7602,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 14800
+    },
+    {
+      "epoch": 0.2965,
+      "grad_norm": 0.577463980570899,
+      "learning_rate": 7.816888888888889e-06,
+      "loss": 2.3896,
+      "step": 14825
+    },
+    {
+      "epoch": 0.297,
+      "grad_norm": 0.5800702741538564,
+      "learning_rate": 7.811333333333334e-06,
+      "loss": 2.3838,
+      "step": 14850
+    },
+    {
+      "epoch": 0.2975,
+      "grad_norm": 0.6037725626202978,
+      "learning_rate": 7.80577777777778e-06,
+      "loss": 2.3827,
+      "step": 14875
+    },
+    {
+      "epoch": 0.298,
+      "grad_norm": 0.5862145198472817,
+      "learning_rate": 7.800222222222223e-06,
+      "loss": 2.3801,
+      "step": 14900
+    },
+    {
+      "epoch": 0.298,
+      "eval_loss": 2.3976035118103027,
+      "eval_runtime": 31.751,
+      "eval_samples_per_second": 3.212,
+      "eval_steps_per_second": 1.606,
+      "step": 14900
+    },
+    {
+      "epoch": 0.2985,
+      "grad_norm": 0.5670781074548332,
+      "learning_rate": 7.794666666666667e-06,
+      "loss": 2.3819,
+      "step": 14925
+    },
+    {
+      "epoch": 0.299,
+      "grad_norm": 0.5571823653622203,
+      "learning_rate": 7.789111111111112e-06,
+      "loss": 2.3835,
+      "step": 14950
+    },
+    {
+      "epoch": 0.2995,
+      "grad_norm": 0.5733242457342494,
+      "learning_rate": 7.783555555555557e-06,
+      "loss": 2.3728,
+      "step": 14975
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.5619677124489769,
+      "learning_rate": 7.778e-06,
+      "loss": 2.3794,
+      "step": 15000
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 2.397136688232422,
+      "eval_runtime": 31.7183,
+      "eval_samples_per_second": 3.216,
+      "eval_steps_per_second": 1.608,
+      "step": 15000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 4.774803447490806e+19,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null