Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/ema.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/model.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/optimizer.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/rng_state.pth +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/scaler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/scheduler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/trainer_state.json +1147 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/training_args.bin +3 -0

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e95344803241bd9f9a2479032833623864645b5cb9f62543b600aeb722a3c0c8
+size 550088

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01c09c0140d9223aedb48dbae1713669e280c6ca5dd0c2a5f692719d9eab01d1
+size 19331448

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71717e3164209d80a1ea7fee841888c0663af047a2979c421226c9e95dc61082
+size 1175115

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5e46d1e941b1e6770d70eb593b1d56f6673c57d4816ab6f614779a84f1a34c0
+size 14645

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c681c3ef28514ea1cfb29fe1861a5692253b9f3548b5de1939978218e27b227d
+size 1383

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7471abe87daee5812e0143e98b883deb1b8470ee6335c3211aed51c21b3e9b2
+size 1465

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1147 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1024,
+  "global_step": 21651,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011823934229365849,
+      "grad_norm": 1.0396935939788818,
+      "learning_rate": 0.000494140625,
+      "loss": 2.385955572128296,
+      "step": 256
+    },
+    {
+      "epoch": 0.023647868458731697,
+      "grad_norm": 0.3018300235271454,
+      "learning_rate": 0.000994140625,
+      "loss": 1.499626636505127,
+      "step": 512
+    },
+    {
+      "epoch": 0.03547180268809755,
+      "grad_norm": 0.3906877040863037,
+      "learning_rate": 0.0009996466047131989,
+      "loss": 1.3862546682357788,
+      "step": 768
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 0.6580488681793213,
+      "learning_rate": 0.000998570120840354,
+      "loss": 1.3300455808639526,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.2912509761172343,
+      "eval_loss": 1.261210564064653,
+      "eval_mse_loss": 0.969959588219586,
+      "flow/cos_sim": 0.708749028645694,
+      "flow/improvement_ratio": 0.4786223828384321,
+      "flow/mag_ratio_mean": 0.6964796499846733,
+      "flow/mag_ratio_std": 0.14973047248100582,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.2912509761172343,
+      "eval_loss": 1.261210564064653,
+      "eval_mse_loss": 0.969959588219586,
+      "eval_runtime": 39.6995,
+      "eval_samples_per_second": 705.121,
+      "eval_steps_per_second": 11.033,
+      "flow/cos_sim": 0.708749028645694,
+      "flow/improvement_ratio": 0.4786223828384321,
+      "flow/mag_ratio_mean": 0.6964796499846733,
+      "flow/mag_ratio_std": 0.14973047248100582,
+      "step": 1024
+    },
+    {
+      "epoch": 0.05911967114682925,
+      "grad_norm": 0.9962846040725708,
+      "learning_rate": 0.0009967720566809583,
+      "loss": 1.2950860261917114,
+      "step": 1280
+    },
+    {
+      "epoch": 0.0709436053761951,
+      "grad_norm": 0.29216381907463074,
+      "learning_rate": 0.0009942550145723697,
+      "loss": 1.2622082233428955,
+      "step": 1536
+    },
+    {
+      "epoch": 0.08276753960556095,
+      "grad_norm": 0.6702899932861328,
+      "learning_rate": 0.0009910226374283738,
+      "loss": 1.2361210584640503,
+      "step": 1792
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 0.4554673135280609,
+      "learning_rate": 0.0009870796034667942,
+      "loss": 1.2209129333496094,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.26044403312549197,
+      "eval_loss": 1.152398099365844,
+      "eval_mse_loss": 0.8919540645052854,
+      "flow/cos_sim": 0.7395559614651823,
+      "flow/improvement_ratio": 0.479380850718446,
+      "flow/mag_ratio_mean": 0.7208647506149937,
+      "flow/mag_ratio_std": 0.15676253396150183,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.26044403312549197,
+      "eval_loss": 1.152398099365844,
+      "eval_mse_loss": 0.8919540645052854,
+      "eval_runtime": 38.3879,
+      "eval_samples_per_second": 729.213,
+      "eval_steps_per_second": 11.41,
+      "flow/cos_sim": 0.7395559614651823,
+      "flow/improvement_ratio": 0.479380850718446,
+      "flow/mag_ratio_mean": 0.7208647506149937,
+      "flow/mag_ratio_std": 0.15676253396150183,
+      "step": 2048
+    },
+    {
+      "epoch": 0.10641540806429264,
+      "grad_norm": 0.28728047013282776,
+      "learning_rate": 0.0009824316194387115,
+      "loss": 1.2018136978149414,
+      "step": 2304
+    },
+    {
+      "epoch": 0.1182393422936585,
+      "grad_norm": 1.280680775642395,
+      "learning_rate": 0.0009770854123690854,
+      "loss": 1.1904348134994507,
+      "step": 2560
+    },
+    {
+      "epoch": 0.13006327652302435,
+      "grad_norm": 0.5957157611846924,
+      "learning_rate": 0.0009710487198207337,
+      "loss": 1.1770356893539429,
+      "step": 2816
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 1.3396246433258057,
+      "learning_rate": 0.0009643302786957629,
+      "loss": 1.1677006483078003,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.24673845867315927,
+      "eval_loss": 1.1009203881433565,
+      "eval_mse_loss": 0.8541819294021554,
+      "flow/cos_sim": 0.7532615565001692,
+      "flow/improvement_ratio": 0.486232013190718,
+      "flow/mag_ratio_mean": 0.7330454062653459,
+      "flow/mag_ratio_std": 0.16009155762930438,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.24673845867315927,
+      "eval_loss": 1.1009203881433565,
+      "eval_mse_loss": 0.8541819294021554,
+      "eval_runtime": 38.2149,
+      "eval_samples_per_second": 732.516,
+      "eval_steps_per_second": 11.462,
+      "flow/cos_sim": 0.7532615565001692,
+      "flow/improvement_ratio": 0.486232013190718,
+      "flow/mag_ratio_mean": 0.7330454062653459,
+      "flow/mag_ratio_std": 0.16009155762930438,
+      "step": 3072
+    },
+    {
+      "epoch": 0.15371114498175603,
+      "grad_norm": 0.3938586115837097,
+      "learning_rate": 0.0009569398125906527,
+      "loss": 1.161599040031433,
+      "step": 3328
+    },
+    {
+      "epoch": 0.1655350792111219,
+      "grad_norm": 0.2642618715763092,
+      "learning_rate": 0.0009488880177233017,
+      "loss": 1.1554925441741943,
+      "step": 3584
+    },
+    {
+      "epoch": 0.17735901344048774,
+      "grad_norm": 0.15925352275371552,
+      "learning_rate": 0.000940186547452394,
+      "loss": 1.142865538597107,
+      "step": 3840
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 0.28947100043296814,
+      "learning_rate": 0.0009308479954115012,
+      "loss": 1.1450462341308594,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.23922484527984167,
+      "eval_loss": 1.070648630596187,
+      "eval_mse_loss": 0.8314237849080943,
+      "flow/cos_sim": 0.7607751724110347,
+      "flow/improvement_ratio": 0.4767084107415317,
+      "flow/mag_ratio_mean": 0.7456348471717748,
+      "flow/mag_ratio_std": 0.16709686444910693,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.23922484527984167,
+      "eval_loss": 1.070648630596187,
+      "eval_mse_loss": 0.8314237849080943,
+      "eval_runtime": 37.9421,
+      "eval_samples_per_second": 737.782,
+      "eval_steps_per_second": 11.544,
+      "flow/cos_sim": 0.7607751724110347,
+      "flow/improvement_ratio": 0.4767084107415317,
+      "flow/mag_ratio_mean": 0.7456348471717748,
+      "flow/mag_ratio_std": 0.16709686444910693,
+      "step": 4096
+    },
+    {
+      "epoch": 0.20100688189921945,
+      "grad_norm": 0.2802768349647522,
+      "learning_rate": 0.0009208858772823219,
+      "loss": 1.1381992101669312,
+      "step": 4352
+    },
+    {
+      "epoch": 0.2128308161285853,
+      "grad_norm": 0.21698614954948425,
+      "learning_rate": 0.000910314611233442,
+      "loss": 1.132680058479309,
+      "step": 4608
+    },
+    {
+      "epoch": 0.22465475035795113,
+      "grad_norm": 0.32471123337745667,
+      "learning_rate": 0.0008991494970529273,
+      "loss": 1.1287866830825806,
+      "step": 4864
+    },
+    {
+      "epoch": 0.236478684587317,
+      "grad_norm": 0.2330758422613144,
+      "learning_rate": 0.0008874066940049477,
+      "loss": 1.1182652711868286,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.23335642752037744,
+      "eval_loss": 1.0504317106721608,
+      "eval_mse_loss": 0.8170752830156996,
+      "flow/cos_sim": 0.7666435818693954,
+      "flow/improvement_ratio": 0.4764664819523624,
+      "flow/mag_ratio_mean": 0.7472941716239877,
+      "flow/mag_ratio_std": 0.16736687576934084,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.23335642752037744,
+      "eval_loss": 1.0504317106721608,
+      "eval_mse_loss": 0.8170752830156996,
+      "eval_runtime": 37.1297,
+      "eval_samples_per_second": 753.925,
+      "eval_steps_per_second": 11.796,
+      "flow/cos_sim": 0.7666435818693954,
+      "flow/improvement_ratio": 0.4764664819523624,
+      "flow/mag_ratio_mean": 0.7472941716239877,
+      "flow/mag_ratio_std": 0.16736687576934084,
+      "step": 5120
+    },
+    {
+      "epoch": 0.24830261881668284,
+      "grad_norm": 0.22401200234889984,
+      "learning_rate": 0.0008751031974424814,
+      "loss": 1.1156164407730103,
+      "step": 5376
+    },
+    {
+      "epoch": 0.2601265530460487,
+      "grad_norm": 0.30990755558013916,
+      "learning_rate": 0.0008622568142099504,
+      "loss": 1.1163040399551392,
+      "step": 5632
+    },
+    {
+      "epoch": 0.27195048727541454,
+      "grad_norm": 0.36347290873527527,
+      "learning_rate": 0.0008488861368713825,
+      "loss": 1.1100337505340576,
+      "step": 5888
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "grad_norm": 0.272342324256897,
+      "learning_rate": 0.0008350105168014028,
+      "loss": 1.111609697341919,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.2336256698318268,
+      "eval_loss": 1.049514850797174,
+      "eval_mse_loss": 0.8158891825643304,
+      "flow/cos_sim": 0.7663743587117217,
+      "flow/improvement_ratio": 0.4811141695742193,
+      "flow/mag_ratio_mean": 0.7543826833979724,
+      "flow/mag_ratio_std": 0.17351540572703156,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.2336256698318268,
+      "eval_loss": 1.049514850797174,
+      "eval_mse_loss": 0.8158891825643304,
+      "eval_runtime": 37.1083,
+      "eval_samples_per_second": 754.36,
+      "eval_steps_per_second": 11.803,
+      "flow/cos_sim": 0.7663743587117217,
+      "flow/improvement_ratio": 0.4811141695742193,
+      "flow/mag_ratio_mean": 0.7543826833979724,
+      "flow/mag_ratio_std": 0.17351540572703156,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2955983557341462,
+      "grad_norm": 0.1812877058982849,
+      "learning_rate": 0.0008206500361779995,
+      "loss": 1.102935552597046,
+      "step": 6400
+    },
+    {
+      "epoch": 0.30742228996351206,
+      "grad_norm": 0.7799150347709656,
+      "learning_rate": 0.0008058254789175967,
+      "loss": 1.1035031080245972,
+      "step": 6656
+    },
+    {
+      "epoch": 0.3192462241928779,
+      "grad_norm": 0.2194916158914566,
+      "learning_rate": 0.0007905583005945037,
+      "loss": 1.102286696434021,
+      "step": 6912
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "grad_norm": 0.4366890788078308,
+      "learning_rate": 0.000774870597388272,
+      "loss": 1.101851463317871,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.229756694372114,
+      "eval_loss": 1.035625888876719,
+      "eval_mse_loss": 0.8058691928375802,
+      "flow/cos_sim": 0.7702433085877057,
+      "flow/improvement_ratio": 0.4816136150599615,
+      "flow/mag_ratio_mean": 0.7532055862418049,
+      "flow/mag_ratio_std": 0.1725723232444563,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.229756694372114,
+      "eval_loss": 1.035625888876719,
+      "eval_mse_loss": 0.8058691928375802,
+      "eval_runtime": 37.4619,
+      "eval_samples_per_second": 747.238,
+      "eval_steps_per_second": 11.692,
+      "flow/cos_sim": 0.7702433085877057,
+      "flow/improvement_ratio": 0.4816136150599615,
+      "flow/mag_ratio_mean": 0.7532055862418049,
+      "flow/mag_ratio_std": 0.1725723232444563,
+      "step": 7168
+    },
+    {
+      "epoch": 0.34289409265160964,
+      "grad_norm": 0.6802489161491394,
+      "learning_rate": 0.0007587850741039065,
+      "loss": 1.1002918481826782,
+      "step": 7424
+    },
+    {
+      "epoch": 0.3547180268809755,
+      "grad_norm": 0.19382832944393158,
+      "learning_rate": 0.000742325011311212,
+      "loss": 1.0985705852508545,
+      "step": 7680
+    },
+    {
+      "epoch": 0.3665419611103413,
+      "grad_norm": 0.8463470935821533,
+      "learning_rate": 0.0007255142316508366,
+      "loss": 1.0968726873397827,
+      "step": 7936
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "grad_norm": 0.20921163260936737,
+      "learning_rate": 0.0007083770653557752,
+      "loss": 1.0953953266143799,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.2280988702422952,
+      "eval_loss": 1.0291743364236126,
+      "eval_mse_loss": 0.8010754635617069,
+      "flow/cos_sim": 0.7719011534022414,
+      "flow/improvement_ratio": 0.4799054505890363,
+      "flow/mag_ratio_mean": 0.7548060637630828,
+      "flow/mag_ratio_std": 0.17471813757533897,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.2280988702422952,
+      "eval_loss": 1.0291743364236126,
+      "eval_mse_loss": 0.8010754635617069,
+      "eval_runtime": 37.2649,
+      "eval_samples_per_second": 751.19,
+      "eval_steps_per_second": 11.754,
+      "flow/cos_sim": 0.7719011534022414,
+      "flow/improvement_ratio": 0.4799054505890363,
+      "flow/mag_ratio_mean": 0.7548060637630828,
+      "flow/mag_ratio_std": 0.17471813757533897,
+      "step": 8192
+    },
+    {
+      "epoch": 0.390189829569073,
+      "grad_norm": 0.3799210488796234,
+      "learning_rate": 0.000691006989350691,
+      "loss": 1.0918513536453247,
+      "step": 8448
+    },
+    {
+      "epoch": 0.4020137637984389,
+      "grad_norm": 0.9599165916442871,
+      "learning_rate": 0.0006732929239454054,
+      "loss": 1.0943893194198608,
+      "step": 8704
+    },
+    {
+      "epoch": 0.41383769802780473,
+      "grad_norm": 0.19293536245822906,
+      "learning_rate": 0.0006553280517779596,
+      "loss": 1.0910601615905762,
+      "step": 8960
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "grad_norm": 1.4826339483261108,
+      "learning_rate": 0.000637138373398857,
+      "loss": 1.0878775119781494,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.2281181326467697,
+      "eval_loss": 1.0284691565929482,
+      "eval_mse_loss": 0.8003510253070152,
+      "flow/cos_sim": 0.7718818755182502,
+      "flow/improvement_ratio": 0.47831420069687985,
+      "flow/mag_ratio_mean": 0.7562852190237611,
+      "flow/mag_ratio_std": 0.17577999796225055,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.2281181326467697,
+      "eval_loss": 1.0284691565929482,
+      "eval_mse_loss": 0.8003510253070152,
+      "eval_runtime": 37.4975,
+      "eval_samples_per_second": 746.53,
+      "eval_steps_per_second": 11.681,
+      "flow/cos_sim": 0.7718818755182502,
+      "flow/improvement_ratio": 0.47831420069687985,
+      "flow/mag_ratio_mean": 0.7562852190237611,
+      "flow/mag_ratio_std": 0.17577999796225055,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4374855664865364,
+      "grad_norm": 0.531550407409668,
+      "learning_rate": 0.0006187502147205189,
+      "loss": 1.0887291431427002,
+      "step": 9472
+    },
+    {
+      "epoch": 0.44930950071590225,
+      "grad_norm": 0.25300586223602295,
+      "learning_rate": 0.000600190188915804,
+      "loss": 1.0868346691131592,
+      "step": 9728
+    },
+    {
+      "epoch": 0.4611334349452681,
+      "grad_norm": 0.668536901473999,
+      "learning_rate": 0.0005814851579007778,
+      "loss": 1.0852059125900269,
+      "step": 9984
+    },
+    {
+      "epoch": 0.472957369174634,
+      "grad_norm": 0.7231985926628113,
+      "learning_rate": 0.0005626621934574736,
+      "loss": 1.0829912424087524,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.22645327139254576,
+      "eval_loss": 1.0233922791263284,
+      "eval_mse_loss": 0.7969390074956363,
+      "flow/cos_sim": 0.7735467391199173,
+      "flow/improvement_ratio": 0.4819793237126581,
+      "flow/mag_ratio_mean": 0.7563864052567852,
+      "flow/mag_ratio_std": 0.17542334914751792,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.22645327139254576,
+      "eval_loss": 1.0233922791263284,
+      "eval_mse_loss": 0.7969390074956363,
+      "eval_runtime": 37.4007,
+      "eval_samples_per_second": 748.463,
+      "eval_steps_per_second": 11.711,
+      "flow/cos_sim": 0.7735467391199173,
+      "flow/improvement_ratio": 0.4819793237126581,
+      "flow/mag_ratio_mean": 0.7563864052567852,
+      "flow/mag_ratio_std": 0.17542334914751792,
+      "step": 10240
+    },
+    {
+      "epoch": 0.48478130340399983,
+      "grad_norm": 0.9182093143463135,
+      "learning_rate": 0.0005437485380529165,
+      "loss": 1.0810939073562622,
+      "step": 10496
+    },
+    {
+      "epoch": 0.49660523763336567,
+      "grad_norm": 0.7298511862754822,
+      "learning_rate": 0.0005247715654111146,
+      "loss": 1.0796959400177002,
+      "step": 10752
+    },
+    {
+      "epoch": 0.5084291718627315,
+      "grad_norm": 0.23945634067058563,
+      "learning_rate": 0.0005057587408950816,
+      "loss": 1.0790259838104248,
+      "step": 11008
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "grad_norm": 1.0996612310409546,
+      "learning_rate": 0.00048673758175623157,
+      "loss": 1.0788182020187378,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.2244913134400703,
+      "eval_loss": 1.01628939324318,
+      "eval_mse_loss": 0.7917980787144404,
+      "flow/cos_sim": 0.7755086994878778,
+      "flow/improvement_ratio": 0.4844034041988251,
+      "flow/mag_ratio_mean": 0.7616438624793536,
+      "flow/mag_ratio_std": 0.17625076667358885,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.2244913134400703,
+      "eval_loss": 1.01628939324318,
+      "eval_mse_loss": 0.7917980787144404,
+      "eval_runtime": 37.3175,
+      "eval_samples_per_second": 750.131,
+      "eval_steps_per_second": 11.737,
+      "flow/cos_sim": 0.7755086994878778,
+      "flow/improvement_ratio": 0.4844034041988251,
+      "flow/mag_ratio_mean": 0.7616438624793536,
+      "flow/mag_ratio_std": 0.17625076667358885,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5320770403214632,
+      "grad_norm": 0.23548179864883423,
+      "learning_rate": 0.00046773561730867265,
+      "loss": 1.0772168636322021,
+      "step": 11520
+    },
+    {
+      "epoch": 0.5439009745508291,
+      "grad_norm": 0.4916202425956726,
+      "learning_rate": 0.0004487803490860472,
+      "loss": 1.0812937021255493,
+      "step": 11776
+    },
+    {
+      "epoch": 0.5557249087801949,
+      "grad_norm": 1.28579843044281,
+      "learning_rate": 0.00042989921103857385,
+      "loss": 1.0812631845474243,
+      "step": 12032
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "grad_norm": 1.1461721658706665,
+      "learning_rate": 0.0004111195298279063,
+      "loss": 1.0747902393341064,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.2239211694630858,
+      "eval_loss": 1.0131171265421393,
+      "eval_mse_loss": 0.789195956432656,
+      "flow/cos_sim": 0.7760788515278193,
+      "flow/improvement_ratio": 0.48404773266892454,
+      "flow/mag_ratio_mean": 0.753236744637903,
+      "flow/mag_ratio_std": 0.17332864685417854,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.2239211694630858,
+      "eval_loss": 1.0131171265421393,
+      "eval_mse_loss": 0.789195956432656,
+      "eval_runtime": 37.4967,
+      "eval_samples_per_second": 746.546,
+      "eval_steps_per_second": 11.681,
+      "flow/cos_sim": 0.7760788515278193,
+      "flow/improvement_ratio": 0.48404773266892454,
+      "flow/mag_ratio_mean": 0.753236744637903,
+      "flow/mag_ratio_std": 0.17332864685417854,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5793727772389267,
+      "grad_norm": 0.2644420266151428,
+      "learning_rate": 0.0003925410556475763,
+      "loss": 1.0753477811813354,
+      "step": 12544
+    },
+    {
+      "epoch": 0.5911967114682924,
+      "grad_norm": 0.403468519449234,
+      "learning_rate": 0.00037404498123644504,
+      "loss": 1.077595829963684,
+      "step": 12800
+    },
+    {
+      "epoch": 0.6030206456976583,
+      "grad_norm": 0.1891508400440216,
+      "learning_rate": 0.0003557312014609784,
+      "loss": 1.077918291091919,
+      "step": 13056
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "grad_norm": 1.224328637123108,
+      "learning_rate": 0.00033762622184548686,
+      "loss": 1.072798490524292,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.22266034091308237,
+      "eval_loss": 1.009104470956271,
+      "eval_mse_loss": 0.7864441286483311,
+      "flow/cos_sim": 0.7773396887191354,
+      "flow/improvement_ratio": 0.47814115698206916,
+      "flow/mag_ratio_mean": 0.7620742424437988,
+      "flow/mag_ratio_std": 0.1770942181212717,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.22266034091308237,
+      "eval_loss": 1.009104470956271,
+      "eval_mse_loss": 0.7864441286483311,
+      "eval_runtime": 37.4951,
+      "eval_samples_per_second": 746.577,
+      "eval_steps_per_second": 11.682,
+      "flow/cos_sim": 0.7773396887191354,
+      "flow/improvement_ratio": 0.47814115698206916,
+      "flow/mag_ratio_mean": 0.7620742424437988,
+      "flow/mag_ratio_std": 0.1770942181212717,
+      "step": 13312
+    },
+    {
+      "epoch": 0.62666851415639,
+      "grad_norm": 0.3658396601676941,
+      "learning_rate": 0.00031975624571791317,
+      "loss": 1.069403052330017,
+      "step": 13568
+    },
+    {
+      "epoch": 0.6384924483857558,
+      "grad_norm": 0.5004097819328308,
+      "learning_rate": 0.00030214713628576984,
+      "loss": 1.0717116594314575,
+      "step": 13824
+    },
+    {
+      "epoch": 0.6503163826151217,
+      "grad_norm": 0.8231380581855774,
+      "learning_rate": 0.00028482437920433144,
+      "loss": 1.0720727443695068,
+      "step": 14080
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "grad_norm": 0.4187723994255066,
+      "learning_rate": 0.00026781304569125866,
+      "loss": 1.0699665546417236,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.22183906633968223,
+      "eval_loss": 1.0048139836962364,
+      "eval_mse_loss": 0.782974916642115,
+      "flow/cos_sim": 0.7781609424717351,
+      "flow/improvement_ratio": 0.4805064608925554,
+      "flow/mag_ratio_mean": 0.7602974135581761,
+      "flow/mag_ratio_std": 0.17573183972269432,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.22183906633968223,
+      "eval_loss": 1.0048139836962364,
+      "eval_mse_loss": 0.782974916642115,
+      "eval_runtime": 37.5509,
+      "eval_samples_per_second": 745.468,
+      "eval_steps_per_second": 11.664,
+      "flow/cos_sim": 0.7781609424717351,
+      "flow/improvement_ratio": 0.4805064608925554,
+      "flow/mag_ratio_mean": 0.7602974135581761,
+      "flow/mag_ratio_std": 0.17573183972269432,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6739642510738534,
+      "grad_norm": 0.4959767460823059,
+      "learning_rate": 0.0002511377562410373,
+      "loss": 1.0708597898483276,
+      "step": 14592
+    },
+    {
+      "epoch": 0.6857881853032193,
+      "grad_norm": 1.066572904586792,
+      "learning_rate": 0.00023482264499174915,
+      "loss": 1.073146104812622,
+      "step": 14848
+    },
+    {
+      "epoch": 0.6976121195325851,
+      "grad_norm": 0.3535749018192291,
+      "learning_rate": 0.00021889132479574586,
+      "loss": 1.0699703693389893,
+      "step": 15104
+    },
+    {
+      "epoch": 0.709436053761951,
+      "grad_norm": 0.37873294949531555,
+      "learning_rate": 0.0002033668530447801,
+      "loss": 1.0678328275680542,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.22249556676437865,
+      "eval_loss": 1.0087477605636805,
+      "eval_mse_loss": 0.7862521942075529,
+      "flow/cos_sim": 0.777504450790414,
+      "flow/improvement_ratio": 0.4885656609791055,
+      "flow/mag_ratio_mean": 0.7583253439430777,
+      "flow/mag_ratio_std": 0.17545615629926664,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.22249556676437865,
+      "eval_loss": 1.0087477605636805,
+      "eval_mse_loss": 0.7862521942075529,
+      "eval_runtime": 37.6925,
+      "eval_samples_per_second": 742.668,
+      "eval_steps_per_second": 11.62,
+      "flow/cos_sim": 0.777504450790414,
+      "flow/improvement_ratio": 0.4885656609791055,
+      "flow/mag_ratio_mean": 0.7583253439430777,
+      "flow/mag_ratio_std": 0.17545615629926664,
+      "step": 15360
+    },
+    {
+      "epoch": 0.7212599879913169,
+      "grad_norm": 0.4826560914516449,
+      "learning_rate": 0.0001882716982990524,
+      "loss": 1.0732594728469849,
+      "step": 15616
+    },
+    {
+      "epoch": 0.7330839222206826,
+      "grad_norm": 0.22264961898326874,
+      "learning_rate": 0.00017362770776847765,
+      "loss": 1.0719412565231323,
+      "step": 15872
+    },
+    {
+      "epoch": 0.7449078564500485,
+      "grad_norm": 0.38622406125068665,
+      "learning_rate": 0.00015945607569322633,
+      "loss": 1.0658717155456543,
+      "step": 16128
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "grad_norm": 0.44819656014442444,
+      "learning_rate": 0.0001458297605985633,
+      "loss": 1.0668818950653076,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.22197851242676173,
+      "eval_loss": 1.0059498877830158,
+      "eval_mse_loss": 0.7839713738933546,
+      "flow/cos_sim": 0.7780215108775657,
+      "flow/improvement_ratio": 0.48246467950409405,
+      "flow/mag_ratio_mean": 0.7628998027000253,
+      "flow/mag_ratio_std": 0.1759639097607299,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.22197851242676173,
+      "eval_loss": 1.0059498877830158,
+      "eval_mse_loss": 0.7839713738933546,
+      "eval_runtime": 37.5688,
+      "eval_samples_per_second": 745.113,
+      "eval_steps_per_second": 11.659,
+      "flow/cos_sim": 0.7780215108775657,
+      "flow/improvement_ratio": 0.48246467950409405,
+      "flow/mag_ratio_mean": 0.7628998027000253,
+      "flow/mag_ratio_std": 0.1759639097607299,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7685557249087802,
+      "grad_norm": 0.40678733587265015,
+      "learning_rate": 0.00013266162372593872,
+      "loss": 1.0644735097885132,
+      "step": 16640
+    },
+    {
+      "epoch": 0.780379659138146,
+      "grad_norm": 0.2160959541797638,
+      "learning_rate": 0.00012002513550158511,
+      "loss": 1.066280484199524,
+      "step": 16896
+    },
+    {
+      "epoch": 0.7922035933675119,
+      "grad_norm": 0.32006150484085083,
+      "learning_rate": 0.00010793858470858986,
+      "loss": 1.0685601234436035,
+      "step": 17152
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "grad_norm": 0.23137597739696503,
+      "learning_rate": 9.641946420587128e-05,
+      "loss": 1.0673739910125732,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.22172908348852097,
+      "eval_loss": 1.0058240679573252,
+      "eval_mse_loss": 0.784094982495591,
+      "flow/cos_sim": 0.7782709329095605,
+      "flow/improvement_ratio": 0.4807120756879789,
+      "flow/mag_ratio_mean": 0.7601865844367302,
+      "flow/mag_ratio_std": 0.17613858596919335,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.22172908348852097,
+      "eval_loss": 1.0058240679573252,
+      "eval_mse_loss": 0.784094982495591,
+      "eval_runtime": 37.7929,
+      "eval_samples_per_second": 740.695,
+      "eval_steps_per_second": 11.589,
+      "flow/cos_sim": 0.7782709329095605,
+      "flow/improvement_ratio": 0.4807120756879789,
+      "flow/mag_ratio_mean": 0.7601865844367302,
+      "flow/mag_ratio_std": 0.17613858596919335,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8158514618262436,
+      "grad_norm": 0.1639220118522644,
+      "learning_rate": 8.548444561077174e-05,
+      "loss": 1.068544864654541,
+      "step": 17664
+    },
+    {
+      "epoch": 0.8276753960556095,
+      "grad_norm": 0.217204749584198,
+      "learning_rate": 7.514935517023558e-05,
+      "loss": 1.064216136932373,
+      "step": 17920
+    },
+    {
+      "epoch": 0.8394993302849753,
+      "grad_norm": 0.3630645275115967,
+      "learning_rate": 6.542915085548828e-05,
+      "loss": 1.0645893812179565,
+      "step": 18176
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "grad_norm": 0.42965033650398254,
+      "learning_rate": 5.6337900713373745e-05,
+      "loss": 1.0648459196090698,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.2218880422039119,
+      "eval_loss": 1.005011047130306,
+      "eval_mse_loss": 0.7831230051985615,
+      "flow/cos_sim": 0.7781119878705778,
+      "flow/improvement_ratio": 0.4789293587684087,
+      "flow/mag_ratio_mean": 0.7607750161869885,
+      "flow/mag_ratio_std": 0.17580983801383407,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.2218880422039119,
+      "eval_loss": 1.005011047130306,
+      "eval_mse_loss": 0.7831230051985615,
+      "eval_runtime": 37.6426,
+      "eval_samples_per_second": 743.652,
+      "eval_steps_per_second": 11.636,
+      "flow/cos_sim": 0.7781119878705778,
+      "flow/improvement_ratio": 0.4789293587684087,
+      "flow/mag_ratio_mean": 0.7607750161869885,
+      "flow/mag_ratio_std": 0.17580983801383407,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8631471987437069,
+      "grad_norm": 0.1396653950214386,
+      "learning_rate": 4.78887625056757e-05,
+      "loss": 1.0648523569107056,
+      "step": 18688
+    },
+    {
+      "epoch": 0.8749711329730728,
+      "grad_norm": 0.4940822124481201,
+      "learning_rate": 4.009396466589682e-05,
+      "loss": 1.0595393180847168,
+      "step": 18944
+    },
+    {
+      "epoch": 0.8867950672024387,
+      "grad_norm": 0.4651182293891907,
+      "learning_rate": 3.296478860105229e-05,
+      "loss": 1.0656297206878662,
+      "step": 19200
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "grad_norm": 0.3197803795337677,
+      "learning_rate": 2.6511552364095358e-05,
+      "loss": 1.0682142972946167,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.22248767602117095,
+      "eval_loss": 1.0076421013433638,
+      "eval_mse_loss": 0.7851544253902348,
+      "flow/cos_sim": 0.7775123350696477,
+      "flow/improvement_ratio": 0.48520407645397534,
+      "flow/mag_ratio_mean": 0.7587072534920418,
+      "flow/mag_ratio_std": 0.17524336564214263,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.22248767602117095,
+      "eval_loss": 1.0076421013433638,
+      "eval_mse_loss": 0.7851544253902348,
+      "eval_runtime": 37.6327,
+      "eval_samples_per_second": 743.849,
+      "eval_steps_per_second": 11.639,
+      "flow/cos_sim": 0.7775123350696477,
+      "flow/improvement_ratio": 0.48520407645397534,
+      "flow/mag_ratio_mean": 0.7587072534920418,
+      "flow/mag_ratio_std": 0.17524336564214263,
+      "step": 19456
+    },
+    {
+      "epoch": 0.9104429356611704,
+      "grad_norm": 0.13613785803318024,
+      "learning_rate": 2.074359572060447e-05,
+      "loss": 1.0635831356048584,
+      "step": 19712
+    },
+    {
+      "epoch": 0.9222668698905362,
+      "grad_norm": 0.1770780384540558,
+      "learning_rate": 1.5669266631345104e-05,
+      "loss": 1.062790036201477,
+      "step": 19968
+    },
+    {
+      "epoch": 0.9340908041199021,
+      "grad_norm": 0.1503819078207016,
+      "learning_rate": 1.1295909170270401e-05,
+      "loss": 1.0686960220336914,
+      "step": 20224
+    },
+    {
+      "epoch": 0.945914738349268,
+      "grad_norm": 0.33569076657295227,
+      "learning_rate": 7.642790173984836e-06,
+      "loss": 1.0699816942214966,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.22027743961577,
+      "eval_loss": 0.9999760730898,
+      "eval_mse_loss": 0.779698631807005,
+      "flow/cos_sim": 0.779722579401922,
+      "flow/improvement_ratio": 0.4781283199378889,
+      "flow/mag_ratio_mean": 0.7626172565434077,
+      "flow/mag_ratio_std": 0.17652299278947317,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.22027743961577,
+      "eval_loss": 0.9999760730898,
+      "eval_mse_loss": 0.779698631807005,
+      "eval_runtime": 37.3018,
+      "eval_samples_per_second": 750.447,
+      "eval_steps_per_second": 11.742,
+      "flow/cos_sim": 0.779722579401922,
+      "flow/improvement_ratio": 0.4781283199378889,
+      "flow/mag_ratio_mean": 0.7626172565434077,
+      "flow/mag_ratio_std": 0.17652299278947317,
+      "step": 20480
+    },
+    {
+      "epoch": 0.9577386725786338,
+      "grad_norm": 0.13765716552734375,
+      "learning_rate": 4.686548355746001e-06,
+      "loss": 1.0629913806915283,
+      "step": 20736
+    },
+    {
+      "epoch": 0.9695626068079997,
+      "grad_norm": 0.2119743674993515,
+      "learning_rate": 2.447173448359541e-06,
+      "loss": 1.0651545524597168,
+      "step": 20992
+    },
+    {
+      "epoch": 0.9813865410373654,
+      "grad_norm": 0.35947737097740173,
+      "learning_rate": 9.279064980089457e-07,
+      "loss": 1.0654728412628174,
+      "step": 21248
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "grad_norm": 0.1823749542236328,
+      "learning_rate": 1.3094633899163322e-07,
+      "loss": 1.065650463104248,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.2202744213821681,
+      "eval_loss": 0.9997453873288141,
+      "eval_mse_loss": 0.7794709677837756,
+      "flow/cos_sim": 0.7797256029087659,
+      "flow/improvement_ratio": 0.48657261542805796,
+      "flow/mag_ratio_mean": 0.7617599999523599,
+      "flow/mag_ratio_std": 0.17516998038308262,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.2202744213821681,
+      "eval_loss": 0.9997453873288141,
+      "eval_mse_loss": 0.7794709677837756,
+      "eval_runtime": 37.3277,
+      "eval_samples_per_second": 749.926,
+      "eval_steps_per_second": 11.734,
+      "flow/cos_sim": 0.7797256029087659,
+      "flow/improvement_ratio": 0.48657261542805796,
+      "flow/mag_ratio_mean": 0.7617599999523599,
+      "flow/mag_ratio_std": 0.17516998038308262,
+      "step": 21504
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-b/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03a8c5803c6e5663005c9dc7a4c98c213c8267649ccec42581475db390cc8017
+size 5137