Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/ema.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/model.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/optimizer.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/rng_state.pth +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/scaler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/scheduler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/trainer_state.json +1147 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/training_args.bin +3 -0

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cb0dc805812a87f88738c1dcd844ccdec9e9d6f73164ec8d3aedcd87d998ada
+size 550088

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e69e746c59f4e9bffd46a4b8fff59f5298117cc651aec90edc417c5a9eb3032
+size 19331448

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d395fc7dd5e395ed1e754e2cf35239eadea0fa97a95d1668188b63fc998510f
+size 1175115

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5e46d1e941b1e6770d70eb593b1d56f6673c57d4816ab6f614779a84f1a34c0
+size 14645

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68b7d31923f05c4b460794137c5c6eea5cd3094990a5ca753208ffd9f46866cb
+size 1383

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa0141c127e95bcc4d5966d55ec878adc1193cbedb02b1419969134a8445c716
+size 1465

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1147 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1024,
+  "global_step": 21651,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011823934229365849,
+      "grad_norm": 0.509731113910675,
+      "learning_rate": 0.00049609375,
+      "loss": 2.1022446155548096,
+      "step": 256
+    },
+    {
+      "epoch": 0.023647868458731697,
+      "grad_norm": 0.32036706805229187,
+      "learning_rate": 0.00099609375,
+      "loss": 1.3224166631698608,
+      "step": 512
+    },
+    {
+      "epoch": 0.03547180268809755,
+      "grad_norm": 0.46608567237854004,
+      "learning_rate": 0.0009996438058859384,
+      "loss": 1.2243598699569702,
+      "step": 768
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 0.3062893748283386,
+      "learning_rate": 0.0009985644996281977,
+      "loss": 1.1784849166870117,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.29423016282521425,
+      "eval_loss": 1.1209385933941358,
+      "eval_mse_loss": 0.9738235149753692,
+      "flow/cos_sim": 0.7057698449315546,
+      "flow/improvement_ratio": 0.47853941589457805,
+      "flow/mag_ratio_mean": 0.6953887133837835,
+      "flow/mag_ratio_std": 0.15273392692072207,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.29423016282521425,
+      "eval_loss": 1.1209385933941358,
+      "eval_mse_loss": 0.9738235149753692,
+      "eval_runtime": 37.7105,
+      "eval_samples_per_second": 742.314,
+      "eval_steps_per_second": 11.615,
+      "flow/cos_sim": 0.7057698449315546,
+      "flow/improvement_ratio": 0.47853941589457805,
+      "flow/mag_ratio_mean": 0.6953887133837835,
+      "flow/mag_ratio_std": 0.15273392692072207,
+      "step": 1024
+    },
+    {
+      "epoch": 0.05911967114682925,
+      "grad_norm": 0.42174944281578064,
+      "learning_rate": 0.0009967636212194833,
+      "loss": 1.1545671224594116,
+      "step": 1280
+    },
+    {
+      "epoch": 0.0709436053761951,
+      "grad_norm": 0.5216838717460632,
+      "learning_rate": 0.0009942437770702158,
+      "loss": 1.1316872835159302,
+      "step": 1536
+    },
+    {
+      "epoch": 0.08276753960556095,
+      "grad_norm": 0.45238178968429565,
+      "learning_rate": 0.000991008614149572,
+      "loss": 1.1131517887115479,
+      "step": 1792
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 0.633682906627655,
+      "learning_rate": 0.0009870628147072287,
+      "loss": 1.1000479459762573,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.26900983356857955,
+      "eval_loss": 1.0475259179666163,
+      "eval_mse_loss": 0.9130210040911148,
+      "flow/cos_sim": 0.7309901614983877,
+      "flow/improvement_ratio": 0.4792113368777924,
+      "flow/mag_ratio_mean": 0.7129153462305461,
+      "flow/mag_ratio_std": 0.15875548022250607,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.26900983356857955,
+      "eval_loss": 1.0475259179666163,
+      "eval_mse_loss": 0.9130210040911148,
+      "eval_runtime": 37.4057,
+      "eval_samples_per_second": 748.361,
+      "eval_steps_per_second": 11.709,
+      "flow/cos_sim": 0.7309901614983877,
+      "flow/improvement_ratio": 0.4792113368777924,
+      "flow/mag_ratio_mean": 0.7129153462305461,
+      "flow/mag_ratio_std": 0.15875548022250607,
+      "step": 2048
+    },
+    {
+      "epoch": 0.10641540806429264,
+      "grad_norm": 0.24040701985359192,
+      "learning_rate": 0.0009824120894967462,
+      "loss": 1.0860177278518677,
+      "step": 2304
+    },
+    {
+      "epoch": 0.1182393422936585,
+      "grad_norm": 0.3865581452846527,
+      "learning_rate": 0.0009770631695103949,
+      "loss": 1.0790908336639404,
+      "step": 2560
+    },
+    {
+      "epoch": 0.13006327652302435,
+      "grad_norm": 0.264023095369339,
+      "learning_rate": 0.0009710237962373965,
+      "loss": 1.0654981136322021,
+      "step": 2816
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 0.6001664996147156,
+      "learning_rate": 0.0009643027104596686,
+      "loss": 1.0555968284606934,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.2544627361101647,
+      "eval_loss": 1.0013415866518673,
+      "eval_mse_loss": 0.8741102180524504,
+      "flow/cos_sim": 0.7455372803559587,
+      "flow/improvement_ratio": 0.4856065721952752,
+      "flow/mag_ratio_mean": 0.7307753671794177,
+      "flow/mag_ratio_std": 0.16138841017876585,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.2544627361101647,
+      "eval_loss": 1.0013415866518673,
+      "eval_mse_loss": 0.8741102180524504,
+      "eval_runtime": 37.3598,
+      "eval_samples_per_second": 749.281,
+      "eval_steps_per_second": 11.724,
+      "flow/cos_sim": 0.7455372803559587,
+      "flow/improvement_ratio": 0.4856065721952752,
+      "flow/mag_ratio_mean": 0.7307753671794177,
+      "flow/mag_ratio_std": 0.16138841017876585,
+      "step": 3072
+    },
+    {
+      "epoch": 0.15371114498175603,
+      "grad_norm": 0.2462933361530304,
+      "learning_rate": 0.000956909639601296,
+      "loss": 1.0477466583251953,
+      "step": 3328
+    },
+    {
+      "epoch": 0.1655350792111219,
+      "grad_norm": 0.7574740648269653,
+      "learning_rate": 0.0009488552836500346,
+      "loss": 1.0434833765029907,
+      "step": 3584
+    },
+    {
+      "epoch": 0.17735901344048774,
+      "grad_norm": 0.545494794845581,
+      "learning_rate": 0.0009401512996712244,
+      "loss": 1.0306124687194824,
+      "step": 3840
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 1.4480839967727661,
+      "learning_rate": 0.0009308102849365255,
+      "loss": 1.0329992771148682,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.24506935215295722,
+      "eval_loss": 0.9690635023323912,
+      "eval_mse_loss": 0.8465288246058982,
+      "flow/cos_sim": 0.7549306665925675,
+      "flow/improvement_ratio": 0.47613726440630005,
+      "flow/mag_ratio_mean": 0.7428392282087509,
+      "flow/mag_ratio_std": 0.16521768938733017,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.24506935215295722,
+      "eval_loss": 0.9690635023323912,
+      "eval_mse_loss": 0.8465288246058982,
+      "eval_runtime": 37.7154,
+      "eval_samples_per_second": 742.217,
+      "eval_steps_per_second": 11.613,
+      "flow/cos_sim": 0.7549306665925675,
+      "flow/improvement_ratio": 0.47613726440630005,
+      "flow/mag_ratio_mean": 0.7428392282087509,
+      "flow/mag_ratio_std": 0.16521768938733017,
+      "step": 4096
+    },
+    {
+      "epoch": 0.20100688189921945,
+      "grad_norm": 1.0813051462173462,
+      "learning_rate": 0.0009208457586918912,
+      "loss": 1.0259068012237549,
+      "step": 4352
+    },
+    {
+      "epoch": 0.2128308161285853,
+      "grad_norm": 0.4623449146747589,
+      "learning_rate": 0.0009102721425911724,
+      "loss": 1.019983172416687,
+      "step": 4608
+    },
+    {
+      "epoch": 0.22465475035795113,
+      "grad_norm": 0.17263032495975494,
+      "learning_rate": 0.0008991047398236636,
+      "loss": 1.017630934715271,
+      "step": 4864
+    },
+    {
+      "epoch": 0.236478684587317,
+      "grad_norm": 0.8617929816246033,
+      "learning_rate": 0.0008873597129658053,
+      "loss": 1.0077481269836426,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.23889310307562622,
+      "eval_loss": 0.9500942819466874,
+      "eval_mse_loss": 0.8306477298475292,
+      "flow/cos_sim": 0.7611069038306197,
+      "flow/improvement_ratio": 0.47608428826070814,
+      "flow/mag_ratio_mean": 0.7442350685596466,
+      "flow/mag_ratio_std": 0.16566321992030428,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.23889310307562622,
+      "eval_loss": 0.9500942819466874,
+      "eval_mse_loss": 0.8306477298475292,
+      "eval_runtime": 38.35,
+      "eval_samples_per_second": 729.934,
+      "eval_steps_per_second": 11.421,
+      "flow/cos_sim": 0.7611069038306197,
+      "flow/improvement_ratio": 0.47608428826070814,
+      "flow/mag_ratio_mean": 0.7442350685596466,
+      "flow/mag_ratio_std": 0.16566321992030428,
+      "step": 5120
+    },
+    {
+      "epoch": 0.24830261881668284,
+      "grad_norm": 1.1165090799331665,
+      "learning_rate": 0.0008750540605890948,
+      "loss": 1.0057861804962158,
+      "step": 5376
+    },
+    {
+      "epoch": 0.2601265530460487,
+      "grad_norm": 0.3366983234882355,
+      "learning_rate": 0.0008622055926580629,
+      "loss": 1.0057446956634521,
+      "step": 5632
+    },
+    {
+      "epoch": 0.27195048727541454,
+      "grad_norm": 0.18536005914211273,
+      "learning_rate": 0.0008488329047539208,
+      "loss": 1.0015759468078613,
+      "step": 5888
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "grad_norm": 0.2887427508831024,
+      "learning_rate": 0.0008349553511611836,
+      "loss": 1.0002145767211914,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.23733438571838483,
+      "eval_loss": 0.9438223587051374,
+      "eval_mse_loss": 0.8251551663222378,
+      "flow/cos_sim": 0.7626656395931767,
+      "flow/improvement_ratio": 0.48116366265843447,
+      "flow/mag_ratio_mean": 0.7489744677935561,
+      "flow/mag_ratio_std": 0.17211752354282223,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.23733438571838483,
+      "eval_loss": 0.9438223587051374,
+      "eval_mse_loss": 0.8251551663222378,
+      "eval_runtime": 37.8333,
+      "eval_samples_per_second": 739.903,
+      "eval_steps_per_second": 11.577,
+      "flow/cos_sim": 0.7626656395931767,
+      "flow/improvement_ratio": 0.48116366265843447,
+      "flow/mag_ratio_mean": 0.7489744677935561,
+      "flow/mag_ratio_std": 0.17211752354282223,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2955983557341462,
+      "grad_norm": 0.3892139196395874,
+      "learning_rate": 0.0008205930168562264,
+      "loss": 0.9933722019195557,
+      "step": 6400
+    },
+    {
+      "epoch": 0.30742228996351206,
+      "grad_norm": 0.5060065388679504,
+      "learning_rate": 0.0008057666884383055,
+      "loss": 0.9938154220581055,
+      "step": 6656
+    },
+    {
+      "epoch": 0.3192462241928779,
+      "grad_norm": 0.5501173734664917,
+      "learning_rate": 0.0007904978240451256,
+      "loss": 0.9929619431495667,
+      "step": 6912
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "grad_norm": 0.531117856502533,
+      "learning_rate": 0.000774870597388272,
+      "loss": 0.992885410785675,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.2344179714447287,
+      "eval_loss": 0.9344740850196037,
+      "eval_mse_loss": 0.8172650986338315,
+      "flow/cos_sim": 0.7655820315831328,
+      "flow/improvement_ratio": 0.4813905014703263,
+      "flow/mag_ratio_mean": 0.749662634988898,
+      "flow/mag_ratio_std": 0.17085277949157915,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.2344179714447287,
+      "eval_loss": 0.9344740850196037,
+      "eval_mse_loss": 0.8172650986338315,
+      "eval_runtime": 37.5903,
+      "eval_samples_per_second": 744.687,
+      "eval_steps_per_second": 11.652,
+      "flow/cos_sim": 0.7655820315831328,
+      "flow/improvement_ratio": 0.4813905014703263,
+      "flow/mag_ratio_mean": 0.749662634988898,
+      "flow/mag_ratio_std": 0.17085277949157915,
+      "step": 7168
+    },
+    {
+      "epoch": 0.34289409265160964,
+      "grad_norm": 0.1288619190454483,
+      "learning_rate": 0.0007587850741039065,
+      "loss": 0.9900345802307129,
+      "step": 7424
+    },
+    {
+      "epoch": 0.3547180268809755,
+      "grad_norm": 0.5061522722244263,
+      "learning_rate": 0.000742325011311212,
+      "loss": 0.9876418709754944,
+      "step": 7680
+    },
+    {
+      "epoch": 0.3665419611103413,
+      "grad_norm": 0.3961803615093231,
+      "learning_rate": 0.0007255142316508366,
+      "loss": 0.9861115217208862,
+      "step": 7936
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "grad_norm": 1.0998958349227905,
+      "learning_rate": 0.0007083770653557752,
+      "loss": 0.9850316047668457,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.2321178341565067,
+      "eval_loss": 0.9271248780429091,
+      "eval_mse_loss": 0.8110659605564048,
+      "flow/cos_sim": 0.7678821885694652,
+      "flow/improvement_ratio": 0.47983810108274083,
+      "flow/mag_ratio_mean": 0.7483109420837333,
+      "flow/mag_ratio_std": 0.17305424319554683,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.2321178341565067,
+      "eval_loss": 0.9271248780429091,
+      "eval_mse_loss": 0.8110659605564048,
+      "eval_runtime": 37.6489,
+      "eval_samples_per_second": 743.528,
+      "eval_steps_per_second": 11.634,
+      "flow/cos_sim": 0.7678821885694652,
+      "flow/improvement_ratio": 0.47983810108274083,
+      "flow/mag_ratio_mean": 0.7483109420837333,
+      "flow/mag_ratio_std": 0.17305424319554683,
+      "step": 8192
+    },
+    {
+      "epoch": 0.390189829569073,
+      "grad_norm": 0.9258986115455627,
+      "learning_rate": 0.0006909383150382365,
+      "loss": 0.9811054468154907,
+      "step": 8448
+    },
+    {
+      "epoch": 0.4020137637984389,
+      "grad_norm": 1.5331991910934448,
+      "learning_rate": 0.0006732232197928334,
+      "loss": 0.9832378625869751,
+      "step": 8704
+    },
+    {
+      "epoch": 0.41383769802780473,
+      "grad_norm": 0.13353095948696136,
+      "learning_rate": 0.0006552574186680553,
+      "loss": 0.9800243377685547,
+      "step": 8960
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "grad_norm": 0.8382576704025269,
+      "learning_rate": 0.0006370669135588852,
+      "loss": 0.9766659140586853,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.23024527721753404,
+      "eval_loss": 0.9205626799091357,
+      "eval_mse_loss": 0.8054400410282013,
+      "flow/cos_sim": 0.7697547297227328,
+      "flow/improvement_ratio": 0.4783771674926967,
+      "flow/mag_ratio_mean": 0.7531407558482531,
+      "flow/mag_ratio_std": 0.17515080694330337,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.23024527721753404,
+      "eval_loss": 0.9205626799091357,
+      "eval_mse_loss": 0.8054400410282013,
+      "eval_runtime": 37.56,
+      "eval_samples_per_second": 745.287,
+      "eval_steps_per_second": 11.661,
+      "flow/cos_sim": 0.7697547297227328,
+      "flow/improvement_ratio": 0.4783771674926967,
+      "flow/mag_ratio_mean": 0.7531407558482531,
+      "flow/mag_ratio_std": 0.17515080694330337,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4374855664865364,
+      "grad_norm": 0.17838020622730255,
+      "learning_rate": 0.0006187502147205189,
+      "loss": 0.9791604280471802,
+      "step": 9472
+    },
+    {
+      "epoch": 0.44930950071590225,
+      "grad_norm": 0.24214127659797668,
+      "learning_rate": 0.000600190188915804,
+      "loss": 0.9759600162506104,
+      "step": 9728
+    },
+    {
+      "epoch": 0.4611334349452681,
+      "grad_norm": 0.5306867361068726,
+      "learning_rate": 0.0005814851579007778,
+      "loss": 0.9733525514602661,
+      "step": 9984
+    },
+    {
+      "epoch": 0.472957369174634,
+      "grad_norm": 0.8362441062927246,
+      "learning_rate": 0.0005626621934574736,
+      "loss": 0.9725903272628784,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.22953055931688987,
+      "eval_loss": 0.9186442800580639,
+      "eval_mse_loss": 0.8038789996001274,
+      "flow/cos_sim": 0.7704694516038242,
+      "flow/improvement_ratio": 0.48191878424115375,
+      "flow/mag_ratio_mean": 0.7543752857539208,
+      "flow/mag_ratio_std": 0.1764680508132939,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.22953055931688987,
+      "eval_loss": 0.9186442800580639,
+      "eval_mse_loss": 0.8038789996001274,
+      "eval_runtime": 37.383,
+      "eval_samples_per_second": 748.816,
+      "eval_steps_per_second": 11.717,
+      "flow/cos_sim": 0.7704694516038242,
+      "flow/improvement_ratio": 0.48191878424115375,
+      "flow/mag_ratio_mean": 0.7543752857539208,
+      "flow/mag_ratio_std": 0.1764680508132939,
+      "step": 10240
+    },
+    {
+      "epoch": 0.48478130340399983,
+      "grad_norm": 0.5765674710273743,
+      "learning_rate": 0.0005437485380529165,
+      "loss": 0.9690040946006775,
+      "step": 10496
+    },
+    {
+      "epoch": 0.49660523763336567,
+      "grad_norm": 1.1299241781234741,
+      "learning_rate": 0.0005247715654111146,
+      "loss": 0.9676824808120728,
+      "step": 10752
+    },
+    {
+      "epoch": 0.5084291718627315,
+      "grad_norm": 0.9060980081558228,
+      "learning_rate": 0.0005057587408950816,
+      "loss": 0.9672520160675049,
+      "step": 11008
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "grad_norm": 0.1904771476984024,
+      "learning_rate": 0.00048673758175623157,
+      "loss": 0.9666534662246704,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.2270588960889812,
+      "eval_loss": 0.9110365677369784,
+      "eval_mse_loss": 0.7975071200497075,
+      "flow/cos_sim": 0.7729411255823423,
+      "flow/improvement_ratio": 0.4843705101916779,
+      "flow/mag_ratio_mean": 0.7594509196880201,
+      "flow/mag_ratio_std": 0.17728658469572459,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.2270588960889812,
+      "eval_loss": 0.9110365677369784,
+      "eval_mse_loss": 0.7975071200497075,
+      "eval_runtime": 37.7887,
+      "eval_samples_per_second": 740.776,
+      "eval_steps_per_second": 11.591,
+      "flow/cos_sim": 0.7729411255823423,
+      "flow/improvement_ratio": 0.4843705101916779,
+      "flow/mag_ratio_mean": 0.7594509196880201,
+      "flow/mag_ratio_std": 0.17728658469572459,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5320770403214632,
+      "grad_norm": 1.2817021608352661,
+      "learning_rate": 0.0004678097707725879,
+      "loss": 0.9641943573951721,
+      "step": 11520
+    },
+    {
+      "epoch": 0.5439009745508291,
+      "grad_norm": 0.21733422577381134,
+      "learning_rate": 0.00044885426671328947,
+      "loss": 0.9682671427726746,
+      "step": 11776
+    },
+    {
+      "epoch": 0.5557249087801949,
+      "grad_norm": 1.7028273344039917,
+      "learning_rate": 0.0004299727858481981,
+      "loss": 0.9672344326972961,
+      "step": 12032
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "grad_norm": 0.37147364020347595,
+      "learning_rate": 0.00041119265533512737,
+      "loss": 0.9616128206253052,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.22645196407080787,
+      "eval_loss": 0.9077021104015716,
+      "eval_mse_loss": 0.7944761288764814,
+      "flow/cos_sim": 0.7735480565458672,
+      "flow/improvement_ratio": 0.48385851391374246,
+      "flow/mag_ratio_mean": 0.7533418638248967,
+      "flow/mag_ratio_std": 0.17509023045704245,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.22645196407080787,
+      "eval_loss": 0.9077021104015716,
+      "eval_mse_loss": 0.7944761288764814,
+      "eval_runtime": 37.7605,
+      "eval_samples_per_second": 741.331,
+      "eval_steps_per_second": 11.599,
+      "flow/cos_sim": 0.7735480565458672,
+      "flow/improvement_ratio": 0.48385851391374246,
+      "flow/mag_ratio_mean": 0.7533418638248967,
+      "flow/mag_ratio_std": 0.17509023045704245,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5793727772389267,
+      "grad_norm": 0.16461700201034546,
+      "learning_rate": 0.0003925410556475763,
+      "loss": 0.9629362225532532,
+      "step": 12544
+    },
+    {
+      "epoch": 0.5911967114682924,
+      "grad_norm": 0.7557469010353088,
+      "learning_rate": 0.00037404498123644504,
+      "loss": 0.9638089537620544,
+      "step": 12800
+    },
+    {
+      "epoch": 0.6030206456976583,
+      "grad_norm": 0.22433336079120636,
+      "learning_rate": 0.0003557312014609784,
+      "loss": 0.9633023142814636,
+      "step": 13056
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "grad_norm": 0.23267188668251038,
+      "learning_rate": 0.00033762622184548686,
+      "loss": 0.958705723285675,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.22426548933601814,
+      "eval_loss": 0.9016523400670318,
+      "eval_mse_loss": 0.7895195963175874,
+      "flow/cos_sim": 0.7757345382209238,
+      "flow/improvement_ratio": 0.47811366291078805,
+      "flow/mag_ratio_mean": 0.7582496140645519,
+      "flow/mag_ratio_std": 0.17954147260074746,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.22426548933601814,
+      "eval_loss": 0.9016523400670318,
+      "eval_mse_loss": 0.7895195963175874,
+      "eval_runtime": 37.7469,
+      "eval_samples_per_second": 741.598,
+      "eval_steps_per_second": 11.604,
+      "flow/cos_sim": 0.7757345382209238,
+      "flow/improvement_ratio": 0.47811366291078805,
+      "flow/mag_ratio_mean": 0.7582496140645519,
+      "flow/mag_ratio_std": 0.17954147260074746,
+      "step": 13312
+    },
+    {
+      "epoch": 0.62666851415639,
+      "grad_norm": 0.8010876178741455,
+      "learning_rate": 0.00031975624571791317,
+      "loss": 0.9547749757766724,
+      "step": 13568
+    },
+    {
+      "epoch": 0.6384924483857558,
+      "grad_norm": 0.7472712397575378,
+      "learning_rate": 0.00030214713628576984,
+      "loss": 0.9569481015205383,
+      "step": 13824
+    },
+    {
+      "epoch": 0.6503163826151217,
+      "grad_norm": 0.37432172894477844,
+      "learning_rate": 0.000284891456531408,
+      "loss": 0.9571910500526428,
+      "step": 14080
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "grad_norm": 0.5804730653762817,
+      "learning_rate": 0.00026787885831585745,
+      "loss": 0.9551773071289062,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.2237415857034731,
+      "eval_loss": 0.8986687686073181,
+      "eval_mse_loss": 0.7867979765210522,
+      "flow/cos_sim": 0.7762584320214241,
+      "flow/improvement_ratio": 0.4805531155437095,
+      "flow/mag_ratio_mean": 0.7577235157086969,
+      "flow/mag_ratio_std": 0.1783803814690407,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.2237415857034731,
+      "eval_loss": 0.8986687686073181,
+      "eval_mse_loss": 0.7867979765210522,
+      "eval_runtime": 37.8958,
+      "eval_samples_per_second": 738.683,
+      "eval_steps_per_second": 11.558,
+      "flow/cos_sim": 0.7762584320214241,
+      "flow/improvement_ratio": 0.4805531155437095,
+      "flow/mag_ratio_mean": 0.7577235157086969,
+      "flow/mag_ratio_std": 0.1783803814690407,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6739642510738534,
+      "grad_norm": 0.4953038990497589,
+      "learning_rate": 0.0002512022089125798,
+      "loss": 0.9555047154426575,
+      "step": 14592
+    },
+    {
+      "epoch": 0.6857881853032193,
+      "grad_norm": 0.9414182901382446,
+      "learning_rate": 0.00023488564442791606,
+      "loss": 0.9574738144874573,
+      "step": 14848
+    },
+    {
+      "epoch": 0.6976121195325851,
+      "grad_norm": 0.4800240993499756,
+      "learning_rate": 0.0002189527798174848,
+      "loss": 0.9548642635345459,
+      "step": 15104
+    },
+    {
+      "epoch": 0.709436053761951,
+      "grad_norm": 0.8845779299736023,
+      "learning_rate": 0.00020342667470826854,
+      "loss": 0.9534708261489868,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.22472695407529944,
+      "eval_loss": 0.9025066166980081,
+      "eval_mse_loss": 0.7901431399665467,
+      "flow/cos_sim": 0.7752730657248736,
+      "flow/improvement_ratio": 0.4882404270781774,
+      "flow/mag_ratio_mean": 0.7596338093280792,
+      "flow/mag_ratio_std": 0.17930837312381562,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.22472695407529944,
+      "eval_loss": 0.9025066166980081,
+      "eval_mse_loss": 0.7901431399665467,
+      "eval_runtime": 38.1115,
+      "eval_samples_per_second": 734.503,
+      "eval_steps_per_second": 11.493,
+      "flow/cos_sim": 0.7752730657248736,
+      "flow/improvement_ratio": 0.4882404270781774,
+      "flow/mag_ratio_mean": 0.7596338093280792,
+      "flow/mag_ratio_std": 0.17930837312381562,
+      "step": 15360
+    },
+    {
+      "epoch": 0.7212599879913169,
+      "grad_norm": 0.19289438426494598,
+      "learning_rate": 0.00018832980002442701,
+      "loss": 0.9571536779403687,
+      "step": 15616
+    },
+    {
+      "epoch": 0.7330839222206826,
+      "grad_norm": 0.377024382352829,
+      "learning_rate": 0.00017368400546514002,
+      "loss": 0.9562097191810608,
+      "step": 15872
+    },
+    {
+      "epoch": 0.7449078564500485,
+      "grad_norm": 0.2716529667377472,
+      "learning_rate": 0.00015951048788154866,
+      "loss": 0.9509574770927429,
+      "step": 16128
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "grad_norm": 0.32783976197242737,
+      "learning_rate": 0.0001458297605985633,
+      "loss": 0.9516466856002808,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.22373602280741958,
+      "eval_loss": 0.8992317022253934,
+      "eval_mse_loss": 0.7873636899201293,
+      "flow/cos_sim": 0.7762640047835433,
+      "flow/improvement_ratio": 0.4824598703074129,
+      "flow/mag_ratio_mean": 0.7615949167236346,
+      "flow/mag_ratio_std": 0.179001236479032,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.22373602280741958,
+      "eval_loss": 0.8992317022253934,
+      "eval_mse_loss": 0.7873636899201293,
+      "eval_runtime": 37.8407,
+      "eval_samples_per_second": 739.758,
+      "eval_steps_per_second": 11.575,
+      "flow/cos_sim": 0.7762640047835433,
+      "flow/improvement_ratio": 0.4824598703074129,
+      "flow/mag_ratio_mean": 0.7615949167236346,
+      "flow/mag_ratio_std": 0.179001236479032,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7685557249087802,
+      "grad_norm": 0.4769844710826874,
+      "learning_rate": 0.00013266162372593872,
+      "loss": 0.949449360370636,
+      "step": 16640
+    },
+    {
+      "epoch": 0.780379659138146,
+      "grad_norm": 0.17671078443527222,
+      "learning_rate": 0.00012002513550158511,
+      "loss": 0.9504072666168213,
+      "step": 16896
+    },
+    {
+      "epoch": 0.7922035933675119,
+      "grad_norm": 0.5919731855392456,
+      "learning_rate": 0.00010798470498931034,
+      "loss": 0.9529365301132202,
+      "step": 17152
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "grad_norm": 0.2042759358882904,
+      "learning_rate": 9.646333498481152e-05,
+      "loss": 0.9518898725509644,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.2236619240957308,
+      "eval_loss": 0.8992718941272666,
+      "eval_mse_loss": 0.7874409310077424,
+      "flow/cos_sim": 0.7763380925404971,
+      "flow/improvement_ratio": 0.4808275544480102,
+      "flow/mag_ratio_mean": 0.7600411922419996,
+      "flow/mag_ratio_std": 0.18042517123429197,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.2236619240957308,
+      "eval_loss": 0.8992718941272666,
+      "eval_mse_loss": 0.7874409310077424,
+      "eval_runtime": 37.719,
+      "eval_samples_per_second": 742.147,
+      "eval_steps_per_second": 11.612,
+      "flow/cos_sim": 0.7763380925404971,
+      "flow/improvement_ratio": 0.4808275544480102,
+      "flow/mag_ratio_mean": 0.7600411922419996,
+      "flow/mag_ratio_std": 0.18042517123429197,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8158514618262436,
+      "grad_norm": 0.3804217576980591,
+      "learning_rate": 8.552600339377569e-05,
+      "loss": 0.9526547193527222,
+      "step": 17664
+    },
+    {
+      "epoch": 0.8276753960556095,
+      "grad_norm": 0.13327613472938538,
+      "learning_rate": 7.518853981074431e-05,
+      "loss": 0.9486812353134155,
+      "step": 17920
+    },
+    {
+      "epoch": 0.8394993302849753,
+      "grad_norm": 0.20542556047439575,
+      "learning_rate": 6.546590564159156e-05,
+      "loss": 0.949363112449646,
+      "step": 18176
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "grad_norm": 0.45832833647727966,
+      "learning_rate": 5.637217244988779e-05,
+      "loss": 0.9490708708763123,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.22359807510354204,
+      "eval_loss": 0.8977929246207895,
+      "eval_mse_loss": 0.785993887681395,
+      "flow/cos_sim": 0.7764019544266131,
+      "flow/improvement_ratio": 0.47894510915970695,
+      "flow/mag_ratio_mean": 0.7616693674157199,
+      "flow/mag_ratio_std": 0.17972967324599828,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.22359807510354204,
+      "eval_loss": 0.8977929246207895,
+      "eval_mse_loss": 0.785993887681395,
+      "eval_runtime": 37.7351,
+      "eval_samples_per_second": 741.829,
+      "eval_steps_per_second": 11.607,
+      "flow/cos_sim": 0.7764019544266131,
+      "flow/improvement_ratio": 0.47894510915970695,
+      "flow/mag_ratio_mean": 0.7616693674157199,
+      "flow/mag_ratio_std": 0.17972967324599828,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8631471987437069,
+      "grad_norm": 0.44674035906791687,
+      "learning_rate": 4.792050159113337e-05,
+      "loss": 0.9491938352584839,
+      "step": 18688
+    },
+    {
+      "epoch": 0.8749711329730728,
+      "grad_norm": 0.3422182500362396,
+      "learning_rate": 4.012312516433581e-05,
+      "loss": 0.9448590278625488,
+      "step": 18944
+    },
+    {
+      "epoch": 0.8867950672024387,
+      "grad_norm": 0.19175578653812408,
+      "learning_rate": 3.2991328308497545e-05,
+      "loss": 0.9500359892845154,
+      "step": 19200
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "grad_norm": 0.5182244181632996,
+      "learning_rate": 2.653543286964183e-05,
+      "loss": 0.9520748853683472,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.2243065895623268,
+      "eval_loss": 0.9002899413239466,
+      "eval_mse_loss": 0.7881366464917519,
+      "flow/cos_sim": 0.7756934289790723,
+      "flow/improvement_ratio": 0.48521961890943516,
+      "flow/mag_ratio_mean": 0.7599015614213465,
+      "flow/mag_ratio_std": 0.17938740075178886,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.2243065895623268,
+      "eval_loss": 0.9002899413239466,
+      "eval_mse_loss": 0.7881366464917519,
+      "eval_runtime": 38.0865,
+      "eval_samples_per_second": 734.985,
+      "eval_steps_per_second": 11.5,
+      "flow/cos_sim": 0.7756934289790723,
+      "flow/improvement_ratio": 0.48521961890943516,
+      "flow/mag_ratio_mean": 0.7599015614213465,
+      "flow/mag_ratio_std": 0.17938740075178886,
+      "step": 19456
+    },
+    {
+      "epoch": 0.9104429356611704,
+      "grad_norm": 0.35820356011390686,
+      "learning_rate": 2.076478246200819e-05,
+      "loss": 0.9483771324157715,
+      "step": 19712
+    },
+    {
+      "epoch": 0.9222668698905362,
+      "grad_norm": 0.2084021270275116,
+      "learning_rate": 1.5687728945045944e-05,
+      "loss": 0.9474115371704102,
+      "step": 19968
+    },
+    {
+      "epoch": 0.9340908041199021,
+      "grad_norm": 0.39592018723487854,
+      "learning_rate": 1.1311620335770879e-05,
+      "loss": 0.9525643587112427,
+      "step": 20224
+    },
+    {
+      "epoch": 0.945914738349268,
+      "grad_norm": 0.6320902109146118,
+      "learning_rate": 7.642790173984836e-06,
+      "loss": 0.9535797834396362,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.22213090517341275,
+      "eval_loss": 0.8940546147899541,
+      "eval_mse_loss": 0.7829891629687183,
+      "flow/cos_sim": 0.7778691155453251,
+      "flow/improvement_ratio": 0.4782056734986501,
+      "flow/mag_ratio_mean": 0.7631440506950361,
+      "flow/mag_ratio_std": 0.18027915234026842,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.22213090517341275,
+      "eval_loss": 0.8940546147899541,
+      "eval_mse_loss": 0.7829891629687183,
+      "eval_runtime": 37.8602,
+      "eval_samples_per_second": 739.378,
+      "eval_steps_per_second": 11.569,
+      "flow/cos_sim": 0.7778691155453251,
+      "flow/improvement_ratio": 0.4782056734986501,
+      "flow/mag_ratio_mean": 0.7631440506950361,
+      "flow/mag_ratio_std": 0.18027915234026842,
+      "step": 20480
+    },
+    {
+      "epoch": 0.9577386725786338,
+      "grad_norm": 0.1165478378534317,
+      "learning_rate": 4.686548355746001e-06,
+      "loss": 0.9476454257965088,
+      "step": 20736
+    },
+    {
+      "epoch": 0.9695626068079997,
+      "grad_norm": 0.2622009813785553,
+      "learning_rate": 2.447173448359541e-06,
+      "loss": 0.9495624303817749,
+      "step": 20992
+    },
+    {
+      "epoch": 0.9813865410373654,
+      "grad_norm": 0.15396808087825775,
+      "learning_rate": 9.324369820445933e-07,
+      "loss": 0.9498383402824402,
+      "step": 21248
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "grad_norm": 0.40939903259277344,
+      "learning_rate": 1.3265238678672464e-07,
+      "loss": 0.9499406218528748,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.2221550636639878,
+      "eval_loss": 0.8939511321451021,
+      "eval_mse_loss": 0.7828736011296102,
+      "flow/cos_sim": 0.7778449566124781,
+      "flow/improvement_ratio": 0.4865727505591362,
+      "flow/mag_ratio_mean": 0.7616105286498048,
+      "flow/mag_ratio_std": 0.17894721432635774,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.2221550636639878,
+      "eval_loss": 0.8939511321451021,
+      "eval_mse_loss": 0.7828736011296102,
+      "eval_runtime": 37.7989,
+      "eval_samples_per_second": 740.578,
+      "eval_steps_per_second": 11.588,
+      "flow/cos_sim": 0.7778449566124781,
+      "flow/improvement_ratio": 0.4865727505591362,
+      "flow/mag_ratio_mean": 0.7616105286498048,
+      "flow/mag_ratio_std": 0.17894721432635774,
+      "step": 21504
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v2.6-b-whitened/checkpoint-21651-cos-c/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03a8c5803c6e5663005c9dc7a4c98c213c8267649ccec42581475db390cc8017
+size 5137