Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/ema.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/model.safetensors +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/optimizer.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/rng_state.pth +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/scaler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/scheduler.pt +3 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/trainer_state.json +1147 -0
checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/training_args.bin +3 -0

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a2a32859055f97fbfbe0989fa3091773cfb566adbc39c9b34e12b5de5801cb87
+size 550088

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7e2d0fab1584bf9bbec1a625394a796c1b2c9afbe8b98aa4ea6fb08728c2587
+size 19331448

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3085dd90a19e9972c3e49fadbf0675cec3bc05760751e2f5fb6567b1caeae6a0
+size 1175115

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13e90563fac8d100230efe8ed83cb90f5dba5cae4ef0fd5b21a7a334409667e3
+size 14645

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee689d322f8870883eb5482aad3b5b538ce3269e8ddea5b00303d4b3f119e7f2
+size 1383

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7471abe87daee5812e0143e98b883deb1b8470ee6335c3211aed51c21b3e9b2
+size 1465

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1147 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1024,
+  "global_step": 21651,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011823934229365849,
+      "grad_norm": 0.09569866210222244,
+      "learning_rate": 0.000498046875,
+      "loss": 1.5880346298217773,
+      "step": 256
+    },
+    {
+      "epoch": 0.023647868458731697,
+      "grad_norm": 0.2192409783601761,
+      "learning_rate": 0.000998046875,
+      "loss": 1.4462625980377197,
+      "step": 512
+    },
+    {
+      "epoch": 0.03547180268809755,
+      "grad_norm": 0.15315723419189453,
+      "learning_rate": 0.000999640996023194,
+      "loss": 1.4166769981384277,
+      "step": 768
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "grad_norm": 0.13406045734882355,
+      "learning_rate": 0.0009985588674043958,
+      "loss": 1.4018187522888184,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.45207368960119276,
+      "eval_loss": 1.3437623885124241,
+      "eval_mse_loss": 1.3437623885124241,
+      "flow/cos_sim": 0.5479263313556915,
+      "flow/improvement_ratio": 0.9628635779635547,
+      "flow/mag_ratio_mean": 0.5208221970627841,
+      "flow/mag_ratio_std": 0.233159439748825,
+      "step": 1024
+    },
+    {
+      "epoch": 0.047295736917463395,
+      "eval_cos_loss": 0.45207368960119276,
+      "eval_loss": 1.3437623885124241,
+      "eval_mse_loss": 1.3437623885124241,
+      "eval_runtime": 37.5421,
+      "eval_samples_per_second": 745.644,
+      "eval_steps_per_second": 11.667,
+      "flow/cos_sim": 0.5479263313556915,
+      "flow/improvement_ratio": 0.9628635779635547,
+      "flow/mag_ratio_mean": 0.5208221970627841,
+      "flow/mag_ratio_std": 0.233159439748825,
+      "step": 1024
+    },
+    {
+      "epoch": 0.05911967114682925,
+      "grad_norm": 0.0972137451171875,
+      "learning_rate": 0.0009967551747861387,
+      "loss": 1.3902651071548462,
+      "step": 1280
+    },
+    {
+      "epoch": 0.0709436053761951,
+      "grad_norm": 0.14126092195510864,
+      "learning_rate": 0.000994232528651847,
+      "loss": 1.3812060356140137,
+      "step": 1536
+    },
+    {
+      "epoch": 0.08276753960556095,
+      "grad_norm": 0.1323232799768448,
+      "learning_rate": 0.0009909945800260092,
+      "loss": 1.3731763362884521,
+      "step": 1792
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "grad_norm": 0.12168626487255096,
+      "learning_rate": 0.0009870460151900522,
+      "loss": 1.3701106309890747,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.4376054533404302,
+      "eval_loss": 1.3113038681413485,
+      "eval_mse_loss": 1.3113038681413485,
+      "flow/cos_sim": 0.5623945456389423,
+      "flow/improvement_ratio": 0.9671858225238922,
+      "flow/mag_ratio_mean": 0.5475226872043523,
+      "flow/mag_ratio_std": 0.22791343485111515,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09459147383492679,
+      "eval_cos_loss": 0.4376054533404302,
+      "eval_loss": 1.3113038681413485,
+      "eval_mse_loss": 1.3113038681413485,
+      "eval_runtime": 37.8146,
+      "eval_samples_per_second": 740.269,
+      "eval_steps_per_second": 11.583,
+      "flow/cos_sim": 0.5623945456389423,
+      "flow/improvement_ratio": 0.9671858225238922,
+      "flow/mag_ratio_mean": 0.5475226872043523,
+      "flow/mag_ratio_std": 0.22791343485111515,
+      "step": 2048
+    },
+    {
+      "epoch": 0.10641540806429264,
+      "grad_norm": 0.2189980149269104,
+      "learning_rate": 0.0009823925488998885,
+      "loss": 1.365272045135498,
+      "step": 2304
+    },
+    {
+      "epoch": 0.1182393422936585,
+      "grad_norm": 0.13494963943958282,
+      "learning_rate": 0.0009770409161149525,
+      "loss": 1.3604322671890259,
+      "step": 2560
+    },
+    {
+      "epoch": 0.13006327652302435,
+      "grad_norm": 0.15494734048843384,
+      "learning_rate": 0.0009709988622506973,
+      "loss": 1.3540434837341309,
+      "step": 2816
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "grad_norm": 0.22788871824741364,
+      "learning_rate": 0.000964275131968659,
+      "loss": 1.349321961402893,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.42982482685618206,
+      "eval_loss": 1.2939421316804407,
+      "eval_mse_loss": 1.2939421316804407,
+      "flow/cos_sim": 0.570175179199541,
+      "flow/improvement_ratio": 0.9673227557580765,
+      "flow/mag_ratio_mean": 0.5452962271426911,
+      "flow/mag_ratio_std": 0.2266011188427607,
+      "step": 3072
+    },
+    {
+      "epoch": 0.1418872107523902,
+      "eval_cos_loss": 0.42982482685618206,
+      "eval_loss": 1.2939421316804407,
+      "eval_mse_loss": 1.2939421316804407,
+      "eval_runtime": 37.745,
+      "eval_samples_per_second": 741.635,
+      "eval_steps_per_second": 11.604,
+      "flow/cos_sim": 0.570175179199541,
+      "flow/improvement_ratio": 0.9673227557580765,
+      "flow/mag_ratio_mean": 0.5452962271426911,
+      "flow/mag_ratio_std": 0.2266011188427607,
+      "step": 3072
+    },
+    {
+      "epoch": 0.15371114498175603,
+      "grad_norm": 0.20747806131839752,
+      "learning_rate": 0.0009568794565203123,
+      "loss": 1.3453736305236816,
+      "step": 3328
+    },
+    {
+      "epoch": 0.1655350792111219,
+      "grad_norm": 0.17263494431972504,
+      "learning_rate": 0.0009488225396630347,
+      "loss": 1.340674638748169,
+      "step": 3584
+    },
+    {
+      "epoch": 0.17735901344048774,
+      "grad_norm": 0.2962719202041626,
+      "learning_rate": 0.0009401160421685646,
+      "loss": 1.3391236066818237,
+      "step": 3840
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "grad_norm": 0.16420359909534454,
+      "learning_rate": 0.0009307725649463714,
+      "loss": 1.3361057043075562,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.4240955041559864,
+      "eval_loss": 1.2801687752819497,
+      "eval_mse_loss": 1.2801687752819497,
+      "flow/cos_sim": 0.5759045221762026,
+      "flow/improvement_ratio": 0.9666935048963381,
+      "flow/mag_ratio_mean": 0.5514270578889542,
+      "flow/mag_ratio_std": 0.22640302569762757,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18918294766985358,
+      "eval_cos_loss": 0.4240955041559864,
+      "eval_loss": 1.2801687752819497,
+      "eval_mse_loss": 1.2801687752819497,
+      "eval_runtime": 38.3686,
+      "eval_samples_per_second": 729.581,
+      "eval_steps_per_second": 11.416,
+      "flow/cos_sim": 0.5759045221762026,
+      "flow/improvement_ratio": 0.9666935048963381,
+      "flow/mag_ratio_mean": 0.5514270578889542,
+      "flow/mag_ratio_std": 0.22640302569762757,
+      "step": 4096
+    },
+    {
+      "epoch": 0.20100688189921945,
+      "grad_norm": 0.12603771686553955,
+      "learning_rate": 0.0009208056308063659,
+      "loss": 1.33461594581604,
+      "step": 4352
+    },
+    {
+      "epoch": 0.2128308161285853,
+      "grad_norm": 0.19605204463005066,
+      "learning_rate": 0.0009102296648873445,
+      "loss": 1.331618070602417,
+      "step": 4608
+    },
+    {
+      "epoch": 0.22465475035795113,
+      "grad_norm": 0.18875588476657867,
+      "learning_rate": 0.0008990599737794927,
+      "loss": 1.3282458782196045,
+      "step": 4864
+    },
+    {
+      "epoch": 0.236478684587317,
+      "grad_norm": 0.2160559743642807,
+      "learning_rate": 0.0008873127233711644,
+      "loss": 1.3277790546417236,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.41806757422887025,
+      "eval_loss": 1.265079188020262,
+      "eval_mse_loss": 1.265079188020262,
+      "flow/cos_sim": 0.5819324474084323,
+      "flow/improvement_ratio": 0.9681754838930418,
+      "flow/mag_ratio_mean": 0.5667929013842317,
+      "flow/mag_ratio_std": 0.230164142231963,
+      "step": 5120
+    },
+    {
+      "epoch": 0.236478684587317,
+      "eval_cos_loss": 0.41806757422887025,
+      "eval_loss": 1.265079188020262,
+      "eval_mse_loss": 1.265079188020262,
+      "eval_runtime": 37.8362,
+      "eval_samples_per_second": 739.847,
+      "eval_steps_per_second": 11.576,
+      "flow/cos_sim": 0.5819324474084323,
+      "flow/improvement_ratio": 0.9681754838930418,
+      "flow/mag_ratio_mean": 0.5667929013842317,
+      "flow/mag_ratio_std": 0.230164142231963,
+      "step": 5120
+    },
+    {
+      "epoch": 0.24830261881668284,
+      "grad_norm": 0.17608048021793365,
+      "learning_rate": 0.0008750049154520011,
+      "loss": 1.3224968910217285,
+      "step": 5376
+    },
+    {
+      "epoch": 0.2601265530460487,
+      "grad_norm": 0.18723173439502716,
+      "learning_rate": 0.0008621543631062487,
+      "loss": 1.3226983547210693,
+      "step": 5632
+    },
+    {
+      "epoch": 0.27195048727541454,
+      "grad_norm": 0.28667768836021423,
+      "learning_rate": 0.0008487796649318904,
+      "loss": 1.3236404657363892,
+      "step": 5888
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "grad_norm": 0.17818321287631989,
+      "learning_rate": 0.0008349001781229053,
+      "loss": 1.322943925857544,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.41820791214024094,
+      "eval_loss": 1.2648486429697847,
+      "eval_mse_loss": 1.2648486429697847,
+      "flow/cos_sim": 0.581792106911472,
+      "flow/improvement_ratio": 0.9685262489264415,
+      "flow/mag_ratio_mean": 0.5641242667148102,
+      "flow/mag_ratio_std": 0.22966983900766938,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2837744215047804,
+      "eval_cos_loss": 0.41820791214024094,
+      "eval_loss": 1.2648486429697847,
+      "eval_mse_loss": 1.2648486429697847,
+      "eval_runtime": 37.7153,
+      "eval_samples_per_second": 742.218,
+      "eval_steps_per_second": 11.613,
+      "flow/cos_sim": 0.581792106911472,
+      "flow/improvement_ratio": 0.9685262489264415,
+      "flow/mag_ratio_mean": 0.5641242667148102,
+      "flow/mag_ratio_std": 0.22966983900766938,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2955983557341462,
+      "grad_norm": 0.1694616675376892,
+      "learning_rate": 0.0008205359904536107,
+      "loss": 1.3201297521591187,
+      "step": 6400
+    },
+    {
+      "epoch": 0.30742228996351206,
+      "grad_norm": 0.132898211479187,
+      "learning_rate": 0.0008057078912056363,
+      "loss": 1.3196070194244385,
+      "step": 6656
+    },
+    {
+      "epoch": 0.3192462241928779,
+      "grad_norm": 0.16453279554843903,
+      "learning_rate": 0.0007904373410796086,
+      "loss": 1.3208717107772827,
+      "step": 6912
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "grad_norm": 0.17601802945137024,
+      "learning_rate": 0.0007747464411350876,
+      "loss": 1.3122832775115967,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.41635941411262234,
+      "eval_loss": 1.2606774454247462,
+      "eval_mse_loss": 1.2606774454247462,
+      "flow/cos_sim": 0.5836406034421703,
+      "flow/improvement_ratio": 0.9687513454591847,
+      "flow/mag_ratio_mean": 0.5603634995412609,
+      "flow/mag_ratio_std": 0.229918172064165,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3310701584222438,
+      "eval_cos_loss": 0.41635941411262234,
+      "eval_loss": 1.2606774454247462,
+      "eval_mse_loss": 1.2606774454247462,
+      "eval_runtime": 37.6655,
+      "eval_samples_per_second": 743.2,
+      "eval_steps_per_second": 11.629,
+      "flow/cos_sim": 0.5836406034421703,
+      "flow/improvement_ratio": 0.9687513454591847,
+      "flow/mag_ratio_mean": 0.5603634995412609,
+      "flow/mag_ratio_std": 0.229918172064165,
+      "step": 7168
+    },
+    {
+      "epoch": 0.34289409265160964,
+      "grad_norm": 0.20051133632659912,
+      "learning_rate": 0.000758657900803716,
+      "loss": 1.3145573139190674,
+      "step": 7424
+    },
+    {
+      "epoch": 0.3547180268809755,
+      "grad_norm": 0.16513556241989136,
+      "learning_rate": 0.000742195005021869,
+      "loss": 1.314321756362915,
+      "step": 7680
+    },
+    {
+      "epoch": 0.3665419611103413,
+      "grad_norm": 0.14811237156391144,
+      "learning_rate": 0.0007253815805303786,
+      "loss": 1.31267511844635,
+      "step": 7936
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "grad_norm": 0.16174203157424927,
+      "learning_rate": 0.0007082419613901028,
+      "loss": 1.3090040683746338,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.41421010430272853,
+      "eval_loss": 1.255406633631824,
+      "eval_mse_loss": 1.255406633631824,
+      "flow/cos_sim": 0.5857898814765286,
+      "flow/improvement_ratio": 0.9675547947350158,
+      "flow/mag_ratio_mean": 0.5615026209180214,
+      "flow/mag_ratio_std": 0.22980817267883857,
+      "step": 8192
+    },
+    {
+      "epoch": 0.37836589533970716,
+      "eval_cos_loss": 0.41421010430272853,
+      "eval_loss": 1.255406633631824,
+      "eval_mse_loss": 1.255406633631824,
+      "eval_runtime": 37.7345,
+      "eval_samples_per_second": 741.841,
+      "eval_steps_per_second": 11.607,
+      "flow/cos_sim": 0.5857898814765286,
+      "flow/improvement_ratio": 0.9675547947350158,
+      "flow/mag_ratio_mean": 0.5615026209180214,
+      "flow/mag_ratio_std": 0.22980817267883857,
+      "step": 8192
+    },
+    {
+      "epoch": 0.390189829569073,
+      "grad_norm": 0.16700798273086548,
+      "learning_rate": 0.0006908009537632514,
+      "loss": 1.3129751682281494,
+      "step": 8448
+    },
+    {
+      "epoch": 0.4020137637984389,
+      "grad_norm": 0.24064087867736816,
+      "learning_rate": 0.0006730838000114403,
+      "loss": 1.3094534873962402,
+      "step": 8704
+    },
+    {
+      "epoch": 0.41383769802780473,
+      "grad_norm": 0.14530666172504425,
+      "learning_rate": 0.0006551161421624341,
+      "loss": 1.3073418140411377,
+      "step": 8960
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "grad_norm": 0.17192459106445312,
+      "learning_rate": 0.0006369239847984517,
+      "loss": 1.3078728914260864,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.4127512027819951,
+      "eval_loss": 1.2513663472105923,
+      "eval_mse_loss": 1.2513663472105923,
+      "flow/cos_sim": 0.5872488287213731,
+      "flow/improvement_ratio": 0.9674779778201831,
+      "flow/mag_ratio_mean": 0.5694473687916586,
+      "flow/mag_ratio_std": 0.23011761682626863,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4256616322571706,
+      "eval_cos_loss": 0.4127512027819951,
+      "eval_loss": 1.2513663472105923,
+      "eval_mse_loss": 1.2513663472105923,
+      "eval_runtime": 37.8579,
+      "eval_samples_per_second": 739.422,
+      "eval_steps_per_second": 11.57,
+      "flow/cos_sim": 0.5872488287213731,
+      "flow/improvement_ratio": 0.9674779778201831,
+      "flow/mag_ratio_mean": 0.5694473687916586,
+      "flow/mag_ratio_std": 0.23011761682626863,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4374855664865364,
+      "grad_norm": 0.23076502978801727,
+      "learning_rate": 0.0006185336574197479,
+      "loss": 1.3102576732635498,
+      "step": 9472
+    },
+    {
+      "epoch": 0.44930950071590225,
+      "grad_norm": 0.14621376991271973,
+      "learning_rate": 0.0005999717763379407,
+      "loss": 1.3076387643814087,
+      "step": 9728
+    },
+    {
+      "epoch": 0.4611334349452681,
+      "grad_norm": 0.16203811764717102,
+      "learning_rate": 0.0005812652061542363,
+      "loss": 1.30989670753479,
+      "step": 9984
+    },
+    {
+      "epoch": 0.472957369174634,
+      "grad_norm": 0.20539747178554535,
+      "learning_rate": 0.00056251474645265,
+      "loss": 1.303891897201538,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.41190836418709253,
+      "eval_loss": 1.249767621630403,
+      "eval_mse_loss": 1.249767621630403,
+      "flow/cos_sim": 0.5880916381263297,
+      "flow/improvement_ratio": 0.968682945455046,
+      "flow/mag_ratio_mean": 0.5651744956567407,
+      "flow/mag_ratio_std": 0.23107788024563766,
+      "step": 10240
+    },
+    {
+      "epoch": 0.472957369174634,
+      "eval_cos_loss": 0.41190836418709253,
+      "eval_loss": 1.249767621630403,
+      "eval_mse_loss": 1.249767621630403,
+      "eval_runtime": 37.6915,
+      "eval_samples_per_second": 742.688,
+      "eval_steps_per_second": 11.621,
+      "flow/cos_sim": 0.5880916381263297,
+      "flow/improvement_ratio": 0.968682945455046,
+      "flow/mag_ratio_mean": 0.5651744956567407,
+      "flow/mag_ratio_std": 0.23107788024563766,
+      "step": 10240
+    },
+    {
+      "epoch": 0.48478130340399983,
+      "grad_norm": 0.15738213062286377,
+      "learning_rate": 0.0005436004901439003,
+      "loss": 1.3050657510757446,
+      "step": 10496
+    },
+    {
+      "epoch": 0.49660523763336567,
+      "grad_norm": 0.12687347829341888,
+      "learning_rate": 0.0005246231308675704,
+      "loss": 1.305397868156433,
+      "step": 10752
+    },
+    {
+      "epoch": 0.5084291718627315,
+      "grad_norm": 0.16636621952056885,
+      "learning_rate": 0.0005056101345462504,
+      "loss": 1.309200644493103,
+      "step": 11008
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "grad_norm": 0.1960279941558838,
+      "learning_rate": 0.000486589018680007,
+      "loss": 1.3026299476623535,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.4115127433244496,
+      "eval_loss": 1.248075142842994,
+      "eval_mse_loss": 1.248075142842994,
+      "flow/cos_sim": 0.588487300970783,
+      "flow/improvement_ratio": 0.9679215606216971,
+      "flow/mag_ratio_mean": 0.5706137126167071,
+      "flow/mag_ratio_std": 0.2307417307678423,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5202531060920974,
+      "eval_cos_loss": 0.4115127433244496,
+      "eval_loss": 1.248075142842994,
+      "eval_mse_loss": 1.248075142842994,
+      "eval_runtime": 37.7144,
+      "eval_samples_per_second": 742.236,
+      "eval_steps_per_second": 11.614,
+      "flow/cos_sim": 0.588487300970783,
+      "flow/improvement_ratio": 0.9679215606216971,
+      "flow/mag_ratio_mean": 0.5706137126167071,
+      "flow/mag_ratio_std": 0.2307417307678423,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5320770403214632,
+      "grad_norm": 0.13621048629283905,
+      "learning_rate": 0.0004675873125203213,
+      "loss": 1.300673246383667,
+      "step": 11520
+    },
+    {
+      "epoch": 0.5439009745508291,
+      "grad_norm": 0.1466982513666153,
+      "learning_rate": 0.0004486325172270148,
+      "loss": 1.301155924797058,
+      "step": 11776
+    },
+    {
+      "epoch": 0.5557249087801949,
+      "grad_norm": 0.1615927368402481,
+      "learning_rate": 0.00042975206606583617,
+      "loss": 1.3037915229797363,
+      "step": 12032
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "grad_norm": 0.15640580654144287,
+      "learning_rate": 0.00041104640628376166,
+      "loss": 1.303182601928711,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.4097346221883547,
+      "eval_loss": 1.2435936470554299,
+      "eval_mse_loss": 1.2435936470554299,
+      "flow/cos_sim": 0.590265402646914,
+      "flow/improvement_ratio": 0.9675777136735176,
+      "flow/mag_ratio_mean": 0.5710683798408944,
+      "flow/mag_ratio_std": 0.2319324413254925,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5675488430095608,
+      "eval_cos_loss": 0.4097346221883547,
+      "eval_loss": 1.2435936470554299,
+      "eval_mse_loss": 1.2435936470554299,
+      "eval_runtime": 37.5963,
+      "eval_samples_per_second": 744.567,
+      "eval_steps_per_second": 11.65,
+      "flow/cos_sim": 0.590265402646914,
+      "flow/improvement_ratio": 0.9675777136735176,
+      "flow/mag_ratio_mean": 0.5710683798408944,
+      "flow/mag_ratio_std": 0.2319324413254925,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5793727772389267,
+      "grad_norm": 0.16547168791294098,
+      "learning_rate": 0.00039239591728197724,
+      "loss": 1.3043845891952515,
+      "step": 12544
+    },
+    {
+      "epoch": 0.5911967114682924,
+      "grad_norm": 0.17937369644641876,
+      "learning_rate": 0.0003739011636152962,
+      "loss": 1.2997474670410156,
+      "step": 12800
+    },
+    {
+      "epoch": 0.6030206456976583,
+      "grad_norm": 0.1498001217842102,
+      "learning_rate": 0.0003555889127314515,
+      "loss": 1.2959861755371094,
+      "step": 13056
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "grad_norm": 0.20142780244350433,
+      "learning_rate": 0.00033748566794198856,
+      "loss": 1.2994587421417236,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.409315418026763,
+      "eval_loss": 1.2427318262182958,
+      "eval_mse_loss": 1.2427318262182958,
+      "flow/cos_sim": 0.5906845991197787,
+      "flow/improvement_ratio": 0.9675538450071256,
+      "flow/mag_ratio_mean": 0.5675903795516655,
+      "flow/mag_ratio_std": 0.23192877108103607,
+      "step": 13312
+    },
+    {
+      "epoch": 0.6148445799270241,
+      "eval_cos_loss": 0.409315418026763,
+      "eval_loss": 1.2427318262182958,
+      "eval_mse_loss": 1.2427318262182958,
+      "eval_runtime": 37.8762,
+      "eval_samples_per_second": 739.065,
+      "eval_steps_per_second": 11.564,
+      "flow/cos_sim": 0.5906845991197787,
+      "flow/improvement_ratio": 0.9675538450071256,
+      "flow/mag_ratio_mean": 0.5675903795516655,
+      "flow/mag_ratio_std": 0.23192877108103607,
+      "step": 13312
+    },
+    {
+      "epoch": 0.62666851415639,
+      "grad_norm": 0.1778940111398697,
+      "learning_rate": 0.0003196176300640379,
+      "loss": 1.295336365699768,
+      "step": 13568
+    },
+    {
+      "epoch": 0.6384924483857558,
+      "grad_norm": 0.14346152544021606,
+      "learning_rate": 0.0003020106594998839,
+      "loss": 1.298848271369934,
+      "step": 13824
+    },
+    {
+      "epoch": 0.6503163826151217,
+      "grad_norm": 0.14683885872364044,
+      "learning_rate": 0.000284690238809219,
+      "loss": 1.2984434366226196,
+      "step": 14080
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "grad_norm": 0.1461290419101715,
+      "learning_rate": 0.00026768143582824624,
+      "loss": 1.2989002466201782,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.40961713524169574,
+      "eval_loss": 1.2434003037404797,
+      "eval_mse_loss": 1.2434003037404797,
+      "flow/cos_sim": 0.5903828733315751,
+      "flow/improvement_ratio": 0.9675477706406215,
+      "flow/mag_ratio_mean": 0.5632997902288829,
+      "flow/mag_ratio_std": 0.23195934271839655,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6621403168444876,
+      "eval_cos_loss": 0.40961713524169574,
+      "eval_loss": 1.2434003037404797,
+      "eval_mse_loss": 1.2434003037404797,
+      "eval_runtime": 37.9928,
+      "eval_samples_per_second": 736.797,
+      "eval_steps_per_second": 11.528,
+      "flow/cos_sim": 0.5903828733315751,
+      "flow/improvement_ratio": 0.9675477706406215,
+      "flow/mag_ratio_mean": 0.5632997902288829,
+      "flow/mag_ratio_std": 0.23195934271839655,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6739642510738534,
+      "grad_norm": 0.14197668433189392,
+      "learning_rate": 0.00025107330906604087,
+      "loss": 1.296392798423767,
+      "step": 14592
+    },
+    {
+      "epoch": 0.6857881853032193,
+      "grad_norm": 0.1488983929157257,
+      "learning_rate": 0.00023475965141247547,
+      "loss": 1.3003113269805908,
+      "step": 14848
+    },
+    {
+      "epoch": 0.6976121195325851,
+      "grad_norm": 0.15144133567810059,
+      "learning_rate": 0.00021882987598277078,
+      "loss": 1.2956396341323853,
+      "step": 15104
+    },
+    {
+      "epoch": 0.709436053761951,
+      "grad_norm": 0.17426979541778564,
+      "learning_rate": 0.00020330703793293935,
+      "loss": 1.2973662614822388,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.4071108957403871,
+      "eval_loss": 1.2375664828030486,
+      "eval_mse_loss": 1.2375664828030486,
+      "flow/cos_sim": 0.5928891109277125,
+      "flow/improvement_ratio": 0.9694319917186754,
+      "flow/mag_ratio_mean": 0.5716579937499408,
+      "flow/mag_ratio_std": 0.23187941516915414,
+      "step": 15360
+    },
+    {
+      "epoch": 0.709436053761951,
+      "eval_cos_loss": 0.4071108957403871,
+      "eval_loss": 1.2375664828030486,
+      "eval_mse_loss": 1.2375664828030486,
+      "eval_runtime": 37.7744,
+      "eval_samples_per_second": 741.058,
+      "eval_steps_per_second": 11.595,
+      "flow/cos_sim": 0.5928891109277125,
+      "flow/improvement_ratio": 0.9694319917186754,
+      "flow/mag_ratio_mean": 0.5716579937499408,
+      "flow/mag_ratio_std": 0.23187941516915414,
+      "step": 15360
+    },
+    {
+      "epoch": 0.7212599879913169,
+      "grad_norm": 0.1327466517686844,
+      "learning_rate": 0.00018821360345872817,
+      "loss": 1.2953004837036133,
+      "step": 15616
+    },
+    {
+      "epoch": 0.7330839222206826,
+      "grad_norm": 0.13317836821079254,
+      "learning_rate": 0.00017357141728030256,
+      "loss": 1.296244502067566,
+      "step": 15872
+    },
+    {
+      "epoch": 0.7449078564500485,
+      "grad_norm": 0.13190411031246185,
+      "learning_rate": 0.00015940167102639652,
+      "loss": 1.2941019535064697,
+      "step": 16128
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "grad_norm": 0.16306017339229584,
+      "learning_rate": 0.00014572487256367622,
+      "loss": 1.2989262342453003,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.40787798506484185,
+      "eval_loss": 1.2387716533386544,
+      "eval_mse_loss": 1.2387716533386544,
+      "flow/cos_sim": 0.5921220447374805,
+      "flow/improvement_ratio": 0.9676394077468681,
+      "flow/mag_ratio_mean": 0.5708100270462907,
+      "flow/mag_ratio_std": 0.23236021549190017,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7567317906794143,
+      "eval_cos_loss": 0.40787798506484185,
+      "eval_loss": 1.2387716533386544,
+      "eval_mse_loss": 1.2387716533386544,
+      "eval_runtime": 38.2433,
+      "eval_samples_per_second": 731.971,
+      "eval_steps_per_second": 11.453,
+      "flow/cos_sim": 0.5921220447374805,
+      "flow/improvement_ratio": 0.9676394077468681,
+      "flow/mag_ratio_mean": 0.5708100270462907,
+      "flow/mag_ratio_std": 0.23236021549190017,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7685557249087802,
+      "grad_norm": 0.150620236992836,
+      "learning_rate": 0.00013261121596362468,
+      "loss": 1.2931787967681885,
+      "step": 16640
+    },
+    {
+      "epoch": 0.780379659138146,
+      "grad_norm": 0.1723325550556183,
+      "learning_rate": 0.00011997684086133532,
+      "loss": 1.2933588027954102,
+      "step": 16896
+    },
+    {
+      "epoch": 0.7922035933675119,
+      "grad_norm": 0.22987410426139832,
+      "learning_rate": 0.00010793858470858986,
+      "loss": 1.2921642065048218,
+      "step": 17152
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "grad_norm": 0.1424104869365692,
+      "learning_rate": 9.641946420587128e-05,
+      "loss": 1.293217658996582,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.40720845248601206,
+      "eval_loss": 1.236776403368336,
+      "eval_mse_loss": 1.236776403368336,
+      "flow/cos_sim": 0.5927915490109082,
+      "flow/improvement_ratio": 0.9686873888588388,
+      "flow/mag_ratio_mean": 0.5746287179591993,
+      "flow/mag_ratio_std": 0.23337585604898461,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8040275275968778,
+      "eval_cos_loss": 0.40720845248601206,
+      "eval_loss": 1.236776403368336,
+      "eval_mse_loss": 1.236776403368336,
+      "eval_runtime": 37.7197,
+      "eval_samples_per_second": 742.132,
+      "eval_steps_per_second": 11.612,
+      "flow/cos_sim": 0.5927915490109082,
+      "flow/improvement_ratio": 0.9686873888588388,
+      "flow/mag_ratio_mean": 0.5746287179591993,
+      "flow/mag_ratio_std": 0.23337585604898461,
+      "step": 17408
+    },
+    {
+      "epoch": 0.8158514618262436,
+      "grad_norm": 0.12611331045627594,
+      "learning_rate": 8.548444561077174e-05,
+      "loss": 1.2975406646728516,
+      "step": 17664
+    },
+    {
+      "epoch": 0.8276753960556095,
+      "grad_norm": 0.12853601574897766,
+      "learning_rate": 7.514935517023558e-05,
+      "loss": 1.2929115295410156,
+      "step": 17920
+    },
+    {
+      "epoch": 0.8394993302849753,
+      "grad_norm": 0.1455283761024475,
+      "learning_rate": 6.542915085548828e-05,
+      "loss": 1.2953433990478516,
+      "step": 18176
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "grad_norm": 0.1439829170703888,
+      "learning_rate": 5.6337900713373745e-05,
+      "loss": 1.2905094623565674,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.4071682984153974,
+      "eval_loss": 1.2377648810817772,
+      "eval_mse_loss": 1.2377648810817772,
+      "flow/cos_sim": 0.5928317260796621,
+      "flow/improvement_ratio": 0.9691979608851481,
+      "flow/mag_ratio_mean": 0.5711579087390203,
+      "flow/mag_ratio_std": 0.23038946840588906,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8513232645143411,
+      "eval_cos_loss": 0.4071682984153974,
+      "eval_loss": 1.2377648810817772,
+      "eval_mse_loss": 1.2377648810817772,
+      "eval_runtime": 37.6266,
+      "eval_samples_per_second": 743.968,
+      "eval_steps_per_second": 11.641,
+      "flow/cos_sim": 0.5928317260796621,
+      "flow/improvement_ratio": 0.9691979608851481,
+      "flow/mag_ratio_mean": 0.5711579087390203,
+      "flow/mag_ratio_std": 0.23038946840588906,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8631471987437069,
+      "grad_norm": 0.11298097670078278,
+      "learning_rate": 4.78887625056757e-05,
+      "loss": 1.294639229774475,
+      "step": 18688
+    },
+    {
+      "epoch": 0.8749711329730728,
+      "grad_norm": 0.14285467565059662,
+      "learning_rate": 4.009396466589682e-05,
+      "loss": 1.293053388595581,
+      "step": 18944
+    },
+    {
+      "epoch": 0.8867950672024387,
+      "grad_norm": 0.14649902284145355,
+      "learning_rate": 3.296478860105229e-05,
+      "loss": 1.2947455644607544,
+      "step": 19200
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "grad_norm": 0.10712789744138718,
+      "learning_rate": 2.6511552364095358e-05,
+      "loss": 1.2933928966522217,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.40802392084576766,
+      "eval_loss": 1.239305024277674,
+      "eval_mse_loss": 1.239305024277674,
+      "flow/cos_sim": 0.591976103172999,
+      "flow/improvement_ratio": 0.968320789130311,
+      "flow/mag_ratio_mean": 0.5698170186994282,
+      "flow/mag_ratio_std": 0.23304922552141424,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8986190014318045,
+      "eval_cos_loss": 0.40802392084576766,
+      "eval_loss": 1.239305024277674,
+      "eval_mse_loss": 1.239305024277674,
+      "eval_runtime": 37.9522,
+      "eval_samples_per_second": 737.585,
+      "eval_steps_per_second": 11.541,
+      "flow/cos_sim": 0.591976103172999,
+      "flow/improvement_ratio": 0.968320789130311,
+      "flow/mag_ratio_mean": 0.5698170186994282,
+      "flow/mag_ratio_std": 0.23304922552141424,
+      "step": 19456
+    },
+    {
+      "epoch": 0.9104429356611704,
+      "grad_norm": 0.15442441403865814,
+      "learning_rate": 2.074359572060447e-05,
+      "loss": 1.2916024923324585,
+      "step": 19712
+    },
+    {
+      "epoch": 0.9222668698905362,
+      "grad_norm": 0.15089711546897888,
+      "learning_rate": 1.5669266631345104e-05,
+      "loss": 1.2951974868774414,
+      "step": 19968
+    },
+    {
+      "epoch": 0.9340908041199021,
+      "grad_norm": 0.13152022659778595,
+      "learning_rate": 1.1295909170270401e-05,
+      "loss": 1.2937579154968262,
+      "step": 20224
+    },
+    {
+      "epoch": 0.945914738349268,
+      "grad_norm": 0.1440095752477646,
+      "learning_rate": 7.629852895446598e-06,
+      "loss": 1.2934914827346802,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.40682149892800473,
+      "eval_loss": 1.2361523217806534,
+      "eval_mse_loss": 1.2361523217806534,
+      "flow/cos_sim": 0.5931785010039534,
+      "flow/improvement_ratio": 0.9678735773857325,
+      "flow/mag_ratio_mean": 0.5706861988050208,
+      "flow/mag_ratio_std": 0.23287449712486571,
+      "step": 20480
+    },
+    {
+      "epoch": 0.945914738349268,
+      "eval_cos_loss": 0.40682149892800473,
+      "eval_loss": 1.2361523217806534,
+      "eval_mse_loss": 1.2361523217806534,
+      "eval_runtime": 38.0497,
+      "eval_samples_per_second": 735.695,
+      "eval_steps_per_second": 11.511,
+      "flow/cos_sim": 0.5931785010039534,
+      "flow/improvement_ratio": 0.9678735773857325,
+      "flow/mag_ratio_mean": 0.5706861988050208,
+      "flow/mag_ratio_std": 0.23287449712486571,
+      "step": 20480
+    },
+    {
+      "epoch": 0.9577386725786338,
+      "grad_norm": 0.12389374524354935,
+      "learning_rate": 4.676403688286757e-06,
+      "loss": 1.293794870376587,
+      "step": 20736
+    },
+    {
+      "epoch": 0.9695626068079997,
+      "grad_norm": 0.13731499016284943,
+      "learning_rate": 2.4398360743514426e-06,
+      "loss": 1.2955571413040161,
+      "step": 20992
+    },
+    {
+      "epoch": 0.9813865410373654,
+      "grad_norm": 0.10310206562280655,
+      "learning_rate": 9.279064980089457e-07,
+      "loss": 1.2939553260803223,
+      "step": 21248
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "grad_norm": 0.1189175546169281,
+      "learning_rate": 1.3094633899163322e-07,
+      "loss": 1.2939212322235107,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.4082991466538547,
+      "eval_loss": 1.2390729874780733,
+      "eval_mse_loss": 1.2390729874780733,
+      "flow/cos_sim": 0.591700874098904,
+      "flow/improvement_ratio": 0.9678069339495271,
+      "flow/mag_ratio_mean": 0.5694313584125206,
+      "flow/mag_ratio_std": 0.23363937995477355,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9932104752667313,
+      "eval_cos_loss": 0.4082991466538547,
+      "eval_loss": 1.2390729874780733,
+      "eval_mse_loss": 1.2390729874780733,
+      "eval_runtime": 37.5006,
+      "eval_samples_per_second": 746.469,
+      "eval_steps_per_second": 11.68,
+      "flow/cos_sim": 0.591700874098904,
+      "flow/improvement_ratio": 0.9678069339495271,
+      "flow/mag_ratio_mean": 0.5694313584125206,
+      "flow/mag_ratio_std": 0.23363937995477355,
+      "step": 21504
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 21651,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v2.6-b-whitened/checkpoint-21651-continued-uniform/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03a8c5803c6e5663005c9dc7a4c98c213c8267649ccec42581475db390cc8017
+size 5137