Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-d1.1-c/checkpoint-23204/ema.safetensors +3 -0
checkpoints-d1.1-c/checkpoint-23204/model.safetensors +3 -0
checkpoints-d1.1-c/checkpoint-23204/optimizer.pt +3 -0
checkpoints-d1.1-c/checkpoint-23204/rng_state.pth +3 -0
checkpoints-d1.1-c/checkpoint-23204/scaler.pt +3 -0
checkpoints-d1.1-c/checkpoint-23204/scheduler.pt +3 -0
checkpoints-d1.1-c/checkpoint-23204/trainer_state.json +1434 -0
checkpoints-d1.1-c/checkpoint-23204/training_args.bin +3 -0

checkpoints-d1.1-c/checkpoint-23204/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:037a366b3ad71ec38dab506a788ff130eab6e42e69fbf83fcaec54f88c7d74c5
+size 746712

checkpoints-d1.1-c/checkpoint-23204/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7ec34809d3fe0b2daeb914f4725e231f3edcf4c8b8249e2074d2aea47abc602
+size 24002016

checkpoints-d1.1-c/checkpoint-23204/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0eabb4262f26e6bff0199241ba1c840c15337c48cf237b890dcf509705c444ff
+size 1569995

checkpoints-d1.1-c/checkpoint-23204/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b09647713c598659935a7e9ec2d303b7b614e88642958c5adf07994fc816906
+size 14645

checkpoints-d1.1-c/checkpoint-23204/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0033c7745b46bdca3ecab5787678834ca68f7f7e1288869dceeb38812abc253
+size 1383

checkpoints-d1.1-c/checkpoint-23204/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fefc6a55210bbd7edbb09522c6f93b3b5fe4c8134063bfa343d2aada5de5d94f
+size 1465

checkpoints-d1.1-c/checkpoint-23204/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1434 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 1024,
+  "global_step": 23204,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.011032818324821687,
+      "grad_norm": 0.3007344603538513,
+      "learning_rate": 0.000498046875,
+      "loss": 1.9607043266296387,
+      "step": 256
+    },
+    {
+      "epoch": 0.022065636649643373,
+      "grad_norm": 0.38754719495773315,
+      "learning_rate": 0.000998046875,
+      "loss": 1.8510947227478027,
+      "step": 512
+    },
+    {
+      "epoch": 0.03309845497446506,
+      "grad_norm": 0.41651925444602966,
+      "learning_rate": 0.000999688448778502,
+      "loss": 1.7883503437042236,
+      "step": 768
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 0.4576423764228821,
+      "learning_rate": 0.0009987492950653055,
+      "loss": 1.7437095642089844,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.7290582309773348,
+      "eval_cos_loss": 0.6748774711257105,
+      "eval_dec_loss": 0.0016125108924325007,
+      "eval_loss": 1.7118930867485909,
+      "eval_mse2_loss": 0.23725909220257294,
+      "eval_mse_loss": 1.7118930867485909,
+      "eval_rec_loss": 0.05790480172861296,
+      "eval_var_loss": 0.029386979561529435,
+      "flow/cos_sim": 0.32512253071707703,
+      "flow/improvement_ratio": 0.773648498536173,
+      "flow/mag_ratio_mean": 0.3315794987083752,
+      "flow/mag_ratio_std": 0.19750540018844198,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.7290582309773348,
+      "eval_cos_loss": 0.6748774711257105,
+      "eval_dec_loss": 0.0016125108924325007,
+      "eval_loss": 1.7118930867485909,
+      "eval_mse2_loss": 0.23725909220257294,
+      "eval_mse_loss": 1.7118930867485909,
+      "eval_rec_loss": 0.05790480172861296,
+      "eval_runtime": 103.0234,
+      "eval_samples_per_second": 291.196,
+      "eval_steps_per_second": 4.552,
+      "eval_var_loss": 0.029386979561529435,
+      "flow/cos_sim": 0.32512253071707703,
+      "flow/improvement_ratio": 0.773648498536173,
+      "flow/mag_ratio_mean": 0.3315794987083752,
+      "flow/mag_ratio_std": 0.19750540018844198,
+      "step": 1024
+    },
+    {
+      "epoch": 0.05516409162410843,
+      "grad_norm": 0.46116578578948975,
+      "learning_rate": 0.0009971837136430763,
+      "loss": 1.6916401386260986,
+      "step": 1280
+    },
+    {
+      "epoch": 0.06619690994893011,
+      "grad_norm": 0.4674736559391022,
+      "learning_rate": 0.0009949936708776692,
+      "loss": 1.6614705324172974,
+      "step": 1536
+    },
+    {
+      "epoch": 0.07722972827375181,
+      "grad_norm": 0.4964284598827362,
+      "learning_rate": 0.0009921819174566252,
+      "loss": 1.6426620483398438,
+      "step": 1792
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 0.5635536313056946,
+      "learning_rate": 0.000988751984934317,
+      "loss": 1.6190364360809326,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.7361472993029746,
+      "eval_cos_loss": 0.6193856069528217,
+      "eval_dec_loss": 0.0013400374704601193,
+      "eval_loss": 1.6149477191062878,
+      "eval_mse2_loss": 0.2126978265959571,
+      "eval_mse_loss": 1.6149477191062878,
+      "eval_rec_loss": 0.055882355892288085,
+      "eval_var_loss": 0.02890209875492526,
+      "flow/cos_sim": 0.3806143929836338,
+      "flow/improvement_ratio": 0.8031272210800318,
+      "flow/mag_ratio_mean": 0.38922329186630655,
+      "flow/mag_ratio_std": 0.2309291490168968,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.7361472993029746,
+      "eval_cos_loss": 0.6193856069528217,
+      "eval_dec_loss": 0.0013400374704601193,
+      "eval_loss": 1.6149477191062878,
+      "eval_mse2_loss": 0.2126978265959571,
+      "eval_mse_loss": 1.6149477191062878,
+      "eval_rec_loss": 0.055882355892288085,
+      "eval_runtime": 102.671,
+      "eval_samples_per_second": 292.196,
+      "eval_steps_per_second": 4.568,
+      "eval_var_loss": 0.02890209875492526,
+      "flow/cos_sim": 0.3806143929836338,
+      "flow/improvement_ratio": 0.8031272210800318,
+      "flow/mag_ratio_mean": 0.38922329186630655,
+      "flow/mag_ratio_std": 0.2309291490168968,
+      "step": 2048
+    },
+    {
+      "epoch": 0.09929536492339518,
+      "grad_norm": 0.5123931169509888,
+      "learning_rate": 0.0009847081812963268,
+      "loss": 1.6022895574569702,
+      "step": 2304
+    },
+    {
+      "epoch": 0.11032818324821686,
+      "grad_norm": 0.5382006764411926,
+      "learning_rate": 0.0009800555855486275,
+      "loss": 1.5898725986480713,
+      "step": 2560
+    },
+    {
+      "epoch": 0.12136100157303854,
+      "grad_norm": 0.5514854192733765,
+      "learning_rate": 0.0009748000413383664,
+      "loss": 1.5826457738876343,
+      "step": 2816
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 0.5678655505180359,
+      "learning_rate": 0.0009689481496142604,
+      "loss": 1.5685003995895386,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.7259279887313845,
+      "eval_cos_loss": 0.5904010080579501,
+      "eval_dec_loss": 0.001531593777309569,
+      "eval_loss": 1.5695596038659752,
+      "eval_mse2_loss": 0.20936787379448857,
+      "eval_mse_loss": 1.5695596038659752,
+      "eval_rec_loss": 0.060287337766082555,
+      "eval_var_loss": 0.02963222060868862,
+      "flow/cos_sim": 0.409598992768127,
+      "flow/improvement_ratio": 0.8170475746268657,
+      "flow/mag_ratio_mean": 0.4326363442294887,
+      "flow/mag_ratio_std": 0.22964929263474845,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.7259279887313845,
+      "eval_cos_loss": 0.5904010080579501,
+      "eval_dec_loss": 0.001531593777309569,
+      "eval_loss": 1.5695596038659752,
+      "eval_mse2_loss": 0.20936787379448857,
+      "eval_mse_loss": 1.5695596038659752,
+      "eval_rec_loss": 0.060287337766082555,
+      "eval_runtime": 103.2177,
+      "eval_samples_per_second": 290.648,
+      "eval_steps_per_second": 4.544,
+      "eval_var_loss": 0.02963222060868862,
+      "flow/cos_sim": 0.409598992768127,
+      "flow/improvement_ratio": 0.8170475746268657,
+      "flow/mag_ratio_mean": 0.4326363442294887,
+      "flow/mag_ratio_std": 0.22964929263474845,
+      "step": 3072
+    },
+    {
+      "epoch": 0.14342663822268192,
+      "grad_norm": 0.5561569333076477,
+      "learning_rate": 0.0009625072603358231,
+      "loss": 1.5565699338912964,
+      "step": 3328
+    },
+    {
+      "epoch": 0.15445945654750362,
+      "grad_norm": 0.5337810516357422,
+      "learning_rate": 0.0009554854632418371,
+      "loss": 1.556112289428711,
+      "step": 3584
+    },
+    {
+      "epoch": 0.1654922748723253,
+      "grad_norm": 0.6065189242362976,
+      "learning_rate": 0.000947891577689663,
+      "loss": 1.5425442457199097,
+      "step": 3840
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 0.6436013579368591,
+      "learning_rate": 0.0009397351415781539,
+      "loss": 1.5381078720092773,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.7609616675139879,
+      "eval_cos_loss": 0.5725635654255271,
+      "eval_dec_loss": 0.0013841146930163827,
+      "eval_loss": 1.5326353372541317,
+      "eval_mse2_loss": 0.20037362373459822,
+      "eval_mse_loss": 1.5326353372541317,
+      "eval_rec_loss": 0.05205997703934529,
+      "eval_var_loss": 0.029761007865831288,
+      "flow/cos_sim": 0.42743643495573924,
+      "flow/improvement_ratio": 0.8228500355789656,
+      "flow/mag_ratio_mean": 0.44373360606653095,
+      "flow/mag_ratio_std": 0.2451275099060937,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.7609616675139879,
+      "eval_cos_loss": 0.5725635654255271,
+      "eval_dec_loss": 0.0013841146930163827,
+      "eval_loss": 1.5326353372541317,
+      "eval_mse2_loss": 0.20037362373459822,
+      "eval_mse_loss": 1.5326353372541317,
+      "eval_rec_loss": 0.05205997703934529,
+      "eval_runtime": 103.0729,
+      "eval_samples_per_second": 291.056,
+      "eval_steps_per_second": 4.55,
+      "eval_var_loss": 0.029761007865831288,
+      "flow/cos_sim": 0.42743643495573924,
+      "flow/improvement_ratio": 0.8228500355789656,
+      "flow/mag_ratio_mean": 0.44373360606653095,
+      "flow/mag_ratio_std": 0.2451275099060937,
+      "step": 4096
+    },
+    {
+      "epoch": 0.18755791152196866,
+      "grad_norm": 0.5533596873283386,
+      "learning_rate": 0.000931026399368079,
+      "loss": 1.5355464220046997,
+      "step": 4352
+    },
+    {
+      "epoch": 0.19859072984679035,
+      "grad_norm": 0.6129039525985718,
+      "learning_rate": 0.0009217762892151117,
+      "loss": 1.526825189590454,
+      "step": 4608
+    },
+    {
+      "epoch": 0.20962354817161205,
+      "grad_norm": 0.6128653287887573,
+      "learning_rate": 0.0009119964292315354,
+      "loss": 1.5186046361923218,
+      "step": 4864
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 0.6013854146003723,
+      "learning_rate": 0.0009016991028939279,
+      "loss": 1.5184156894683838,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.7313483153096204,
+      "eval_cos_loss": 0.565770648880554,
+      "eval_dec_loss": 0.0013971831941510986,
+      "eval_loss": 1.5208095035064957,
+      "eval_mse2_loss": 0.19698964767872906,
+      "eval_mse_loss": 1.5208095035064957,
+      "eval_rec_loss": 0.058415787606271724,
+      "eval_var_loss": 0.029480641187508223,
+      "flow/cos_sim": 0.4342293481328594,
+      "flow/improvement_ratio": 0.8310012437387316,
+      "flow/mag_ratio_mean": 0.4485036200170578,
+      "flow/mag_ratio_std": 0.24114183547781476,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.7313483153096204,
+      "eval_cos_loss": 0.565770648880554,
+      "eval_dec_loss": 0.0013971831941510986,
+      "eval_loss": 1.5208095035064957,
+      "eval_mse2_loss": 0.19698964767872906,
+      "eval_mse_loss": 1.5208095035064957,
+      "eval_rec_loss": 0.058415787606271724,
+      "eval_runtime": 104.1181,
+      "eval_samples_per_second": 288.134,
+      "eval_steps_per_second": 4.505,
+      "eval_var_loss": 0.029480641187508223,
+      "flow/cos_sim": 0.4342293481328594,
+      "flow/improvement_ratio": 0.8310012437387316,
+      "flow/mag_ratio_mean": 0.4485036200170578,
+      "flow/mag_ratio_std": 0.24114183547781476,
+      "step": 5120
+    },
+    {
+      "epoch": 0.23168918482125542,
+      "grad_norm": 0.5818307995796204,
+      "learning_rate": 0.0008908972436151494,
+      "loss": 1.5146307945251465,
+      "step": 5376
+    },
+    {
+      "epoch": 0.2427220031460771,
+      "grad_norm": 0.5968588590621948,
+      "learning_rate": 0.0008796044185000127,
+      "loss": 1.5090495347976685,
+      "step": 5632
+    },
+    {
+      "epoch": 0.2537548214708988,
+      "grad_norm": 0.645140528678894,
+      "learning_rate": 0.0008678348113050368,
+      "loss": 1.5024750232696533,
+      "step": 5888
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 0.6232675313949585,
+      "learning_rate": 0.0008556032046236897,
+      "loss": 1.499906301498413,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.7912708006589123,
+      "eval_cos_loss": 0.5567008724598996,
+      "eval_dec_loss": 0.0014503563844457592,
+      "eval_loss": 1.5032868258226146,
+      "eval_mse2_loss": 0.19748503063469808,
+      "eval_mse_loss": 1.5032868258226146,
+      "eval_rec_loss": 0.05662109937145512,
+      "eval_var_loss": 0.029432428198487265,
+      "flow/cos_sim": 0.44329912652339,
+      "flow/improvement_ratio": 0.8293576759061834,
+      "flow/mag_ratio_mean": 0.4766448940803756,
+      "flow/mag_ratio_std": 0.2504093461771255,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.7912708006589123,
+      "eval_cos_loss": 0.5567008724598996,
+      "eval_dec_loss": 0.0014503563844457592,
+      "eval_loss": 1.5032868258226146,
+      "eval_mse2_loss": 0.19748503063469808,
+      "eval_mse_loss": 1.5032868258226146,
+      "eval_rec_loss": 0.05662109937145512,
+      "eval_runtime": 102.8737,
+      "eval_samples_per_second": 291.62,
+      "eval_steps_per_second": 4.559,
+      "eval_var_loss": 0.029432428198487265,
+      "flow/cos_sim": 0.44329912652339,
+      "flow/improvement_ratio": 0.8293576759061834,
+      "flow/mag_ratio_mean": 0.4766448940803756,
+      "flow/mag_ratio_std": 0.2504093461771255,
+      "step": 6144
+    },
+    {
+      "epoch": 0.2758204581205422,
+      "grad_norm": 0.6002918481826782,
+      "learning_rate": 0.000842924961319492,
+      "loss": 1.5013189315795898,
+      "step": 6400
+    },
+    {
+      "epoch": 0.28685327644536385,
+      "grad_norm": 0.6131093502044678,
+      "learning_rate": 0.0008298160052303045,
+      "loss": 1.491563320159912,
+      "step": 6656
+    },
+    {
+      "epoch": 0.2978860947701855,
+      "grad_norm": 0.6153339743614197,
+      "learning_rate": 0.0008162928011680314,
+      "loss": 1.4890822172164917,
+      "step": 6912
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 0.5415698885917664,
+      "learning_rate": 0.000802372334238864,
+      "loss": 1.4869613647460938,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.6991471025766374,
+      "eval_cos_loss": 0.5479137339571646,
+      "eval_dec_loss": 0.0014181479605397324,
+      "eval_loss": 1.4831991663365476,
+      "eval_mse2_loss": 0.19134751513505033,
+      "eval_mse_loss": 1.4831991663365476,
+      "eval_rec_loss": 0.059703294130197086,
+      "eval_var_loss": 0.029254676190330023,
+      "flow/cos_sim": 0.45208626534384705,
+      "flow/improvement_ratio": 0.8373922797154262,
+      "flow/mag_ratio_mean": 0.46522473710686413,
+      "flow/mag_ratio_std": 0.24233753331053232,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.6991471025766374,
+      "eval_cos_loss": 0.5479137339571646,
+      "eval_dec_loss": 0.0014181479605397324,
+      "eval_loss": 1.4831991663365476,
+      "eval_mse2_loss": 0.19134751513505033,
+      "eval_mse_loss": 1.4831991663365476,
+      "eval_rec_loss": 0.059703294130197086,
+      "eval_runtime": 102.4636,
+      "eval_samples_per_second": 292.787,
+      "eval_steps_per_second": 4.577,
+      "eval_var_loss": 0.029254676190330023,
+      "flow/cos_sim": 0.45208626534384705,
+      "flow/improvement_ratio": 0.8373922797154262,
+      "flow/mag_ratio_mean": 0.46522473710686413,
+      "flow/mag_ratio_std": 0.24233753331053232,
+      "step": 7168
+    },
+    {
+      "epoch": 0.3199517314198289,
+      "grad_norm": 0.6683939695358276,
+      "learning_rate": 0.0007880720885100349,
+      "loss": 1.476445198059082,
+      "step": 7424
+    },
+    {
+      "epoch": 0.3309845497446506,
+      "grad_norm": 0.5962712168693542,
+      "learning_rate": 0.0007734100250498788,
+      "loss": 1.4769901037216187,
+      "step": 7680
+    },
+    {
+      "epoch": 0.3420173680694723,
+      "grad_norm": 0.5617682933807373,
+      "learning_rate": 0.000758404559368781,
+      "loss": 1.4828119277954102,
+      "step": 7936
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 0.7243582606315613,
+      "learning_rate": 0.0007430745382893488,
+      "loss": 1.4768471717834473,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.8304965060986523,
+      "eval_cos_loss": 0.540344935744556,
+      "eval_dec_loss": 0.001444703027248449,
+      "eval_loss": 1.4680257085035604,
+      "eval_mse2_loss": 0.1896642409979916,
+      "eval_mse_loss": 1.4680257085035604,
+      "eval_rec_loss": 0.056618061303885886,
+      "eval_var_loss": 0.02941279357144319,
+      "flow/cos_sim": 0.45965506501797676,
+      "flow/improvement_ratio": 0.8406627575980067,
+      "flow/mag_ratio_mean": 0.478700284002178,
+      "flow/mag_ratio_std": 0.25183968741629426,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.8304965060986523,
+      "eval_cos_loss": 0.540344935744556,
+      "eval_dec_loss": 0.001444703027248449,
+      "eval_loss": 1.4680257085035604,
+      "eval_mse2_loss": 0.1896642409979916,
+      "eval_mse_loss": 1.4680257085035604,
+      "eval_rec_loss": 0.056618061303885886,
+      "eval_runtime": 102.5949,
+      "eval_samples_per_second": 292.412,
+      "eval_steps_per_second": 4.571,
+      "eval_var_loss": 0.02941279357144319,
+      "flow/cos_sim": 0.45965506501797676,
+      "flow/improvement_ratio": 0.8406627575980067,
+      "flow/mag_ratio_mean": 0.478700284002178,
+      "flow/mag_ratio_std": 0.25183968741629426,
+      "step": 8192
+    },
+    {
+      "epoch": 0.36408300471911564,
+      "grad_norm": 0.6018216013908386,
+      "learning_rate": 0.0007274392162748551,
+      "loss": 1.4694677591323853,
+      "step": 8448
+    },
+    {
+      "epoch": 0.3751158230439373,
+      "grad_norm": 0.5599421262741089,
+      "learning_rate": 0.000711518231245687,
+      "loss": 1.4721711874008179,
+      "step": 8704
+    },
+    {
+      "epoch": 0.38614864136875904,
+      "grad_norm": 0.6241788864135742,
+      "learning_rate": 0.0006953315799141723,
+      "loss": 1.459176778793335,
+      "step": 8960
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 0.6998386383056641,
+      "learning_rate": 0.0006788995926687669,
+      "loss": 1.4632288217544556,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.7369729060948697,
+      "eval_cos_loss": 0.5354188728942546,
+      "eval_dec_loss": 0.0013972995771112035,
+      "eval_loss": 1.456240051336634,
+      "eval_mse2_loss": 0.18758021689045912,
+      "eval_mse_loss": 1.456240051336634,
+      "eval_rec_loss": 0.05933690067730161,
+      "eval_var_loss": 0.029272472025203045,
+      "flow/cos_sim": 0.4645811278047338,
+      "flow/improvement_ratio": 0.841912091286706,
+      "flow/mag_ratio_mean": 0.4744996659791292,
+      "flow/mag_ratio_std": 0.25510632248321324,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.7369729060948697,
+      "eval_cos_loss": 0.5354188728942546,
+      "eval_dec_loss": 0.0013972995771112035,
+      "eval_loss": 1.456240051336634,
+      "eval_mse2_loss": 0.18758021689045912,
+      "eval_mse_loss": 1.456240051336634,
+      "eval_rec_loss": 0.05933690067730161,
+      "eval_runtime": 102.7869,
+      "eval_samples_per_second": 291.866,
+      "eval_steps_per_second": 4.563,
+      "eval_var_loss": 0.029272472025203045,
+      "flow/cos_sim": 0.4645811278047338,
+      "flow/improvement_ratio": 0.841912091286706,
+      "flow/mag_ratio_mean": 0.4744996659791292,
+      "flow/mag_ratio_std": 0.25510632248321324,
+      "step": 9216
+    },
+    {
+      "epoch": 0.4082142780184024,
+      "grad_norm": 0.5962811708450317,
+      "learning_rate": 0.0006622429080391422,
+      "loss": 1.4640510082244873,
+      "step": 9472
+    },
+    {
+      "epoch": 0.4192470963432241,
+      "grad_norm": 0.588157594203949,
+      "learning_rate": 0.0006453824467742515,
+      "loss": 1.4573228359222412,
+      "step": 9728
+    },
+    {
+      "epoch": 0.43027991466804577,
+      "grad_norm": 0.5932533740997314,
+      "learning_rate": 0.0006283393855659275,
+      "loss": 1.45904541015625,
+      "step": 9984
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 0.6125295162200928,
+      "learning_rate": 0.0006111351304510173,
+      "loss": 1.455463171005249,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.782062866367082,
+      "eval_cos_loss": 0.5326331170128861,
+      "eval_dec_loss": 0.0014520329028074289,
+      "eval_loss": 1.453022389777942,
+      "eval_mse2_loss": 0.18840382176675777,
+      "eval_mse_loss": 1.453022389777942,
+      "eval_rec_loss": 0.05694365586195864,
+      "eval_var_loss": 0.030047652452612227,
+      "flow/cos_sim": 0.4673668822881255,
+      "flow/improvement_ratio": 0.8451325959488273,
+      "flow/mag_ratio_mean": 0.4745017219581075,
+      "flow/mag_ratio_std": 0.2538460113092272,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.782062866367082,
+      "eval_cos_loss": 0.5326331170128861,
+      "eval_dec_loss": 0.0014520329028074289,
+      "eval_loss": 1.453022389777942,
+      "eval_mse2_loss": 0.18840382176675777,
+      "eval_mse_loss": 1.453022389777942,
+      "eval_rec_loss": 0.05694365586195864,
+      "eval_runtime": 102.6396,
+      "eval_samples_per_second": 292.285,
+      "eval_steps_per_second": 4.569,
+      "eval_var_loss": 0.030047652452612227,
+      "flow/cos_sim": 0.4673668822881255,
+      "flow/improvement_ratio": 0.8451325959488273,
+      "flow/mag_ratio_mean": 0.4745017219581075,
+      "flow/mag_ratio_std": 0.2538460113092272,
+      "step": 10240
+    },
+    {
+      "epoch": 0.45234555131768917,
+      "grad_norm": 0.6636393666267395,
+      "learning_rate": 0.0005937912899254605,
+      "loss": 1.449182152748108,
+      "step": 10496
+    },
+    {
+      "epoch": 0.46337836964251083,
+      "grad_norm": 0.5821182727813721,
+      "learning_rate": 0.0005763296478040787,
+      "loss": 1.4548357725143433,
+      "step": 10752
+    },
+    {
+      "epoch": 0.4744111879673325,
+      "grad_norm": 0.6481524109840393,
+      "learning_rate": 0.0005587721358601663,
+      "loss": 1.4508562088012695,
+      "step": 11008
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "grad_norm": 0.653151273727417,
+      "learning_rate": 0.0005411408062792448,
+      "loss": 1.4442917108535767,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.7210051310934674,
+      "eval_cos_loss": 0.5317811018495417,
+      "eval_dec_loss": 0.001381080663882877,
+      "eval_loss": 1.4509358108679116,
+      "eval_mse2_loss": 0.18439998461811274,
+      "eval_mse_loss": 1.4509358108679116,
+      "eval_rec_loss": 0.06008440565301983,
+      "eval_var_loss": 0.02928201055952481,
+      "flow/cos_sim": 0.46821889872235783,
+      "flow/improvement_ratio": 0.8448605187920365,
+      "flow/mag_ratio_mean": 0.4716693379604486,
+      "flow/mag_ratio_std": 0.25824843223161026,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.7210051310934674,
+      "eval_cos_loss": 0.5317811018495417,
+      "eval_dec_loss": 0.001381080663882877,
+      "eval_loss": 1.4509358108679116,
+      "eval_mse2_loss": 0.18439998461811274,
+      "eval_mse_loss": 1.4509358108679116,
+      "eval_rec_loss": 0.06008440565301983,
+      "eval_runtime": 102.2168,
+      "eval_samples_per_second": 293.494,
+      "eval_steps_per_second": 4.588,
+      "eval_var_loss": 0.02928201055952481,
+      "flow/cos_sim": 0.46821889872235783,
+      "flow/improvement_ratio": 0.8448605187920365,
+      "flow/mag_ratio_mean": 0.4716693379604486,
+      "flow/mag_ratio_std": 0.25824843223161026,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4964768246169759,
+      "grad_norm": 0.6343415379524231,
+      "learning_rate": 0.0005234578039615789,
+      "loss": 1.439915418624878,
+      "step": 11520
+    },
+    {
+      "epoch": 0.5075096429417976,
+      "grad_norm": 0.7004493474960327,
+      "learning_rate": 0.0005057453387082458,
+      "loss": 1.4451959133148193,
+      "step": 11776
+    },
+    {
+      "epoch": 0.5185424612666193,
+      "grad_norm": 0.7312789559364319,
+      "learning_rate": 0.0004880256573256866,
+      "loss": 1.4458304643630981,
+      "step": 12032
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "grad_norm": 0.6173807382583618,
+      "learning_rate": 0.0004703210156837805,
+      "loss": 1.4372222423553467,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.7895861883551821,
+      "eval_cos_loss": 0.5291873634751163,
+      "eval_dec_loss": 0.0014323489154225587,
+      "eval_loss": 1.4454485322875001,
+      "eval_mse2_loss": 0.18589616244408622,
+      "eval_mse_loss": 1.4454485322875001,
+      "eval_rec_loss": 0.05557121256036736,
+      "eval_var_loss": 0.02942733407052341,
+      "flow/cos_sim": 0.4708126370967832,
+      "flow/improvement_ratio": 0.8446106520542966,
+      "flow/mag_ratio_mean": 0.4888702236385996,
+      "flow/mag_ratio_std": 0.2535232830403456,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.7895861883551821,
+      "eval_cos_loss": 0.5291873634751163,
+      "eval_dec_loss": 0.0014323489154225587,
+      "eval_loss": 1.4454485322875001,
+      "eval_mse2_loss": 0.18589616244408622,
+      "eval_mse_loss": 1.4454485322875001,
+      "eval_rec_loss": 0.05557121256036736,
+      "eval_runtime": 103.43,
+      "eval_samples_per_second": 290.051,
+      "eval_steps_per_second": 4.534,
+      "eval_var_loss": 0.02942733407052341,
+      "flow/cos_sim": 0.4708126370967832,
+      "flow/improvement_ratio": 0.8446106520542966,
+      "flow/mag_ratio_mean": 0.4888702236385996,
+      "flow/mag_ratio_std": 0.2535232830403456,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5406080979162626,
+      "grad_norm": 0.6357247233390808,
+      "learning_rate": 0.0004526536507625343,
+      "loss": 1.4381682872772217,
+      "step": 12544
+    },
+    {
+      "epoch": 0.5516409162410844,
+      "grad_norm": 0.6554076671600342,
+      "learning_rate": 0.00043504575272249973,
+      "loss": 1.433600664138794,
+      "step": 12800
+    },
+    {
+      "epoch": 0.562673734565906,
+      "grad_norm": 0.6298866271972656,
+      "learning_rate": 0.0004175194370339921,
+      "loss": 1.4380649328231812,
+      "step": 13056
+    },
+    {
+      "epoch": 0.5737065528907277,
+      "grad_norm": 0.6736286282539368,
+      "learning_rate": 0.0004000967167001243,
+      "loss": 1.4344258308410645,
+      "step": 13312
+    },
+    {
+      "epoch": 0.5737065528907277,
+      "eval_bleu": 0.754198615923969,
+      "eval_cos_loss": 0.5237328007912585,
+      "eval_dec_loss": 0.0013661543356946239,
+      "eval_loss": 1.4330016496593256,
+      "eval_mse2_loss": 0.18149238913806517,
+      "eval_mse_loss": 1.4330016496593256,
+      "eval_rec_loss": 0.05589268211104564,
+      "eval_var_loss": 0.029215975571225194,
+      "flow/cos_sim": 0.47626719946291907,
+      "flow/improvement_ratio": 0.8467817164179104,
+      "flow/mag_ratio_mean": 0.48472079412261054,
+      "flow/mag_ratio_std": 0.25520913404569445,
+      "step": 13312
+    },
+    {
+      "epoch": 0.5737065528907277,
+      "eval_bleu": 0.754198615923969,
+      "eval_cos_loss": 0.5237328007912585,
+      "eval_dec_loss": 0.0013661543356946239,
+      "eval_loss": 1.4330016496593256,
+      "eval_mse2_loss": 0.18149238913806517,
+      "eval_mse_loss": 1.4330016496593256,
+      "eval_rec_loss": 0.05589268211104564,
+      "eval_runtime": 104.5844,
+      "eval_samples_per_second": 286.85,
+      "eval_steps_per_second": 4.484,
+      "eval_var_loss": 0.029215975571225194,
+      "flow/cos_sim": 0.47626719946291907,
+      "flow/improvement_ratio": 0.8467817164179104,
+      "flow/mag_ratio_mean": 0.48472079412261054,
+      "flow/mag_ratio_std": 0.25520913404569445,
+      "step": 13312
+    },
+    {
+      "epoch": 0.5847393712155494,
+      "grad_norm": 0.6239475011825562,
+      "learning_rate": 0.00038279947460853446,
+      "loss": 1.4331660270690918,
+      "step": 13568
+    },
+    {
+      "epoch": 0.595772189540371,
+      "grad_norm": 0.6627410054206848,
+      "learning_rate": 0.00036564943604654345,
+      "loss": 1.4354665279388428,
+      "step": 13824
+    },
+    {
+      "epoch": 0.6068050078651928,
+      "grad_norm": 0.6042789816856384,
+      "learning_rate": 0.00034866814141425254,
+      "loss": 1.4358711242675781,
+      "step": 14080
+    },
+    {
+      "epoch": 0.6178378261900145,
+      "grad_norm": 0.6111028790473938,
+      "learning_rate": 0.0003318769191698637,
+      "loss": 1.4299204349517822,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6178378261900145,
+      "eval_bleu": 0.7007889817819709,
+      "eval_cos_loss": 0.5228769168543663,
+      "eval_dec_loss": 0.001358627397164917,
+      "eval_loss": 1.4326896403135776,
+      "eval_mse2_loss": 0.18112752599312043,
+      "eval_mse_loss": 1.4326896403135776,
+      "eval_rec_loss": 0.05488209239939954,
+      "eval_var_loss": 0.02930486012401103,
+      "flow/cos_sim": 0.4771230810486686,
+      "flow/improvement_ratio": 0.8480699183081767,
+      "flow/mag_ratio_mean": 0.48936520539112943,
+      "flow/mag_ratio_std": 0.2627385834386862,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6178378261900145,
+      "eval_bleu": 0.7007889817819709,
+      "eval_cos_loss": 0.5228769168543663,
+      "eval_dec_loss": 0.001358627397164917,
+      "eval_loss": 1.4326896403135776,
+      "eval_mse2_loss": 0.18112752599312043,
+      "eval_mse_loss": 1.4326896403135776,
+      "eval_rec_loss": 0.05488209239939954,
+      "eval_runtime": 103.0204,
+      "eval_samples_per_second": 291.205,
+      "eval_steps_per_second": 4.552,
+      "eval_var_loss": 0.02930486012401103,
+      "flow/cos_sim": 0.4771230810486686,
+      "flow/improvement_ratio": 0.8480699183081767,
+      "flow/mag_ratio_mean": 0.48936520539112943,
+      "flow/mag_ratio_std": 0.2627385834386862,
+      "step": 14336
+    },
+    {
+      "epoch": 0.6288706445148361,
+      "grad_norm": 0.6931398510932922,
+      "learning_rate": 0.00031529685904119485,
+      "loss": 1.4271036386489868,
+      "step": 14592
+    },
+    {
+      "epoch": 0.6399034628396578,
+      "grad_norm": 0.616621196269989,
+      "learning_rate": 0.0002989487855370421,
+      "loss": 1.4223978519439697,
+      "step": 14848
+    },
+    {
+      "epoch": 0.6509362811644795,
+      "grad_norm": 0.7069717645645142,
+      "learning_rate": 0.00028285323179165424,
+      "loss": 1.4210408926010132,
+      "step": 15104
+    },
+    {
+      "epoch": 0.6619690994893012,
+      "grad_norm": 0.5767509937286377,
+      "learning_rate": 0.0002670304137751759,
+      "loss": 1.4249491691589355,
+      "step": 15360
+    },
+    {
+      "epoch": 0.6619690994893012,
+      "eval_bleu": 0.7712555700160785,
+      "eval_cos_loss": 0.520311662700893,
+      "eval_dec_loss": 0.0013948907095809597,
+      "eval_loss": 1.4238692244995377,
+      "eval_mse2_loss": 0.1801110237900382,
+      "eval_mse_loss": 1.4238692244995377,
+      "eval_rec_loss": 0.05672604351370002,
+      "eval_var_loss": 0.029106232196664507,
+      "flow/cos_sim": 0.4796883367907518,
+      "flow/improvement_ratio": 0.8454879620181981,
+      "flow/mag_ratio_mean": 0.4905342829507043,
+      "flow/mag_ratio_std": 0.2601209406786636,
+      "step": 15360
+    },
+    {
+      "epoch": 0.6619690994893012,
+      "eval_bleu": 0.7712555700160785,
+      "eval_cos_loss": 0.520311662700893,
+      "eval_dec_loss": 0.0013948907095809597,
+      "eval_loss": 1.4238692244995377,
+      "eval_mse2_loss": 0.1801110237900382,
+      "eval_mse_loss": 1.4238692244995377,
+      "eval_rec_loss": 0.05672604351370002,
+      "eval_runtime": 102.9224,
+      "eval_samples_per_second": 291.482,
+      "eval_steps_per_second": 4.557,
+      "eval_var_loss": 0.029106232196664507,
+      "flow/cos_sim": 0.4796883367907518,
+      "flow/improvement_ratio": 0.8454879620181981,
+      "flow/mag_ratio_mean": 0.4905342829507043,
+      "flow/mag_ratio_std": 0.2601209406786636,
+      "step": 15360
+    },
+    {
+      "epoch": 0.6730019178141229,
+      "grad_norm": 0.7135971784591675,
+      "learning_rate": 0.0002515002049024435,
+      "loss": 1.4220284223556519,
+      "step": 15616
+    },
+    {
+      "epoch": 0.6840347361389446,
+      "grad_norm": 0.6657771468162537,
+      "learning_rate": 0.00023628211107203429,
+      "loss": 1.421180248260498,
+      "step": 15872
+    },
+    {
+      "epoch": 0.6950675544637662,
+      "grad_norm": 0.6840319037437439,
+      "learning_rate": 0.00022139524616691188,
+      "loss": 1.4254897832870483,
+      "step": 16128
+    },
+    {
+      "epoch": 0.706100372788588,
+      "grad_norm": 0.6978499889373779,
+      "learning_rate": 0.000206858308047443,
+      "loss": 1.4185926914215088,
+      "step": 16384
+    },
+    {
+      "epoch": 0.706100372788588,
+      "eval_bleu": 0.7788876579155211,
+      "eval_cos_loss": 0.5166550292643403,
+      "eval_dec_loss": 0.0013616397724124983,
+      "eval_loss": 1.4177445305435896,
+      "eval_mse2_loss": 0.17684134553426872,
+      "eval_mse_loss": 1.4177445305435896,
+      "eval_rec_loss": 0.05370217473951103,
+      "eval_var_loss": 0.02986719635233823,
+      "flow/cos_sim": 0.48334496971894936,
+      "flow/improvement_ratio": 0.851445895522388,
+      "flow/mag_ratio_mean": 0.49312538899846675,
+      "flow/mag_ratio_std": 0.2614598782586136,
+      "step": 16384
+    },
+    {
+      "epoch": 0.706100372788588,
+      "eval_bleu": 0.7788876579155211,
+      "eval_cos_loss": 0.5166550292643403,
+      "eval_dec_loss": 0.0013616397724124983,
+      "eval_loss": 1.4177445305435896,
+      "eval_mse2_loss": 0.17684134553426872,
+      "eval_mse_loss": 1.4177445305435896,
+      "eval_rec_loss": 0.05370217473951103,
+      "eval_runtime": 103.4098,
+      "eval_samples_per_second": 290.108,
+      "eval_steps_per_second": 4.535,
+      "eval_var_loss": 0.02986719635233823,
+      "flow/cos_sim": 0.48334496971894936,
+      "flow/improvement_ratio": 0.851445895522388,
+      "flow/mag_ratio_mean": 0.49312538899846675,
+      "flow/mag_ratio_std": 0.2614598782586136,
+      "step": 16384
+    },
+    {
+      "epoch": 0.7171331911134096,
+      "grad_norm": 0.7240028977394104,
+      "learning_rate": 0.00019268955506693798,
+      "loss": 1.4189178943634033,
+      "step": 16640
+    },
+    {
+      "epoch": 0.7281660094382313,
+      "grad_norm": 0.6644338369369507,
+      "learning_rate": 0.00017890678313921,
+      "loss": 1.4202007055282593,
+      "step": 16896
+    },
+    {
+      "epoch": 0.739198827763053,
+      "grad_norm": 0.8413478136062622,
+      "learning_rate": 0.00016552730338695792,
+      "loss": 1.419106364250183,
+      "step": 17152
+    },
+    {
+      "epoch": 0.7502316460878746,
+      "grad_norm": 0.741065263748169,
+      "learning_rate": 0.00015256792039904465,
+      "loss": 1.415405511856079,
+      "step": 17408
+    },
+    {
+      "epoch": 0.7502316460878746,
+      "eval_bleu": 0.7637354358631164,
+      "eval_cos_loss": 0.5136227607727051,
+      "eval_dec_loss": 0.0013235103740173923,
+      "eval_loss": 1.4103716327183282,
+      "eval_mse2_loss": 0.17683548507278662,
+      "eval_mse_loss": 1.4103716327183282,
+      "eval_rec_loss": 0.05761792201366125,
+      "eval_var_loss": 0.03023185586926144,
+      "flow/cos_sim": 0.4863772399898277,
+      "flow/improvement_ratio": 0.8529339908028463,
+      "flow/mag_ratio_mean": 0.4943711748128253,
+      "flow/mag_ratio_std": 0.2643810258046396,
+      "step": 17408
+    },
+    {
+      "epoch": 0.7502316460878746,
+      "eval_bleu": 0.7637354358631164,
+      "eval_cos_loss": 0.5136227607727051,
+      "eval_dec_loss": 0.0013235103740173923,
+      "eval_loss": 1.4103716327183282,
+      "eval_mse2_loss": 0.17683548507278662,
+      "eval_mse_loss": 1.4103716327183282,
+      "eval_rec_loss": 0.05761792201366125,
+      "eval_runtime": 103.2171,
+      "eval_samples_per_second": 290.65,
+      "eval_steps_per_second": 4.544,
+      "eval_var_loss": 0.03023185586926144,
+      "flow/cos_sim": 0.4863772399898277,
+      "flow/improvement_ratio": 0.8529339908028463,
+      "flow/mag_ratio_mean": 0.4943711748128253,
+      "flow/mag_ratio_std": 0.2643810258046396,
+      "step": 17408
+    },
+    {
+      "epoch": 0.7612644644126964,
+      "grad_norm": 0.5421018600463867,
+      "learning_rate": 0.00014004491112398103,
+      "loss": 1.4142208099365234,
+      "step": 17664
+    },
+    {
+      "epoch": 0.7722972827375181,
+      "grad_norm": 0.665582537651062,
+      "learning_rate": 0.00012797400442612433,
+      "loss": 1.411756992340088,
+      "step": 17920
+    },
+    {
+      "epoch": 0.7833301010623397,
+      "grad_norm": 0.6837579607963562,
+      "learning_rate": 0.00011637036133026895,
+      "loss": 1.4075802564620972,
+      "step": 18176
+    },
+    {
+      "epoch": 0.7943629193871614,
+      "grad_norm": 0.7160040736198425,
+      "learning_rate": 0.00010524855597944216,
+      "loss": 1.4070231914520264,
+      "step": 18432
+    },
+    {
+      "epoch": 0.7943629193871614,
+      "eval_bleu": 0.8024029342579875,
+      "eval_cos_loss": 0.5127464083593283,
+      "eval_dec_loss": 0.0013179335473900858,
+      "eval_loss": 1.4091586799763922,
+      "eval_mse2_loss": 0.17562630394501472,
+      "eval_mse_loss": 1.4091586799763922,
+      "eval_rec_loss": 0.059627406716124334,
+      "eval_var_loss": 0.029311500787576123,
+      "flow/cos_sim": 0.4872535904333281,
+      "flow/improvement_ratio": 0.8548329780096693,
+      "flow/mag_ratio_mean": 0.49533584078491877,
+      "flow/mag_ratio_std": 0.2655049035988891,
+      "step": 18432
+    },
+    {
+      "epoch": 0.7943629193871614,
+      "eval_bleu": 0.8024029342579875,
+      "eval_cos_loss": 0.5127464083593283,
+      "eval_dec_loss": 0.0013179335473900858,
+      "eval_loss": 1.4091586799763922,
+      "eval_mse2_loss": 0.17562630394501472,
+      "eval_mse_loss": 1.4091586799763922,
+      "eval_rec_loss": 0.059627406716124334,
+      "eval_runtime": 103.4418,
+      "eval_samples_per_second": 290.018,
+      "eval_steps_per_second": 4.534,
+      "eval_var_loss": 0.029311500787576123,
+      "flow/cos_sim": 0.4872535904333281,
+      "flow/improvement_ratio": 0.8548329780096693,
+      "flow/mag_ratio_mean": 0.49533584078491877,
+      "flow/mag_ratio_std": 0.2655049035988891,
+      "step": 18432
+    },
+    {
+      "epoch": 0.8053957377119831,
+      "grad_norm": 0.727080762386322,
+      "learning_rate": 9.462255732982089e-05,
+      "loss": 1.406097650527954,
+      "step": 18688
+    },
+    {
+      "epoch": 0.8164285560368048,
+      "grad_norm": 0.6209878921508789,
+      "learning_rate": 8.450571160576348e-05,
+      "loss": 1.4059816598892212,
+      "step": 18944
+    },
+    {
+      "epoch": 0.8274613743616265,
+      "grad_norm": 0.659706175327301,
+      "learning_rate": 7.491072553698764e-05,
+      "loss": 1.410292148590088,
+      "step": 19200
+    },
+    {
+      "epoch": 0.8384941926864482,
+      "grad_norm": 0.5520651340484619,
+      "learning_rate": 6.584965039895586e-05,
+      "loss": 1.402584195137024,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8384941926864482,
+      "eval_bleu": 0.7435766156577157,
+      "eval_cos_loss": 0.5144387822923884,
+      "eval_dec_loss": 0.0013450082680801236,
+      "eval_loss": 1.4127296161041585,
+      "eval_mse2_loss": 0.17700788906134013,
+      "eval_mse_loss": 1.4127296161041585,
+      "eval_rec_loss": 0.058054142113306374,
+      "eval_var_loss": 0.0291894421593022,
+      "flow/cos_sim": 0.4855612163731793,
+      "flow/improvement_ratio": 0.8498689588199038,
+      "flow/mag_ratio_mean": 0.4951269815344292,
+      "flow/mag_ratio_std": 0.26389562489508567,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8384941926864482,
+      "eval_bleu": 0.7435766156577157,
+      "eval_cos_loss": 0.5144387822923884,
+      "eval_dec_loss": 0.0013450082680801236,
+      "eval_loss": 1.4127296161041585,
+      "eval_mse2_loss": 0.17700788906134013,
+      "eval_mse_loss": 1.4127296161041585,
+      "eval_rec_loss": 0.058054142113306374,
+      "eval_runtime": 103.8996,
+      "eval_samples_per_second": 288.74,
+      "eval_steps_per_second": 4.514,
+      "eval_var_loss": 0.0291894421593022,
+      "flow/cos_sim": 0.4855612163731793,
+      "flow/improvement_ratio": 0.8498689588199038,
+      "flow/mag_ratio_mean": 0.4951269815344292,
+      "flow/mag_ratio_std": 0.26389562489508567,
+      "step": 19456
+    },
+    {
+      "epoch": 0.8495270110112698,
+      "grad_norm": 0.7207916378974915,
+      "learning_rate": 5.73338668765051e-05,
+      "loss": 1.408148169517517,
+      "step": 19712
+    },
+    {
+      "epoch": 0.8605598293360915,
+      "grad_norm": 0.6444937586784363,
+      "learning_rate": 4.9374070769740984e-05,
+      "loss": 1.4169082641601562,
+      "step": 19968
+    },
+    {
+      "epoch": 0.8715926476609133,
+      "grad_norm": 0.6508966088294983,
+      "learning_rate": 4.198025956014095e-05,
+      "loss": 1.412489891052246,
+      "step": 20224
+    },
+    {
+      "epoch": 0.8826254659857349,
+      "grad_norm": 0.8207064270973206,
+      "learning_rate": 3.516171985374755e-05,
+      "loss": 1.4014993906021118,
+      "step": 20480
+    },
+    {
+      "epoch": 0.8826254659857349,
+      "eval_bleu": 0.7371724072330055,
+      "eval_cos_loss": 0.5137777864805925,
+      "eval_dec_loss": 0.0013706799051735545,
+      "eval_loss": 1.409610672546094,
+      "eval_mse2_loss": 0.17626210351361396,
+      "eval_mse_loss": 1.409610672546094,
+      "eval_rec_loss": 0.054663843655986574,
+      "eval_var_loss": 0.029133995291965604,
+      "flow/cos_sim": 0.48622221402776267,
+      "flow/improvement_ratio": 0.8532393833975802,
+      "flow/mag_ratio_mean": 0.4940188680249237,
+      "flow/mag_ratio_std": 0.2655889735674299,
+      "step": 20480
+    },
+    {
+      "epoch": 0.8826254659857349,
+      "eval_bleu": 0.7371724072330055,
+      "eval_cos_loss": 0.5137777864805925,
+      "eval_dec_loss": 0.0013706799051735545,
+      "eval_loss": 1.409610672546094,
+      "eval_mse2_loss": 0.17626210351361396,
+      "eval_mse_loss": 1.409610672546094,
+      "eval_rec_loss": 0.054663843655986574,
+      "eval_runtime": 104.0379,
+      "eval_samples_per_second": 288.356,
+      "eval_steps_per_second": 4.508,
+      "eval_var_loss": 0.029133995291965604,
+      "flow/cos_sim": 0.48622221402776267,
+      "flow/improvement_ratio": 0.8532393833975802,
+      "flow/mag_ratio_mean": 0.4940188680249237,
+      "flow/mag_ratio_std": 0.2655889735674299,
+      "step": 20480
+    },
+    {
+      "epoch": 0.8936582843105566,
+      "grad_norm": 0.5996214151382446,
+      "learning_rate": 2.8927015717215733e-05,
+      "loss": 1.4027345180511475,
+      "step": 20736
+    },
+    {
+      "epoch": 0.9046911026353783,
+      "grad_norm": 0.6789088845252991,
+      "learning_rate": 2.3283977921370547e-05,
+      "loss": 1.4052367210388184,
+      "step": 20992
+    },
+    {
+      "epoch": 0.9157239209601999,
+      "grad_norm": 0.6676909327507019,
+      "learning_rate": 1.8239694105780413e-05,
+      "loss": 1.406872034072876,
+      "step": 21248
+    },
+    {
+      "epoch": 0.9267567392850217,
+      "grad_norm": 0.5955349802970886,
+      "learning_rate": 1.3800499876701955e-05,
+      "loss": 1.4064586162567139,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9267567392850217,
+      "eval_bleu": 0.7426715244464189,
+      "eval_cos_loss": 0.5071186275878695,
+      "eval_dec_loss": 0.001350255208637894,
+      "eval_loss": 1.3937010752366805,
+      "eval_mse2_loss": 0.17541809607225695,
+      "eval_mse_loss": 1.3937010752366805,
+      "eval_rec_loss": 0.05103444970691445,
+      "eval_var_loss": 0.02931836185091213,
+      "flow/cos_sim": 0.49288137139542015,
+      "flow/improvement_ratio": 0.8528173863252343,
+      "flow/mag_ratio_mean": 0.4987420951252553,
+      "flow/mag_ratio_std": 0.26658764935886936,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9267567392850217,
+      "eval_bleu": 0.7426715244464189,
+      "eval_cos_loss": 0.5071186275878695,
+      "eval_dec_loss": 0.001350255208637894,
+      "eval_loss": 1.3937010752366805,
+      "eval_mse2_loss": 0.17541809607225695,
+      "eval_mse_loss": 1.3937010752366805,
+      "eval_rec_loss": 0.05103444970691445,
+      "eval_runtime": 104.142,
+      "eval_samples_per_second": 288.068,
+      "eval_steps_per_second": 4.503,
+      "eval_var_loss": 0.02931836185091213,
+      "flow/cos_sim": 0.49288137139542015,
+      "flow/improvement_ratio": 0.8528173863252343,
+      "flow/mag_ratio_mean": 0.4987420951252553,
+      "flow/mag_ratio_std": 0.26658764935886936,
+      "step": 21504
+    },
+    {
+      "epoch": 0.9377895576098434,
+      "grad_norm": 0.8665277361869812,
+      "learning_rate": 9.971970849576406e-06,
+      "loss": 1.4001104831695557,
+      "step": 21760
+    },
+    {
+      "epoch": 0.948822375934665,
+      "grad_norm": 0.6160731315612793,
+      "learning_rate": 6.758915646072339e-06,
+      "loss": 1.4023921489715576,
+      "step": 22016
+    },
+    {
+      "epoch": 0.9598551942594867,
+      "grad_norm": 0.6823092103004456,
+      "learning_rate": 4.1653698544703575e-06,
+      "loss": 1.4057680368423462,
+      "step": 22272
+    },
+    {
+      "epoch": 0.9708880125843083,
+      "grad_norm": 0.7474303841590881,
+      "learning_rate": 2.1945909609756286e-06,
+      "loss": 1.402069330215454,
+      "step": 22528
+    },
+    {
+      "epoch": 0.9708880125843083,
+      "eval_bleu": 0.7359243412878435,
+      "eval_cos_loss": 0.5119307249593836,
+      "eval_dec_loss": 0.0013969406839550735,
+      "eval_loss": 1.4065255351158092,
+      "eval_mse2_loss": 0.17711426552806073,
+      "eval_mse_loss": 1.4065255351158092,
+      "eval_rec_loss": 0.056425910651572604,
+      "eval_var_loss": 0.02955100304091663,
+      "flow/cos_sim": 0.4880692758031491,
+      "flow/improvement_ratio": 0.8548107675906184,
+      "flow/mag_ratio_mean": 0.49543472253945847,
+      "flow/mag_ratio_std": 0.263321697140045,
+      "step": 22528
+    },
+    {
+      "epoch": 0.9708880125843083,
+      "eval_bleu": 0.7359243412878435,
+      "eval_cos_loss": 0.5119307249593836,
+      "eval_dec_loss": 0.0013969406839550735,
+      "eval_loss": 1.4065255351158092,
+      "eval_mse2_loss": 0.17711426552806073,
+      "eval_mse_loss": 1.4065255351158092,
+      "eval_rec_loss": 0.056425910651572604,
+      "eval_runtime": 103.1789,
+      "eval_samples_per_second": 290.757,
+      "eval_steps_per_second": 4.546,
+      "eval_var_loss": 0.02955100304091663,
+      "flow/cos_sim": 0.4880692758031491,
+      "flow/improvement_ratio": 0.8548107675906184,
+      "flow/mag_ratio_mean": 0.49543472253945847,
+      "flow/mag_ratio_std": 0.263321697140045,
+      "step": 22528
+    },
+    {
+      "epoch": 0.9819208309091301,
+      "grad_norm": 0.6597904562950134,
+      "learning_rate": 8.490542583243222e-07,
+      "loss": 1.4066376686096191,
+      "step": 22784
+    },
+    {
+      "epoch": 0.9929536492339518,
+      "grad_norm": 0.7082860469818115,
+      "learning_rate": 1.3044973682302396e-07,
+      "loss": 1.4058468341827393,
+      "step": 23040
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-d1.1-c/checkpoint-23204/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61a16bb839f687414b8e48611327c4b9cfddeefe38c031ca70808f9a97c476b7
+size 5137