Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.5/checkpoint-24576/ema.safetensors +3 -0
checkpoints-v5.5/checkpoint-24576/eval_state.json +3 -0
checkpoints-v5.5/checkpoint-24576/model.safetensors +3 -0
checkpoints-v5.5/checkpoint-24576/optimizer.pt +3 -0
checkpoints-v5.5/checkpoint-24576/rng_state.pth +3 -0
checkpoints-v5.5/checkpoint-24576/scaler.pt +3 -0
checkpoints-v5.5/checkpoint-24576/scheduler.pt +3 -0
checkpoints-v5.5/checkpoint-24576/trainer_state.json +946 -0
checkpoints-v5.5/checkpoint-24576/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -41,3 +41,4 @@ checkpoints-v5.4/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs
 checkpoints-v5.5/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.5/checkpoint-16384/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.4+/checkpoint-7168/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.5/checkpoint-10240/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.5/checkpoint-16384/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v4.4+/checkpoint-7168/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.5/checkpoint-24576/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.5/checkpoint-24576/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5808cb147472e3a2d19390c6498f05f729d2e489709bbcb82d233a8f6a54930f
+size 54599592

checkpoints-v5.5/checkpoint-24576/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acd731c050d9687ba31080d41a31c97050cb449beb54aa644cd679d716df00f3
+size 19289872

checkpoints-v5.5/checkpoint-24576/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c1d977c9875224312ef21d699bdd833ec8f4fc5b7cef30a6a064b5b34a8bad5
+size 54599624

checkpoints-v5.5/checkpoint-24576/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9afbba29e43d8c092553899143eceec612d7ca5fc0aa5aacad830f4ed9db278d
+size 76551435

checkpoints-v5.5/checkpoint-24576/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c7198edc7e328d1c01acad66d4632835e1193ed11f1243b415fb1c50e784b71
+size 14645

checkpoints-v5.5/checkpoint-24576/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52c5aa2ae7a59ba4f022c67978b15a54fe1762bd7a0371dca2572a0f2fef2940
+size 1383

checkpoints-v5.5/checkpoint-24576/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a487984da3eb5e87d7a5aa5b72ca55b43280e3c215b654d40223ece6cca8b008
+size 1465

checkpoints-v5.5/checkpoint-24576/trainer_state.json ADDED Viewed

	@@ -0,0 +1,946 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.1772577412890297,
+  "eval_steps": 1024,
+  "global_step": 24576,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 7.3368072509765625,
+      "learning_rate": 9.990234375e-05,
+      "loss": 13.833250999450684,
+      "step": 1024
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.08843010093383347,
+      "eval_ce_clean_loss": 3.785046512154257,
+      "eval_ce_pred_loss": 6.1898151750017885,
+      "eval_flow_cos_loss": 0.39729490059955863,
+      "eval_flow_mse_loss": 1.2504585077808161,
+      "eval_loss": 9.467699330323821,
+      "flow/cos_sim": 0.6027051043358578,
+      "flow/improvement_ratio": 0.9944390654563904,
+      "flow/mag_ratio_mean": 0.6029561613775363,
+      "flow/mag_ratio_std": 0.06967356720357944,
+      "step": 1024
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.08843010093383347,
+      "eval_ce_clean_loss": 3.785046512154257,
+      "eval_ce_pred_loss": 6.1898151750017885,
+      "eval_flow_cos_loss": 0.39729490059955863,
+      "eval_flow_mse_loss": 1.2504585077808161,
+      "eval_loss": 9.467699330323821,
+      "eval_runtime": 69.1426,
+      "eval_samples_per_second": 144.629,
+      "eval_steps_per_second": 2.271,
+      "flow/cos_sim": 0.6027051043358578,
+      "flow/improvement_ratio": 0.9944390654563904,
+      "flow/mag_ratio_mean": 0.6029561613775363,
+      "flow/mag_ratio_std": 0.06967356720357944,
+      "step": 1024
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 1.5976208448410034,
+      "learning_rate": 9.971175203561169e-05,
+      "loss": 6.556396484375,
+      "step": 2048
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.2647666813502405,
+      "eval_ce_clean_loss": 0.6921462336922907,
+      "eval_ce_pred_loss": 4.159270631279915,
+      "eval_flow_cos_loss": 0.33016856043202103,
+      "eval_flow_mse_loss": 1.083006814786583,
+      "eval_loss": 4.769184565088551,
+      "flow/cos_sim": 0.6698314437441005,
+      "flow/improvement_ratio": 0.9946717445258122,
+      "flow/mag_ratio_mean": 0.6456947994839614,
+      "flow/mag_ratio_std": 0.08488734332239552,
+      "step": 2048
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.2647666813502405,
+      "eval_ce_clean_loss": 0.6921462336922907,
+      "eval_ce_pred_loss": 4.159270631279915,
+      "eval_flow_cos_loss": 0.33016856043202103,
+      "eval_flow_mse_loss": 1.083006814786583,
+      "eval_loss": 4.769184565088551,
+      "eval_runtime": 67.8586,
+      "eval_samples_per_second": 147.365,
+      "eval_steps_per_second": 2.314,
+      "flow/cos_sim": 0.6698314437441005,
+      "flow/improvement_ratio": 0.9946717445258122,
+      "flow/mag_ratio_mean": 0.6456947994839614,
+      "flow/mag_ratio_std": 0.08488734332239552,
+      "step": 2048
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 1.0349175930023193,
+      "learning_rate": 9.885033161800567e-05,
+      "loss": 4.22868013381958,
+      "step": 3072
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.3307477170153146,
+      "eval_ce_clean_loss": 0.21776276523140586,
+      "eval_ce_pred_loss": 3.5308286536271405,
+      "eval_flow_cos_loss": 0.3201853291244264,
+      "eval_flow_mse_loss": 1.0728299655732076,
+      "eval_loss": 3.8422190869689747,
+      "flow/cos_sim": 0.6798147354156349,
+      "flow/improvement_ratio": 0.9928556031482235,
+      "flow/mag_ratio_mean": 0.6495526474752243,
+      "flow/mag_ratio_std": 0.08990857878308388,
+      "step": 3072
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.3307477170153146,
+      "eval_ce_clean_loss": 0.21776276523140586,
+      "eval_ce_pred_loss": 3.5308286536271405,
+      "eval_flow_cos_loss": 0.3201853291244264,
+      "eval_flow_mse_loss": 1.0728299655732076,
+      "eval_loss": 3.8422190869689747,
+      "eval_runtime": 67.9151,
+      "eval_samples_per_second": 147.243,
+      "eval_steps_per_second": 2.312,
+      "flow/cos_sim": 0.6798147354156349,
+      "flow/improvement_ratio": 0.9928556031482235,
+      "flow/mag_ratio_mean": 0.6495526474752243,
+      "flow/mag_ratio_std": 0.08990857878308388,
+      "step": 3072
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "grad_norm": 2.284677028656006,
+      "learning_rate": 9.742400750550229e-05,
+      "loss": 3.7094979286193848,
+      "step": 4096
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.3527590985954599,
+      "eval_ce_clean_loss": 0.10325595935818496,
+      "eval_ce_pred_loss": 3.3037764221240002,
+      "eval_flow_cos_loss": 0.29567099870390195,
+      "eval_flow_mse_loss": 1.0334580939286833,
+      "eval_loss": 3.5232752614719853,
+      "flow/cos_sim": 0.7043290168616423,
+      "flow/improvement_ratio": 0.9942314150227103,
+      "flow/mag_ratio_mean": 0.6710645951283206,
+      "flow/mag_ratio_std": 0.08415729860970929,
+      "step": 4096
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.3527590985954599,
+      "eval_ce_clean_loss": 0.10325595935818496,
+      "eval_ce_pred_loss": 3.3037764221240002,
+      "eval_flow_cos_loss": 0.29567099870390195,
+      "eval_flow_mse_loss": 1.0334580939286833,
+      "eval_loss": 3.5232752614719853,
+      "eval_runtime": 67.527,
+      "eval_samples_per_second": 148.089,
+      "eval_steps_per_second": 2.325,
+      "flow/cos_sim": 0.7043290168616423,
+      "flow/improvement_ratio": 0.9942314150227103,
+      "flow/mag_ratio_mean": 0.6710645951283206,
+      "flow/mag_ratio_std": 0.08415729860970929,
+      "step": 4096
+    },
+    {
+      "epoch": 0.6619690994893012,
+      "grad_norm": 1.0625219345092773,
+      "learning_rate": 9.544981995345226e-05,
+      "loss": 3.4675893783569336,
+      "step": 5120
+    },
+    {
+      "epoch": 0.6619690994893012,
+      "eval_bleu": 0.37785369114831263,
+      "eval_ce_clean_loss": 0.0570975638404014,
+      "eval_ce_pred_loss": 3.1086114409622874,
+      "eval_flow_cos_loss": 0.2890773550340324,
+      "eval_flow_mse_loss": 1.0530509029983715,
+      "eval_loss": 3.3584457916818606,
+      "flow/cos_sim": 0.7109226474336757,
+      "flow/improvement_ratio": 0.9944721566643685,
+      "flow/mag_ratio_mean": 0.6796372863137798,
+      "flow/mag_ratio_std": 0.08220032687969268,
+      "step": 5120
+    },
+    {
+      "epoch": 0.6619690994893012,
+      "eval_bleu": 0.37785369114831263,
+      "eval_ce_clean_loss": 0.0570975638404014,
+      "eval_ce_pred_loss": 3.1086114409622874,
+      "eval_flow_cos_loss": 0.2890773550340324,
+      "eval_flow_mse_loss": 1.0530509029983715,
+      "eval_loss": 3.3584457916818606,
+      "eval_runtime": 67.5831,
+      "eval_samples_per_second": 147.966,
+      "eval_steps_per_second": 2.323,
+      "flow/cos_sim": 0.7109226474336757,
+      "flow/improvement_ratio": 0.9944721566643685,
+      "flow/mag_ratio_mean": 0.6796372863137798,
+      "flow/mag_ratio_std": 0.08220032687969268,
+      "step": 5120
+    },
+    {
+      "epoch": 0.7943629193871614,
+      "grad_norm": 1.390210747718811,
+      "learning_rate": 9.295057566334431e-05,
+      "loss": 3.3179638385772705,
+      "step": 6144
+    },
+    {
+      "epoch": 0.7943629193871614,
+      "eval_bleu": 0.40284924593911503,
+      "eval_ce_clean_loss": 0.03560329580999863,
+      "eval_ce_pred_loss": 2.935079864635589,
+      "eval_flow_cos_loss": 0.2695348363393431,
+      "eval_flow_mse_loss": 1.037700882383213,
+      "eval_loss": 3.195243762556914,
+      "flow/cos_sim": 0.7304651706841341,
+      "flow/improvement_ratio": 0.9945835288922498,
+      "flow/mag_ratio_mean": 0.7005888793119199,
+      "flow/mag_ratio_std": 0.0835665136480787,
+      "step": 6144
+    },
+    {
+      "epoch": 0.7943629193871614,
+      "eval_bleu": 0.40284924593911503,
+      "eval_ce_clean_loss": 0.03560329580999863,
+      "eval_ce_pred_loss": 2.935079864635589,
+      "eval_flow_cos_loss": 0.2695348363393431,
+      "eval_flow_mse_loss": 1.037700882383213,
+      "eval_loss": 3.195243762556914,
+      "eval_runtime": 67.6818,
+      "eval_samples_per_second": 147.75,
+      "eval_steps_per_second": 2.32,
+      "flow/cos_sim": 0.7304651706841341,
+      "flow/improvement_ratio": 0.9945835288922498,
+      "flow/mag_ratio_mean": 0.7005888793119199,
+      "flow/mag_ratio_std": 0.0835665136480787,
+      "step": 6144
+    },
+    {
+      "epoch": 0.9267567392850217,
+      "grad_norm": 1.7730882167816162,
+      "learning_rate": 8.995830349195804e-05,
+      "loss": 3.2147014141082764,
+      "step": 7168
+    },
+    {
+      "epoch": 0.9267567392850217,
+      "eval_bleu": 0.4108774093856199,
+      "eval_ce_clean_loss": 0.025004512588879105,
+      "eval_ce_pred_loss": 2.8478709542827243,
+      "eval_flow_cos_loss": 0.25457756676871307,
+      "eval_flow_mse_loss": 1.0318333833080948,
+      "eval_loss": 3.113991931745201,
+      "flow/cos_sim": 0.745422419469068,
+      "flow/improvement_ratio": 0.9949804590006542,
+      "flow/mag_ratio_mean": 0.7171509364607987,
+      "flow/mag_ratio_std": 0.08899391105600224,
+      "step": 7168
+    },
+    {
+      "epoch": 0.9267567392850217,
+      "eval_bleu": 0.4108774093856199,
+      "eval_ce_clean_loss": 0.025004512588879105,
+      "eval_ce_pred_loss": 2.8478709542827243,
+      "eval_flow_cos_loss": 0.25457756676871307,
+      "eval_flow_mse_loss": 1.0318333833080948,
+      "eval_loss": 3.113991931745201,
+      "eval_runtime": 67.7148,
+      "eval_samples_per_second": 147.678,
+      "eval_steps_per_second": 2.319,
+      "flow/cos_sim": 0.745422419469068,
+      "flow/improvement_ratio": 0.9949804590006542,
+      "flow/mag_ratio_mean": 0.7171509364607987,
+      "flow/mag_ratio_std": 0.08899391105600224,
+      "step": 7168
+    },
+    {
+      "epoch": 1.05908591376301,
+      "grad_norm": 2.208953619003296,
+      "learning_rate": 8.650172716103233e-05,
+      "loss": 3.119405508041382,
+      "step": 8192
+    },
+    {
+      "epoch": 1.05908591376301,
+      "eval_bleu": 0.4100243274079566,
+      "eval_ce_clean_loss": 0.018418982221632248,
+      "eval_ce_pred_loss": 2.801309669853016,
+      "eval_flow_cos_loss": 0.24036190160520518,
+      "eval_flow_mse_loss": 1.0228236701078475,
+      "eval_loss": 3.062249883724626,
+      "flow/cos_sim": 0.7596381280072935,
+      "flow/improvement_ratio": 0.9959618415042852,
+      "flow/mag_ratio_mean": 0.7364322915198697,
+      "flow/mag_ratio_std": 0.0917528191949152,
+      "step": 8192
+    },
+    {
+      "epoch": 1.05908591376301,
+      "eval_bleu": 0.4100243274079566,
+      "eval_ce_clean_loss": 0.018418982221632248,
+      "eval_ce_pred_loss": 2.801309669853016,
+      "eval_flow_cos_loss": 0.24036190160520518,
+      "eval_flow_mse_loss": 1.0228236701078475,
+      "eval_loss": 3.062249883724626,
+      "eval_runtime": 69.3159,
+      "eval_samples_per_second": 144.267,
+      "eval_steps_per_second": 2.265,
+      "flow/cos_sim": 0.7596381280072935,
+      "flow/improvement_ratio": 0.9959618415042852,
+      "flow/mag_ratio_mean": 0.7364322915198697,
+      "flow/mag_ratio_std": 0.0917528191949152,
+      "step": 8192
+    },
+    {
+      "epoch": 1.19147973366087,
+      "grad_norm": 1.0985896587371826,
+      "learning_rate": 8.263142386444264e-05,
+      "loss": 3.0675039291381836,
+      "step": 9216
+    },
+    {
+      "epoch": 1.19147973366087,
+      "eval_bleu": 0.42913809326340735,
+      "eval_ce_clean_loss": 0.014243369497904543,
+      "eval_ce_pred_loss": 2.679083149903899,
+      "eval_flow_cos_loss": 0.2306169035138598,
+      "eval_flow_mse_loss": 1.0239125793906534,
+      "eval_loss": 2.97116835861449,
+      "flow/cos_sim": 0.7693831127160674,
+      "flow/improvement_ratio": 0.9939722635184124,
+      "flow/mag_ratio_mean": 0.748531128190885,
+      "flow/mag_ratio_std": 0.0947970964821281,
+      "step": 9216
+    },
+    {
+      "epoch": 1.19147973366087,
+      "eval_bleu": 0.42913809326340735,
+      "eval_ce_clean_loss": 0.014243369497904543,
+      "eval_ce_pred_loss": 2.679083149903899,
+      "eval_flow_cos_loss": 0.2306169035138598,
+      "eval_flow_mse_loss": 1.0239125793906534,
+      "eval_loss": 2.97116835861449,
+      "eval_runtime": 67.1108,
+      "eval_samples_per_second": 149.007,
+      "eval_steps_per_second": 2.339,
+      "flow/cos_sim": 0.7693831127160674,
+      "flow/improvement_ratio": 0.9939722635184124,
+      "flow/mag_ratio_mean": 0.748531128190885,
+      "flow/mag_ratio_std": 0.0947970964821281,
+      "step": 9216
+    },
+    {
+      "epoch": 1.3238735535587303,
+      "grad_norm": 2.3166847229003906,
+      "learning_rate": 7.837697175482903e-05,
+      "loss": 3.002436399459839,
+      "step": 10240
+    },
+    {
+      "epoch": 1.3238735535587303,
+      "eval_bleu": 0.42768151912552244,
+      "eval_ce_clean_loss": 0.011440879840308883,
+      "eval_ce_pred_loss": 2.672361337455215,
+      "eval_flow_cos_loss": 0.2179829450739417,
+      "eval_flow_mse_loss": 1.0098259748926588,
+      "eval_loss": 2.946415506350766,
+      "flow/cos_sim": 0.782017103426016,
+      "flow/improvement_ratio": 0.9939965146362402,
+      "flow/mag_ratio_mean": 0.7625711093283003,
+      "flow/mag_ratio_std": 0.09684707447411908,
+      "step": 10240
+    },
+    {
+      "epoch": 1.3238735535587303,
+      "eval_bleu": 0.42768151912552244,
+      "eval_ce_clean_loss": 0.011440879840308883,
+      "eval_ce_pred_loss": 2.672361337455215,
+      "eval_flow_cos_loss": 0.2179829450739417,
+      "eval_flow_mse_loss": 1.0098259748926588,
+      "eval_loss": 2.946415506350766,
+      "eval_runtime": 67.7743,
+      "eval_samples_per_second": 147.549,
+      "eval_steps_per_second": 2.317,
+      "flow/cos_sim": 0.782017103426016,
+      "flow/improvement_ratio": 0.9939965146362402,
+      "flow/mag_ratio_mean": 0.7625711093283003,
+      "flow/mag_ratio_std": 0.09684707447411908,
+      "step": 10240
+    },
+    {
+      "epoch": 1.4562673734565905,
+      "grad_norm": 1.1153963804244995,
+      "learning_rate": 7.37946961193838e-05,
+      "loss": 2.948077917098999,
+      "step": 11264
+    },
+    {
+      "epoch": 1.4562673734565905,
+      "eval_bleu": 0.44608815072120206,
+      "eval_ce_clean_loss": 0.009407547670327554,
+      "eval_ce_pred_loss": 2.5671096637750126,
+      "eval_flow_cos_loss": 0.21284512444666237,
+      "eval_flow_mse_loss": 1.0222040597040942,
+      "eval_loss": 2.8817996310580307,
+      "flow/cos_sim": 0.7871549156061404,
+      "flow/improvement_ratio": 0.9953155885836121,
+      "flow/mag_ratio_mean": 0.767739696867147,
+      "flow/mag_ratio_std": 0.10089007670142848,
+      "step": 11264
+    },
+    {
+      "epoch": 1.4562673734565905,
+      "eval_bleu": 0.44608815072120206,
+      "eval_ce_clean_loss": 0.009407547670327554,
+      "eval_ce_pred_loss": 2.5671096637750126,
+      "eval_flow_cos_loss": 0.21284512444666237,
+      "eval_flow_mse_loss": 1.0222040597040942,
+      "eval_loss": 2.8817996310580307,
+      "eval_runtime": 69.2843,
+      "eval_samples_per_second": 144.333,
+      "eval_steps_per_second": 2.266,
+      "flow/cos_sim": 0.7871549156061404,
+      "flow/improvement_ratio": 0.9953155885836121,
+      "flow/mag_ratio_mean": 0.767739696867147,
+      "flow/mag_ratio_std": 0.10089007670142848,
+      "step": 11264
+    },
+    {
+      "epoch": 1.5886611933544508,
+      "grad_norm": 2.7540619373321533,
+      "learning_rate": 6.894239286709331e-05,
+      "loss": 2.921593427658081,
+      "step": 12288
+    },
+    {
+      "epoch": 1.5886611933544508,
+      "eval_bleu": 0.4600711751490207,
+      "eval_ce_clean_loss": 0.008017947172129135,
+      "eval_ce_pred_loss": 2.4964520749013137,
+      "eval_flow_cos_loss": 0.20653787796284742,
+      "eval_flow_mse_loss": 1.0247267002512694,
+      "eval_loss": 2.8318955564195183,
+      "flow/cos_sim": 0.7934621500361497,
+      "flow/improvement_ratio": 0.9952654098249545,
+      "flow/mag_ratio_mean": 0.7712421458997544,
+      "flow/mag_ratio_std": 0.10261066300663979,
+      "step": 12288
+    },
+    {
+      "epoch": 1.5886611933544508,
+      "eval_bleu": 0.4600711751490207,
+      "eval_ce_clean_loss": 0.008017947172129135,
+      "eval_ce_pred_loss": 2.4964520749013137,
+      "eval_flow_cos_loss": 0.20653787796284742,
+      "eval_flow_mse_loss": 1.0247267002512694,
+      "eval_loss": 2.8318955564195183,
+      "eval_runtime": 68.3644,
+      "eval_samples_per_second": 146.275,
+      "eval_steps_per_second": 2.297,
+      "flow/cos_sim": 0.7934621500361497,
+      "flow/improvement_ratio": 0.9952654098249545,
+      "flow/mag_ratio_mean": 0.7712421458997544,
+      "flow/mag_ratio_std": 0.10261066300663979,
+      "step": 12288
+    },
+    {
+      "epoch": 1.721055013252311,
+      "grad_norm": 1.0973964929580688,
+      "learning_rate": 6.386664071821704e-05,
+      "loss": 2.8836159706115723,
+      "step": 13312
+    },
+    {
+      "epoch": 1.721055013252311,
+      "eval_bleu": 0.45198542436217626,
+      "eval_ce_clean_loss": 0.00690584495562799,
+      "eval_ce_pred_loss": 2.526137225946803,
+      "eval_flow_cos_loss": 0.1992794095900408,
+      "eval_flow_mse_loss": 1.0171066932617479,
+      "eval_loss": 2.842128411979432,
+      "flow/cos_sim": 0.8007206206868409,
+      "flow/improvement_ratio": 0.9942179546234714,
+      "flow/mag_ratio_mean": 0.7813193399435395,
+      "flow/mag_ratio_std": 0.10161699169570473,
+      "step": 13312
+    },
+    {
+      "epoch": 1.721055013252311,
+      "eval_bleu": 0.45198542436217626,
+      "eval_ce_clean_loss": 0.00690584495562799,
+      "eval_ce_pred_loss": 2.526137225946803,
+      "eval_flow_cos_loss": 0.1992794095900408,
+      "eval_flow_mse_loss": 1.0171066932617479,
+      "eval_loss": 2.842128411979432,
+      "eval_runtime": 67.7624,
+      "eval_samples_per_second": 147.574,
+      "eval_steps_per_second": 2.317,
+      "flow/cos_sim": 0.8007206206868409,
+      "flow/improvement_ratio": 0.9942179546234714,
+      "flow/mag_ratio_mean": 0.7813193399435395,
+      "flow/mag_ratio_std": 0.10161699169570473,
+      "step": 13312
+    },
+    {
+      "epoch": 1.8534488331501713,
+      "grad_norm": 1.9011768102645874,
+      "learning_rate": 5.863069490629029e-05,
+      "loss": 2.8486995697021484,
+      "step": 14336
+    },
+    {
+      "epoch": 1.8534488331501713,
+      "eval_bleu": 0.4661235270091544,
+      "eval_ce_clean_loss": 0.0061916545386408355,
+      "eval_ce_pred_loss": 2.4525129415427043,
+      "eval_flow_cos_loss": 0.19385759503978073,
+      "eval_flow_mse_loss": 1.014179768835663,
+      "eval_loss": 2.785594868811832,
+      "flow/cos_sim": 0.8061424322948334,
+      "flow/improvement_ratio": 0.9953108915857448,
+      "flow/mag_ratio_mean": 0.7884186832768143,
+      "flow/mag_ratio_std": 0.10213647872968844,
+      "step": 14336
+    },
+    {
+      "epoch": 1.8534488331501713,
+      "eval_bleu": 0.4661235270091544,
+      "eval_ce_clean_loss": 0.0061916545386408355,
+      "eval_ce_pred_loss": 2.4525129415427043,
+      "eval_flow_cos_loss": 0.19385759503978073,
+      "eval_flow_mse_loss": 1.014179768835663,
+      "eval_loss": 2.785594868811832,
+      "eval_runtime": 66.8958,
+      "eval_samples_per_second": 149.486,
+      "eval_steps_per_second": 2.347,
+      "flow/cos_sim": 0.8061424322948334,
+      "flow/improvement_ratio": 0.9953108915857448,
+      "flow/mag_ratio_mean": 0.7884186832768143,
+      "flow/mag_ratio_std": 0.10213647872968844,
+      "step": 14336
+    },
+    {
+      "epoch": 1.9858426530480315,
+      "grad_norm": 1.449341893196106,
+      "learning_rate": 5.330028268696606e-05,
+      "loss": 2.8369064331054688,
+      "step": 15360
+    },
+    {
+      "epoch": 1.9858426530480315,
+      "eval_bleu": 0.47279436776678946,
+      "eval_ce_clean_loss": 0.005674782390024062,
+      "eval_ce_pred_loss": 2.4236644658313433,
+      "eval_flow_cos_loss": 0.18836158210304893,
+      "eval_flow_mse_loss": 1.0086946066018123,
+      "eval_loss": 2.7580248884334684,
+      "flow/cos_sim": 0.8116384444722704,
+      "flow/improvement_ratio": 0.9943355352255949,
+      "flow/mag_ratio_mean": 0.7959212903763838,
+      "flow/mag_ratio_std": 0.10561748859798832,
+      "step": 15360
+    },
+    {
+      "epoch": 1.9858426530480315,
+      "eval_bleu": 0.47279436776678946,
+      "eval_ce_clean_loss": 0.005674782390024062,
+      "eval_ce_pred_loss": 2.4236644658313433,
+      "eval_flow_cos_loss": 0.18836158210304893,
+      "eval_flow_mse_loss": 1.0086946066018123,
+      "eval_loss": 2.7580248884334684,
+      "eval_runtime": 67.2307,
+      "eval_samples_per_second": 148.742,
+      "eval_steps_per_second": 2.335,
+      "flow/cos_sim": 0.8116384444722704,
+      "flow/improvement_ratio": 0.9943355352255949,
+      "flow/mag_ratio_mean": 0.7959212903763838,
+      "flow/mag_ratio_std": 0.10561748859798832,
+      "step": 15360
+    },
+    {
+      "epoch": 2.11817182752602,
+      "grad_norm": 3.0230202674865723,
+      "learning_rate": 4.792657229246779e-05,
+      "loss": 2.816126585006714,
+      "step": 16384
+    },
+    {
+      "epoch": 2.11817182752602,
+      "eval_bleu": 0.47827420818893907,
+      "eval_ce_clean_loss": 0.005247315107162591,
+      "eval_ce_pred_loss": 2.396967076951531,
+      "eval_flow_cos_loss": 0.18433132226679735,
+      "eval_flow_mse_loss": 1.0063348123981695,
+      "eval_loss": 2.735541887344069,
+      "flow/cos_sim": 0.8156687302194583,
+      "flow/improvement_ratio": 0.9953372854336052,
+      "flow/mag_ratio_mean": 0.7989175444955279,
+      "flow/mag_ratio_std": 0.10495429419598003,
+      "step": 16384
+    },
+    {
+      "epoch": 2.11817182752602,
+      "eval_bleu": 0.47827420818893907,
+      "eval_ce_clean_loss": 0.005247315107162591,
+      "eval_ce_pred_loss": 2.396967076951531,
+      "eval_flow_cos_loss": 0.18433132226679735,
+      "eval_flow_mse_loss": 1.0063348123981695,
+      "eval_loss": 2.735541887344069,
+      "eval_runtime": 67.2185,
+      "eval_samples_per_second": 148.769,
+      "eval_steps_per_second": 2.336,
+      "flow/cos_sim": 0.8156687302194583,
+      "flow/improvement_ratio": 0.9953372854336052,
+      "flow/mag_ratio_mean": 0.7989175444955279,
+      "flow/mag_ratio_std": 0.10495429419598003,
+      "step": 16384
+    },
+    {
+      "epoch": 2.25056564742388,
+      "grad_norm": 0.8502700328826904,
+      "learning_rate": 4.2582007608037904e-05,
+      "loss": 2.789738416671753,
+      "step": 17408
+    },
+    {
+      "epoch": 2.25056564742388,
+      "eval_bleu": 0.4833431423882271,
+      "eval_ce_clean_loss": 0.004915411782059463,
+      "eval_ce_pred_loss": 2.399613708447499,
+      "eval_flow_cos_loss": 0.18183312740675203,
+      "eval_flow_mse_loss": 1.0084371517418296,
+      "eval_loss": 2.738540423903496,
+      "flow/cos_sim": 0.8181668907214122,
+      "flow/improvement_ratio": 0.9949730706822341,
+      "flow/mag_ratio_mean": 0.8024839326074928,
+      "flow/mag_ratio_std": 0.10586057484719404,
+      "step": 17408
+    },
+    {
+      "epoch": 2.25056564742388,
+      "eval_bleu": 0.4833431423882271,
+      "eval_ce_clean_loss": 0.004915411782059463,
+      "eval_ce_pred_loss": 2.399613708447499,
+      "eval_flow_cos_loss": 0.18183312740675203,
+      "eval_flow_mse_loss": 1.0084371517418296,
+      "eval_loss": 2.738540423903496,
+      "eval_runtime": 68.0506,
+      "eval_samples_per_second": 146.95,
+      "eval_steps_per_second": 2.307,
+      "flow/cos_sim": 0.8181668907214122,
+      "flow/improvement_ratio": 0.9949730706822341,
+      "flow/mag_ratio_mean": 0.8024839326074928,
+      "flow/mag_ratio_std": 0.10586057484719404,
+      "step": 17408
+    },
+    {
+      "epoch": 2.38295946732174,
+      "grad_norm": 1.0941267013549805,
+      "learning_rate": 3.731789271967459e-05,
+      "loss": 2.771674871444702,
+      "step": 18432
+    },
+    {
+      "epoch": 2.38295946732174,
+      "eval_bleu": 0.4920872409706913,
+      "eval_ce_clean_loss": 0.004664461751272724,
+      "eval_ce_pred_loss": 2.364128369434624,
+      "eval_flow_cos_loss": 0.1794095636363242,
+      "eval_flow_mse_loss": 1.0100623141428469,
+      "eval_loss": 2.714469000032753,
+      "flow/cos_sim": 0.820590474802977,
+      "flow/improvement_ratio": 0.9942654329500381,
+      "flow/mag_ratio_mean": 0.8044404573501296,
+      "flow/mag_ratio_std": 0.1081070894743227,
+      "step": 18432
+    },
+    {
+      "epoch": 2.38295946732174,
+      "eval_bleu": 0.4920872409706913,
+      "eval_ce_clean_loss": 0.004664461751272724,
+      "eval_ce_pred_loss": 2.364128369434624,
+      "eval_flow_cos_loss": 0.1794095636363242,
+      "eval_flow_mse_loss": 1.0100623141428469,
+      "eval_loss": 2.714469000032753,
+      "eval_runtime": 67.3234,
+      "eval_samples_per_second": 148.537,
+      "eval_steps_per_second": 2.332,
+      "flow/cos_sim": 0.820590474802977,
+      "flow/improvement_ratio": 0.9942654329500381,
+      "flow/mag_ratio_mean": 0.8044404573501296,
+      "flow/mag_ratio_std": 0.1081070894743227,
+      "step": 18432
+    },
+    {
+      "epoch": 2.5153532872196003,
+      "grad_norm": 1.274901032447815,
+      "learning_rate": 3.22002872319454e-05,
+      "loss": 2.7526628971099854,
+      "step": 19456
+    },
+    {
+      "epoch": 2.5153532872196003,
+      "eval_bleu": 0.49953457802460494,
+      "eval_ce_clean_loss": 0.004459979124574857,
+      "eval_ce_pred_loss": 2.326884046481673,
+      "eval_flow_cos_loss": 0.17535958984854874,
+      "eval_flow_mse_loss": 1.0013958295439458,
+      "eval_loss": 2.6785145139997932,
+      "flow/cos_sim": 0.824640438435184,
+      "flow/improvement_ratio": 0.9943981740125425,
+      "flow/mag_ratio_mean": 0.8087160583514317,
+      "flow/mag_ratio_std": 0.10657752490347358,
+      "step": 19456
+    },
+    {
+      "epoch": 2.5153532872196003,
+      "eval_bleu": 0.49953457802460494,
+      "eval_ce_clean_loss": 0.004459979124574857,
+      "eval_ce_pred_loss": 2.326884046481673,
+      "eval_flow_cos_loss": 0.17535958984854874,
+      "eval_flow_mse_loss": 1.0013958295439458,
+      "eval_loss": 2.6785145139997932,
+      "eval_runtime": 68.0305,
+      "eval_samples_per_second": 146.993,
+      "eval_steps_per_second": 2.308,
+      "flow/cos_sim": 0.824640438435184,
+      "flow/improvement_ratio": 0.9943981740125425,
+      "flow/mag_ratio_mean": 0.8087160583514317,
+      "flow/mag_ratio_std": 0.10657752490347358,
+      "step": 19456
+    },
+    {
+      "epoch": 2.6477471071174605,
+      "grad_norm": 1.057073950767517,
+      "learning_rate": 2.7288312022486472e-05,
+      "loss": 2.74858021736145,
+      "step": 20480
+    },
+    {
+      "epoch": 2.6477471071174605,
+      "eval_bleu": 0.49105986214857095,
+      "eval_ce_clean_loss": 0.004321782757783202,
+      "eval_ce_pred_loss": 2.3865722205228868,
+      "eval_flow_cos_loss": 0.17461080697311718,
+      "eval_flow_mse_loss": 1.0059761883346898,
+      "eval_loss": 2.724551202385289,
+      "flow/cos_sim": 0.8253892109652233,
+      "flow/improvement_ratio": 0.994614190736394,
+      "flow/mag_ratio_mean": 0.8106758245237314,
+      "flow/mag_ratio_std": 0.10591729089712641,
+      "step": 20480
+    },
+    {
+      "epoch": 2.6477471071174605,
+      "eval_bleu": 0.49105986214857095,
+      "eval_ce_clean_loss": 0.004321782757783202,
+      "eval_ce_pred_loss": 2.3865722205228868,
+      "eval_flow_cos_loss": 0.17461080697311718,
+      "eval_flow_mse_loss": 1.0059761883346898,
+      "eval_loss": 2.724551202385289,
+      "eval_runtime": 65.1786,
+      "eval_samples_per_second": 153.425,
+      "eval_steps_per_second": 2.409,
+      "flow/cos_sim": 0.8253892109652233,
+      "flow/improvement_ratio": 0.994614190736394,
+      "flow/mag_ratio_mean": 0.8106758245237314,
+      "flow/mag_ratio_std": 0.10591729089712641,
+      "step": 20480
+    },
+    {
+      "epoch": 2.780140927015321,
+      "grad_norm": 0.9793355464935303,
+      "learning_rate": 2.264310733522274e-05,
+      "loss": 2.733316659927368,
+      "step": 21504
+    },
+    {
+      "epoch": 2.780140927015321,
+      "eval_bleu": 0.49476989559226753,
+      "eval_ce_clean_loss": 0.004185588430512435,
+      "eval_ce_pred_loss": 2.348869823346472,
+      "eval_flow_cos_loss": 0.1727850574786496,
+      "eval_flow_mse_loss": 1.0050820533637028,
+      "eval_loss": 2.6966727615162065,
+      "flow/cos_sim": 0.827214957802159,
+      "flow/improvement_ratio": 0.9955724037376938,
+      "flow/mag_ratio_mean": 0.8125384882756859,
+      "flow/mag_ratio_std": 0.10621313242965442,
+      "step": 21504
+    },
+    {
+      "epoch": 2.780140927015321,
+      "eval_bleu": 0.49476989559226753,
+      "eval_ce_clean_loss": 0.004185588430512435,
+      "eval_ce_pred_loss": 2.348869823346472,
+      "eval_flow_cos_loss": 0.1727850574786496,
+      "eval_flow_mse_loss": 1.0050820533637028,
+      "eval_loss": 2.6966727615162065,
+      "eval_runtime": 68.9998,
+      "eval_samples_per_second": 144.928,
+      "eval_steps_per_second": 2.275,
+      "flow/cos_sim": 0.827214957802159,
+      "flow/improvement_ratio": 0.9955724037376938,
+      "flow/mag_ratio_mean": 0.8125384882756859,
+      "flow/mag_ratio_std": 0.10621313242965442,
+      "step": 21504
+    },
+    {
+      "epoch": 2.912534746913181,
+      "grad_norm": 1.0018037557601929,
+      "learning_rate": 1.83092638889173e-05,
+      "loss": 2.7381436824798584,
+      "step": 22528
+    },
+    {
+      "epoch": 2.912534746913181,
+      "eval_bleu": 0.5070712629503589,
+      "eval_ce_clean_loss": 0.004101792653684451,
+      "eval_ce_pred_loss": 2.294093737177029,
+      "eval_flow_cos_loss": 0.16953522318108066,
+      "eval_flow_mse_loss": 0.9949391457685239,
+      "eval_loss": 2.6472903338207563,
+      "flow/cos_sim": 0.8304647761545364,
+      "flow/improvement_ratio": 0.9939543570682501,
+      "flow/mag_ratio_mean": 0.8164081360883774,
+      "flow/mag_ratio_std": 0.10730971989168483,
+      "step": 22528
+    },
+    {
+      "epoch": 2.912534746913181,
+      "eval_bleu": 0.5070712629503589,
+      "eval_ce_clean_loss": 0.004101792653684451,
+      "eval_ce_pred_loss": 2.294093737177029,
+      "eval_flow_cos_loss": 0.16953522318108066,
+      "eval_flow_mse_loss": 0.9949391457685239,
+      "eval_loss": 2.6472903338207563,
+      "eval_runtime": 67.2838,
+      "eval_samples_per_second": 148.624,
+      "eval_steps_per_second": 2.333,
+      "flow/cos_sim": 0.8304647761545364,
+      "flow/improvement_ratio": 0.9939543570682501,
+      "flow/mag_ratio_mean": 0.8164081360883774,
+      "flow/mag_ratio_std": 0.10730971989168483,
+      "step": 22528
+    },
+    {
+      "epoch": 3.0448639213911695,
+      "grad_norm": 1.7332323789596558,
+      "learning_rate": 1.4345206949212337e-05,
+      "loss": 2.7229583263397217,
+      "step": 23552
+    },
+    {
+      "epoch": 3.0448639213911695,
+      "eval_bleu": 0.502826836403047,
+      "eval_ce_clean_loss": 0.0040093657700048324,
+      "eval_ce_pred_loss": 2.2946755681068276,
+      "eval_flow_cos_loss": 0.16862890978527675,
+      "eval_flow_mse_loss": 0.9954340754041247,
+      "eval_loss": 2.647873554260108,
+      "flow/cos_sim": 0.8313710966687293,
+      "flow/improvement_ratio": 0.9944029165681001,
+      "flow/mag_ratio_mean": 0.8175566006617941,
+      "flow/mag_ratio_std": 0.10629053266754576,
+      "step": 23552
+    },
+    {
+      "epoch": 3.0448639213911695,
+      "eval_bleu": 0.502826836403047,
+      "eval_ce_clean_loss": 0.0040093657700048324,
+      "eval_ce_pred_loss": 2.2946755681068276,
+      "eval_flow_cos_loss": 0.16862890978527675,
+      "eval_flow_mse_loss": 0.9954340754041247,
+      "eval_loss": 2.647873554260108,
+      "eval_runtime": 66.9795,
+      "eval_samples_per_second": 149.299,
+      "eval_steps_per_second": 2.344,
+      "flow/cos_sim": 0.8313710966687293,
+      "flow/improvement_ratio": 0.9944029165681001,
+      "flow/mag_ratio_mean": 0.8175566006617941,
+      "flow/mag_ratio_std": 0.10629053266754576,
+      "step": 23552
+    },
+    {
+      "epoch": 3.1772577412890297,
+      "grad_norm": 1.0988035202026367,
+      "learning_rate": 1.078898869250472e-05,
+      "loss": 2.712104320526123,
+      "step": 24576
+    },
+    {
+      "epoch": 3.1772577412890297,
+      "eval_bleu": 0.5035843636945546,
+      "eval_ce_clean_loss": 0.003988856448981745,
+      "eval_ce_pred_loss": 2.3216886368526777,
+      "eval_flow_cos_loss": 0.16886111970540066,
+      "eval_flow_mse_loss": 1.0004003287120988,
+      "eval_loss": 2.6717864836856817,
+      "flow/cos_sim": 0.8311388864638699,
+      "flow/improvement_ratio": 0.9948292883338442,
+      "flow/mag_ratio_mean": 0.8160582591014304,
+      "flow/mag_ratio_std": 0.10606027835873282,
+      "step": 24576
+    },
+    {
+      "epoch": 3.1772577412890297,
+      "eval_bleu": 0.5035843636945546,
+      "eval_ce_clean_loss": 0.003988856448981745,
+      "eval_ce_pred_loss": 2.3216886368526777,
+      "eval_flow_cos_loss": 0.16886111970540066,
+      "eval_flow_mse_loss": 1.0004003287120988,
+      "eval_loss": 2.6717864836856817,
+      "eval_runtime": 69.9629,
+      "eval_samples_per_second": 142.933,
+      "eval_steps_per_second": 2.244,
+      "flow/cos_sim": 0.8311388864638699,
+      "flow/improvement_ratio": 0.9948292883338442,
+      "flow/mag_ratio_mean": 0.8160582591014304,
+      "flow/mag_ratio_std": 0.10606027835873282,
+      "step": 24576
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 30940,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.5/checkpoint-24576/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7be4d80b8499f3b5f618b042dcec062719328222caddac0d4e4ce11d371480d
+size 5137