Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
checkpoints-v5.4/checkpoint-12288/ema.safetensors +3 -0
checkpoints-v5.4/checkpoint-12288/eval_state.json +3 -0
checkpoints-v5.4/checkpoint-12288/model.safetensors +3 -0
checkpoints-v5.4/checkpoint-12288/optimizer.pt +3 -0
checkpoints-v5.4/checkpoint-12288/rng_state.pth +3 -0
checkpoints-v5.4/checkpoint-12288/scaler.pt +3 -0
checkpoints-v5.4/checkpoint-12288/scheduler.pt +3 -0
checkpoints-v5.4/checkpoint-12288/trainer_state.json +490 -0
checkpoints-v5.4/checkpoint-12288/training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -37,3 +37,4 @@ checkpoints-v5/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -t
 checkpoints-v5.1/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.2/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.3/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text

 checkpoints-v5.1/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.2/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
 checkpoints-v5.3/checkpoint-11264/eval_state.json filter=lfs diff=lfs merge=lfs -text
+checkpoints-v5.4/checkpoint-12288/eval_state.json filter=lfs diff=lfs merge=lfs -text

checkpoints-v5.4/checkpoint-12288/ema.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e150a75747789abb882bf148649092c42d97dd4c48ee2c3ba878de67cfece00
+size 54599592

checkpoints-v5.4/checkpoint-12288/eval_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7ff0bbcc2389184e4a41dac69d7d2bd1edf1f93c94226e4b6da2bec584f6a99
+size 59276512

checkpoints-v5.4/checkpoint-12288/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:68b8a9b6191fc8917f7179f63f12b88eef948e1d3d9a4dea33f7639d3c43e0d9
+size 54599624

checkpoints-v5.4/checkpoint-12288/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb3c3757623ba5666b44c502aa2de9db04d737893bb7637ece37279f4fc7ba2b
+size 76551435

checkpoints-v5.4/checkpoint-12288/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4089acccf675deef93a67b51b7910cde1de8218040fddc478779096a07fc1777
+size 14645

checkpoints-v5.4/checkpoint-12288/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7f212b71e3880c4f7a41ce532777c9adc951337930ebe4c5060edb719687304
+size 1383

checkpoints-v5.4/checkpoint-12288/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b460fd0709bd5e8feb60e761c3267494e2afe1bf2a6daad307d2660b2e698ce
+size 1465

checkpoints-v5.4/checkpoint-12288/trainer_state.json ADDED Viewed

	@@ -0,0 +1,490 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5295752795914409,
+  "eval_steps": 1024,
+  "global_step": 12288,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04413127329928675,
+      "grad_norm": 6.4686360359191895,
+      "learning_rate": 9.990234375e-05,
+      "loss": 14.04021167755127,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.08472661559124553,
+      "eval_ce_clean_loss": 3.6515917010398815,
+      "eval_ce_pred_loss": 6.157996057701517,
+      "eval_flow_cos_loss": 0.38175737285919026,
+      "eval_flow_mse_loss": 1.2173780876436213,
+      "eval_loss": 9.275006284083386,
+      "flow/cos_sim": 0.6182426629798499,
+      "flow/improvement_ratio": 0.994758785787676,
+      "flow/mag_ratio_mean": 0.6230432560194784,
+      "flow/mag_ratio_std": 0.0744406624294039,
+      "step": 1024
+    },
+    {
+      "epoch": 0.04413127329928675,
+      "eval_bleu": 0.08472661559124553,
+      "eval_ce_clean_loss": 3.6515917010398815,
+      "eval_ce_pred_loss": 6.157996057701517,
+      "eval_flow_cos_loss": 0.38175737285919026,
+      "eval_flow_mse_loss": 1.2173780876436213,
+      "eval_loss": 9.275006284083386,
+      "eval_runtime": 212.9025,
+      "eval_samples_per_second": 140.91,
+      "eval_steps_per_second": 2.203,
+      "flow/cos_sim": 0.6182426629798499,
+      "flow/improvement_ratio": 0.994758785787676,
+      "flow/mag_ratio_mean": 0.6230432560194784,
+      "flow/mag_ratio_std": 0.0744406624294039,
+      "step": 1024
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "grad_norm": 2.9631969928741455,
+      "learning_rate": 9.9476028157316e-05,
+      "loss": 6.443160057067871,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.26560929308857356,
+      "eval_ce_clean_loss": 0.681954366947288,
+      "eval_ce_pred_loss": 4.135940641228324,
+      "eval_flow_cos_loss": 0.3561113254347844,
+      "eval_flow_mse_loss": 1.1538333908072922,
+      "eval_loss": 4.8199739954364835,
+      "flow/cos_sim": 0.6438886908325814,
+      "flow/improvement_ratio": 0.9941694777149127,
+      "flow/mag_ratio_mean": 0.6341400431163275,
+      "flow/mag_ratio_std": 0.08245640958168868,
+      "step": 2048
+    },
+    {
+      "epoch": 0.0882625465985735,
+      "eval_bleu": 0.26560929308857356,
+      "eval_ce_clean_loss": 0.681954366947288,
+      "eval_ce_pred_loss": 4.135940641228324,
+      "eval_flow_cos_loss": 0.3561113254347844,
+      "eval_flow_mse_loss": 1.1538333908072922,
+      "eval_loss": 4.8199739954364835,
+      "eval_runtime": 208.0696,
+      "eval_samples_per_second": 144.183,
+      "eval_steps_per_second": 2.254,
+      "flow/cos_sim": 0.6438886908325814,
+      "flow/improvement_ratio": 0.9941694777149127,
+      "flow/mag_ratio_mean": 0.6341400431163275,
+      "flow/mag_ratio_std": 0.08245640958168868,
+      "step": 2048
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "grad_norm": 2.705171823501587,
+      "learning_rate": 9.7915094488941e-05,
+      "loss": 4.337810516357422,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.32689116234163157,
+      "eval_ce_clean_loss": 0.23400198015322818,
+      "eval_ce_pred_loss": 3.659708074415162,
+      "eval_flow_cos_loss": 0.3280593024006785,
+      "eval_flow_mse_loss": 1.0939402854773028,
+      "eval_loss": 3.9717527071296024,
+      "flow/cos_sim": 0.6719407138031429,
+      "flow/improvement_ratio": 0.9939516864097449,
+      "flow/mag_ratio_mean": 0.6437487534876826,
+      "flow/mag_ratio_std": 0.09126702068584051,
+      "step": 3072
+    },
+    {
+      "epoch": 0.13239381989786023,
+      "eval_bleu": 0.32689116234163157,
+      "eval_ce_clean_loss": 0.23400198015322818,
+      "eval_ce_pred_loss": 3.659708074415162,
+      "eval_flow_cos_loss": 0.3280593024006785,
+      "eval_flow_mse_loss": 1.0939402854773028,
+      "eval_loss": 3.9717527071296024,
+      "eval_runtime": 211.6943,
+      "eval_samples_per_second": 141.714,
+      "eval_steps_per_second": 2.215,
+      "flow/cos_sim": 0.6719407138031429,
+      "flow/improvement_ratio": 0.9939516864097449,
+      "flow/mag_ratio_mean": 0.6437487534876826,
+      "flow/mag_ratio_std": 0.09126702068584051,
+      "step": 3072
+    },
+    {
+      "epoch": 0.176525093197147,
+      "grad_norm": 4.605835437774658,
+      "learning_rate": 9.534693146185996e-05,
+      "loss": 3.8106541633605957,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.3496092396585298,
+      "eval_ce_clean_loss": 0.1174579276554366,
+      "eval_ce_pred_loss": 3.4018036912499205,
+      "eval_flow_cos_loss": 0.308671236038208,
+      "eval_flow_mse_loss": 1.0620912140620542,
+      "eval_loss": 3.6379795023627373,
+      "flow/cos_sim": 0.6913287766706715,
+      "flow/improvement_ratio": 0.99417618164884,
+      "flow/mag_ratio_mean": 0.6605991765634337,
+      "flow/mag_ratio_std": 0.09435669084919542,
+      "step": 4096
+    },
+    {
+      "epoch": 0.176525093197147,
+      "eval_bleu": 0.3496092396585298,
+      "eval_ce_clean_loss": 0.1174579276554366,
+      "eval_ce_pred_loss": 3.4018036912499205,
+      "eval_flow_cos_loss": 0.308671236038208,
+      "eval_flow_mse_loss": 1.0620912140620542,
+      "eval_loss": 3.6379795023627373,
+      "eval_runtime": 212.2533,
+      "eval_samples_per_second": 141.341,
+      "eval_steps_per_second": 2.21,
+      "flow/cos_sim": 0.6913287766706715,
+      "flow/improvement_ratio": 0.99417618164884,
+      "flow/mag_ratio_mean": 0.6605991765634337,
+      "flow/mag_ratio_std": 0.09435669084919542,
+      "step": 4096
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "grad_norm": 1.91041898727417,
+      "learning_rate": 9.18264920723673e-05,
+      "loss": 3.563469886779785,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.3655524466235782,
+      "eval_ce_clean_loss": 0.0654882211913305,
+      "eval_ce_pred_loss": 3.236920855446919,
+      "eval_flow_cos_loss": 0.2889146146489613,
+      "eval_flow_mse_loss": 1.036446757662271,
+      "eval_loss": 3.4400081954785247,
+      "flow/cos_sim": 0.711085402508026,
+      "flow/improvement_ratio": 0.994324432888519,
+      "flow/mag_ratio_mean": 0.6904204569137427,
+      "flow/mag_ratio_std": 0.09082355081780887,
+      "step": 5120
+    },
+    {
+      "epoch": 0.22065636649643372,
+      "eval_bleu": 0.3655524466235782,
+      "eval_ce_clean_loss": 0.0654882211913305,
+      "eval_ce_pred_loss": 3.236920855446919,
+      "eval_flow_cos_loss": 0.2889146146489613,
+      "eval_flow_mse_loss": 1.036446757662271,
+      "eval_loss": 3.4400081954785247,
+      "eval_runtime": 212.6957,
+      "eval_samples_per_second": 141.047,
+      "eval_steps_per_second": 2.205,
+      "flow/cos_sim": 0.711085402508026,
+      "flow/improvement_ratio": 0.994324432888519,
+      "flow/mag_ratio_mean": 0.6904204569137427,
+      "flow/mag_ratio_std": 0.09082355081780887,
+      "step": 5120
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "grad_norm": 4.8472394943237305,
+      "learning_rate": 8.74324003722993e-05,
+      "loss": 3.4198970794677734,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.37708007455782677,
+      "eval_ce_clean_loss": 0.04180683485909439,
+      "eval_ce_pred_loss": 3.098344222060653,
+      "eval_flow_cos_loss": 0.276241691127769,
+      "eval_flow_mse_loss": 1.034245941430521,
+      "eval_loss": 3.3139541271144646,
+      "flow/cos_sim": 0.7237583064575439,
+      "flow/improvement_ratio": 0.9940337580658479,
+      "flow/mag_ratio_mean": 0.7007273408904005,
+      "flow/mag_ratio_std": 0.08993671732797806,
+      "step": 6144
+    },
+    {
+      "epoch": 0.26478763979572045,
+      "eval_bleu": 0.37708007455782677,
+      "eval_ce_clean_loss": 0.04180683485909439,
+      "eval_ce_pred_loss": 3.098344222060653,
+      "eval_flow_cos_loss": 0.276241691127769,
+      "eval_flow_mse_loss": 1.034245941430521,
+      "eval_loss": 3.3139541271144646,
+      "eval_runtime": 213.2822,
+      "eval_samples_per_second": 140.659,
+      "eval_steps_per_second": 2.199,
+      "flow/cos_sim": 0.7237583064575439,
+      "flow/improvement_ratio": 0.9940337580658479,
+      "flow/mag_ratio_mean": 0.7007273408904005,
+      "flow/mag_ratio_std": 0.08993671732797806,
+      "step": 6144
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "grad_norm": 1.408441185951233,
+      "learning_rate": 8.22483558761947e-05,
+      "loss": 3.2942428588867188,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.3835006770235858,
+      "eval_ce_clean_loss": 0.02844317371982819,
+      "eval_ce_pred_loss": 2.991236975452285,
+      "eval_flow_cos_loss": 0.26042752873414615,
+      "eval_flow_mse_loss": 1.0223680001332054,
+      "eval_loss": 3.209783913992615,
+      "flow/cos_sim": 0.7395724975732344,
+      "flow/improvement_ratio": 0.9952030264492482,
+      "flow/mag_ratio_mean": 0.7151250421111264,
+      "flow/mag_ratio_std": 0.08892434012534013,
+      "step": 7168
+    },
+    {
+      "epoch": 0.30891891309500724,
+      "eval_bleu": 0.3835006770235858,
+      "eval_ce_clean_loss": 0.02844317371982819,
+      "eval_ce_pred_loss": 2.991236975452285,
+      "eval_flow_cos_loss": 0.26042752873414615,
+      "eval_flow_mse_loss": 1.0223680001332054,
+      "eval_loss": 3.209783913992615,
+      "eval_runtime": 211.8993,
+      "eval_samples_per_second": 141.577,
+      "eval_steps_per_second": 2.213,
+      "flow/cos_sim": 0.7395724975732344,
+      "flow/improvement_ratio": 0.9952030264492482,
+      "flow/mag_ratio_mean": 0.7151250421111264,
+      "flow/mag_ratio_std": 0.08892434012534013,
+      "step": 7168
+    },
+    {
+      "epoch": 0.353050186394294,
+      "grad_norm": 1.3102294206619263,
+      "learning_rate": 7.638710244802891e-05,
+      "loss": 3.210357904434204,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.3993825003723074,
+      "eval_ce_clean_loss": 0.020586447313682102,
+      "eval_ce_pred_loss": 2.869530324234383,
+      "eval_flow_cos_loss": 0.2547679298213804,
+      "eval_flow_mse_loss": 1.038607116192897,
+      "eval_loss": 3.1315567335848615,
+      "flow/cos_sim": 0.7452320968672665,
+      "flow/improvement_ratio": 0.99444860372462,
+      "flow/mag_ratio_mean": 0.7234579237031021,
+      "flow/mag_ratio_std": 0.08825072420558441,
+      "step": 8192
+    },
+    {
+      "epoch": 0.353050186394294,
+      "eval_bleu": 0.3993825003723074,
+      "eval_ce_clean_loss": 0.020586447313682102,
+      "eval_ce_pred_loss": 2.869530324234383,
+      "eval_flow_cos_loss": 0.2547679298213804,
+      "eval_flow_mse_loss": 1.038607116192897,
+      "eval_loss": 3.1315567335848615,
+      "eval_runtime": 211.4546,
+      "eval_samples_per_second": 141.874,
+      "eval_steps_per_second": 2.218,
+      "flow/cos_sim": 0.7452320968672665,
+      "flow/improvement_ratio": 0.99444860372462,
+      "flow/mag_ratio_mean": 0.7234579237031021,
+      "flow/mag_ratio_std": 0.08825072420558441,
+      "step": 8192
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "grad_norm": 2.7642617225646973,
+      "learning_rate": 6.997821756319211e-05,
+      "loss": 3.1443495750427246,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.4094899145449865,
+      "eval_ce_clean_loss": 0.01607099493770902,
+      "eval_ce_pred_loss": 2.775586368178508,
+      "eval_flow_cos_loss": 0.24236023524549724,
+      "eval_flow_mse_loss": 1.0269770694694031,
+      "eval_loss": 3.046548553621337,
+      "flow/cos_sim": 0.7576397708229927,
+      "flow/improvement_ratio": 0.9949808230023902,
+      "flow/mag_ratio_mean": 0.7366276771020788,
+      "flow/mag_ratio_std": 0.09276079728023838,
+      "step": 9216
+    },
+    {
+      "epoch": 0.3971814596935807,
+      "eval_bleu": 0.4094899145449865,
+      "eval_ce_clean_loss": 0.01607099493770902,
+      "eval_ce_pred_loss": 2.775586368178508,
+      "eval_flow_cos_loss": 0.24236023524549724,
+      "eval_flow_mse_loss": 1.0269770694694031,
+      "eval_loss": 3.046548553621337,
+      "eval_runtime": 212.1106,
+      "eval_samples_per_second": 141.436,
+      "eval_steps_per_second": 2.211,
+      "flow/cos_sim": 0.7576397708229927,
+      "flow/improvement_ratio": 0.9949808230023902,
+      "flow/mag_ratio_mean": 0.7366276771020788,
+      "flow/mag_ratio_std": 0.09276079728023838,
+      "step": 9216
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "grad_norm": 2.0153911113739014,
+      "learning_rate": 6.314377890922702e-05,
+      "loss": 3.072866201400757,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.41923082806405243,
+      "eval_ce_clean_loss": 0.012997276724568371,
+      "eval_ce_pred_loss": 2.717693049516251,
+      "eval_flow_cos_loss": 0.23471591219719032,
+      "eval_flow_mse_loss": 1.0302080986088018,
+      "eval_loss": 3.00426946926727,
+      "flow/cos_sim": 0.7652840989230792,
+      "flow/improvement_ratio": 0.9956137638356386,
+      "flow/mag_ratio_mean": 0.74410386723496,
+      "flow/mag_ratio_std": 0.09413890032244644,
+      "step": 10240
+    },
+    {
+      "epoch": 0.44131273299286744,
+      "eval_bleu": 0.41923082806405243,
+      "eval_ce_clean_loss": 0.012997276724568371,
+      "eval_ce_pred_loss": 2.717693049516251,
+      "eval_flow_cos_loss": 0.23471591219719032,
+      "eval_flow_mse_loss": 1.0302080986088018,
+      "eval_loss": 3.00426946926727,
+      "eval_runtime": 210.9776,
+      "eval_samples_per_second": 142.195,
+      "eval_steps_per_second": 2.223,
+      "flow/cos_sim": 0.7652840989230792,
+      "flow/improvement_ratio": 0.9956137638356386,
+      "flow/mag_ratio_mean": 0.74410386723496,
+      "flow/mag_ratio_std": 0.09413890032244644,
+      "step": 10240
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "grad_norm": 1.8962148427963257,
+      "learning_rate": 5.603332356428589e-05,
+      "loss": 3.02541184425354,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.4169916279016593,
+      "eval_ce_clean_loss": 0.010806279969828596,
+      "eval_ce_pred_loss": 2.706889592508263,
+      "eval_flow_cos_loss": 0.22115590358212558,
+      "eval_flow_mse_loss": 1.007251028567235,
+      "eval_loss": 2.968168963755626,
+      "flow/cos_sim": 0.7788441080782713,
+      "flow/improvement_ratio": 0.9940794661863527,
+      "flow/mag_ratio_mean": 0.7585708880221157,
+      "flow/mag_ratio_std": 0.09570817299870285,
+      "step": 11264
+    },
+    {
+      "epoch": 0.4854440062921542,
+      "eval_bleu": 0.4169916279016593,
+      "eval_ce_clean_loss": 0.010806279969828596,
+      "eval_ce_pred_loss": 2.706889592508263,
+      "eval_flow_cos_loss": 0.22115590358212558,
+      "eval_flow_mse_loss": 1.007251028567235,
+      "eval_loss": 2.968168963755626,
+      "eval_runtime": 212.5141,
+      "eval_samples_per_second": 141.167,
+      "eval_steps_per_second": 2.207,
+      "flow/cos_sim": 0.7788441080782713,
+      "flow/improvement_ratio": 0.9940794661863527,
+      "flow/mag_ratio_mean": 0.7585708880221157,
+      "flow/mag_ratio_std": 0.09570817299870285,
+      "step": 11264
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "grad_norm": 1.0911729335784912,
+      "learning_rate": 4.880324964674035e-05,
+      "loss": 2.9968912601470947,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.4245546218369888,
+      "eval_ce_clean_loss": 0.009449388876037081,
+      "eval_ce_pred_loss": 2.6375575258787762,
+      "eval_flow_cos_loss": 0.21768109258939464,
+      "eval_flow_mse_loss": 1.0174772260285645,
+      "eval_loss": 2.927637138346365,
+      "flow/cos_sim": 0.7823189269505075,
+      "flow/improvement_ratio": 0.9946964611885136,
+      "flow/mag_ratio_mean": 0.7612636199892203,
+      "flow/mag_ratio_std": 0.09714165055103648,
+      "step": 12288
+    },
+    {
+      "epoch": 0.5295752795914409,
+      "eval_bleu": 0.4245546218369888,
+      "eval_ce_clean_loss": 0.009449388876037081,
+      "eval_ce_pred_loss": 2.6375575258787762,
+      "eval_flow_cos_loss": 0.21768109258939464,
+      "eval_flow_mse_loss": 1.0174772260285645,
+      "eval_loss": 2.927637138346365,
+      "eval_runtime": 211.2424,
+      "eval_samples_per_second": 142.017,
+      "eval_steps_per_second": 2.22,
+      "flow/cos_sim": 0.7823189269505075,
+      "flow/improvement_ratio": 0.9946964611885136,
+      "flow/mag_ratio_mean": 0.7612636199892203,
+      "flow/mag_ratio_std": 0.09714165055103648,
+      "step": 12288
+    }
+  ],
+  "logging_steps": 1024,
+  "max_steps": 23204,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v5.4/checkpoint-12288/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8469bbc81a2ba0be2f5b44007faafd15c75615abe30f4f4e56171816d31caa5b
+size 5137