Upload 14 files

Browse files

Files changed (8) hide show

config.json +1 -1
generation_config.json +1 -1
model.safetensors +1 -1
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +715 -0
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -30,7 +30,7 @@
   "summary_type": "cls_index",
   "summary_use_proj": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.46.2",
   "use_cache": true,
   "vocab_size": 50001
 }

   "summary_type": "cls_index",
   "summary_use_proj": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.46.3",
   "use_cache": true,
   "vocab_size": 50001
 }

generation_config.json CHANGED Viewed

@@ -3,5 +3,5 @@
   "bos_token_id": 0,
   "eos_token_id": 2,
   "pad_token_id": 1,
-  "transformers_version": "4.46.2"
 }

   "bos_token_id": 0,
   "eos_token_id": 2,
   "pad_token_id": 1,
+  "transformers_version": "4.46.3"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fbd0264a1186d4402829ff55ed166f8af3a1ed09115b76d65554ad76a681a27
 size 496987776

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8360d44d5ce66341561f0d021dee5e6ec8b81a9d0ac51100ec01062377c05d0
 size 496987776

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a409b4c21409b3f5f3bea9fd21e0022032e9104ee78dc52fce32cd4bf8c57408
+size 994069434

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f76bfe8f06baf38f8182595ee79f69c0e5bbee8d3bad925e5bf08c9df044d87
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9381fb001e35cd6e41636b5024ecdcb43506de9707280bc0ad45e4a9c2e3995a
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,715 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 1000,
+  "global_step": 31479,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.047650814828933574,
+      "grad_norm": 2.0100979804992676,
+      "learning_rate": 0.00019682327901140442,
+      "loss": 2.3566,
+      "step": 500
+    },
+    {
+      "epoch": 0.09530162965786715,
+      "grad_norm": 1.877261996269226,
+      "learning_rate": 0.00019364655802280888,
+      "loss": 2.2178,
+      "step": 1000
+    },
+    {
+      "epoch": 0.09530162965786715,
+      "eval_loss": 2.3788223266601562,
+      "eval_runtime": 80.302,
+      "eval_samples_per_second": 173.271,
+      "eval_steps_per_second": 7.223,
+      "step": 1000
+    },
+    {
+      "epoch": 0.14295244448680072,
+      "grad_norm": 1.7388309240341187,
+      "learning_rate": 0.00019046983703421329,
+      "loss": 2.1744,
+      "step": 1500
+    },
+    {
+      "epoch": 0.1906032593157343,
+      "grad_norm": 1.8366143703460693,
+      "learning_rate": 0.00018729311604561772,
+      "loss": 2.163,
+      "step": 2000
+    },
+    {
+      "epoch": 0.1906032593157343,
+      "eval_loss": 2.3654611110687256,
+      "eval_runtime": 80.3504,
+      "eval_samples_per_second": 173.166,
+      "eval_steps_per_second": 7.218,
+      "step": 2000
+    },
+    {
+      "epoch": 0.23825407414466787,
+      "grad_norm": 1.6628751754760742,
+      "learning_rate": 0.00018411639505702213,
+      "loss": 2.1515,
+      "step": 2500
+    },
+    {
+      "epoch": 0.28590488897360145,
+      "grad_norm": 1.6291817426681519,
+      "learning_rate": 0.0001809396740684266,
+      "loss": 2.1196,
+      "step": 3000
+    },
+    {
+      "epoch": 0.28590488897360145,
+      "eval_loss": 2.3521649837493896,
+      "eval_runtime": 80.224,
+      "eval_samples_per_second": 173.439,
+      "eval_steps_per_second": 7.23,
+      "step": 3000
+    },
+    {
+      "epoch": 0.333555703802535,
+      "grad_norm": 1.7604336738586426,
+      "learning_rate": 0.000177762953079831,
+      "loss": 2.1074,
+      "step": 3500
+    },
+    {
+      "epoch": 0.3812065186314686,
+      "grad_norm": 1.34886634349823,
+      "learning_rate": 0.00017458623209123543,
+      "loss": 2.0926,
+      "step": 4000
+    },
+    {
+      "epoch": 0.3812065186314686,
+      "eval_loss": 2.3420486450195312,
+      "eval_runtime": 80.1942,
+      "eval_samples_per_second": 173.504,
+      "eval_steps_per_second": 7.232,
+      "step": 4000
+    },
+    {
+      "epoch": 0.42885733346040217,
+      "grad_norm": 1.3510360717773438,
+      "learning_rate": 0.00017140951110263986,
+      "loss": 2.074,
+      "step": 4500
+    },
+    {
+      "epoch": 0.47650814828933574,
+      "grad_norm": 1.272275447845459,
+      "learning_rate": 0.0001682327901140443,
+      "loss": 2.0752,
+      "step": 5000
+    },
+    {
+      "epoch": 0.47650814828933574,
+      "eval_loss": 2.3270885944366455,
+      "eval_runtime": 80.2619,
+      "eval_samples_per_second": 173.358,
+      "eval_steps_per_second": 7.226,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5241589631182694,
+      "grad_norm": 1.289753794670105,
+      "learning_rate": 0.0001650560691254487,
+      "loss": 2.0487,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5718097779472029,
+      "grad_norm": 1.1615971326828003,
+      "learning_rate": 0.00016187934813685314,
+      "loss": 2.0437,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5718097779472029,
+      "eval_loss": 2.3274528980255127,
+      "eval_runtime": 80.2214,
+      "eval_samples_per_second": 173.445,
+      "eval_steps_per_second": 7.23,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6194605927761365,
+      "grad_norm": 1.3484673500061035,
+      "learning_rate": 0.00015870262714825757,
+      "loss": 2.0134,
+      "step": 6500
+    },
+    {
+      "epoch": 0.66711140760507,
+      "grad_norm": 1.4737777709960938,
+      "learning_rate": 0.000155525906159662,
+      "loss": 2.0379,
+      "step": 7000
+    },
+    {
+      "epoch": 0.66711140760507,
+      "eval_loss": 2.3164169788360596,
+      "eval_runtime": 80.2177,
+      "eval_samples_per_second": 173.453,
+      "eval_steps_per_second": 7.23,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7147622224340037,
+      "grad_norm": 1.1502068042755127,
+      "learning_rate": 0.00015234918517106642,
+      "loss": 1.9916,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7624130372629372,
+      "grad_norm": 1.2299320697784424,
+      "learning_rate": 0.00014917246418247085,
+      "loss": 2.0068,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7624130372629372,
+      "eval_loss": 2.311408042907715,
+      "eval_runtime": 80.2576,
+      "eval_samples_per_second": 173.367,
+      "eval_steps_per_second": 7.227,
+      "step": 8000
+    },
+    {
+      "epoch": 0.8100638520918708,
+      "grad_norm": 1.2537345886230469,
+      "learning_rate": 0.00014599574319387528,
+      "loss": 1.9886,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8577146669208043,
+      "grad_norm": 1.0486429929733276,
+      "learning_rate": 0.00014281902220527972,
+      "loss": 1.9882,
+      "step": 9000
+    },
+    {
+      "epoch": 0.8577146669208043,
+      "eval_loss": 2.304290294647217,
+      "eval_runtime": 80.1372,
+      "eval_samples_per_second": 173.627,
+      "eval_steps_per_second": 7.238,
+      "step": 9000
+    },
+    {
+      "epoch": 0.905365481749738,
+      "grad_norm": 1.1815516948699951,
+      "learning_rate": 0.00013964230121668413,
+      "loss": 1.9732,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9530162965786715,
+      "grad_norm": 1.2301689386367798,
+      "learning_rate": 0.0001364655802280886,
+      "loss": 1.9787,
+      "step": 10000
+    },
+    {
+      "epoch": 0.9530162965786715,
+      "eval_loss": 2.2939772605895996,
+      "eval_runtime": 80.1592,
+      "eval_samples_per_second": 173.579,
+      "eval_steps_per_second": 7.236,
+      "step": 10000
+    },
+    {
+      "epoch": 1.0006671114076051,
+      "grad_norm": 1.497831106185913,
+      "learning_rate": 0.000133288859239493,
+      "loss": 1.9557,
+      "step": 10500
+    },
+    {
+      "epoch": 1.0483179262365387,
+      "grad_norm": 1.3323341608047485,
+      "learning_rate": 0.00013011213825089743,
+      "loss": 1.7231,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0483179262365387,
+      "eval_loss": 2.313231945037842,
+      "eval_runtime": 80.1199,
+      "eval_samples_per_second": 173.665,
+      "eval_steps_per_second": 7.239,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0959687410654722,
+      "grad_norm": 1.8000659942626953,
+      "learning_rate": 0.00012693541726230184,
+      "loss": 1.714,
+      "step": 11500
+    },
+    {
+      "epoch": 1.1436195558944058,
+      "grad_norm": 1.2369180917739868,
+      "learning_rate": 0.0001237586962737063,
+      "loss": 1.7114,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1436195558944058,
+      "eval_loss": 2.313917875289917,
+      "eval_runtime": 80.1492,
+      "eval_samples_per_second": 173.601,
+      "eval_steps_per_second": 7.237,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1912703707233394,
+      "grad_norm": 1.431038498878479,
+      "learning_rate": 0.0001205819752851107,
+      "loss": 1.7283,
+      "step": 12500
+    },
+    {
+      "epoch": 1.238921185552273,
+      "grad_norm": 1.4570106267929077,
+      "learning_rate": 0.00011740525429651514,
+      "loss": 1.7033,
+      "step": 13000
+    },
+    {
+      "epoch": 1.238921185552273,
+      "eval_loss": 2.310853958129883,
+      "eval_runtime": 80.0945,
+      "eval_samples_per_second": 173.72,
+      "eval_steps_per_second": 7.241,
+      "step": 13000
+    },
+    {
+      "epoch": 1.2865720003812064,
+      "grad_norm": 1.557187795639038,
+      "learning_rate": 0.00011422853330791956,
+      "loss": 1.7289,
+      "step": 13500
+    },
+    {
+      "epoch": 1.33422281521014,
+      "grad_norm": 1.5775034427642822,
+      "learning_rate": 0.000111051812319324,
+      "loss": 1.7151,
+      "step": 14000
+    },
+    {
+      "epoch": 1.33422281521014,
+      "eval_loss": 2.300920009613037,
+      "eval_runtime": 80.1537,
+      "eval_samples_per_second": 173.591,
+      "eval_steps_per_second": 7.236,
+      "step": 14000
+    },
+    {
+      "epoch": 1.3818736300390737,
+      "grad_norm": 1.2451566457748413,
+      "learning_rate": 0.00010787509133072841,
+      "loss": 1.7218,
+      "step": 14500
+    },
+    {
+      "epoch": 1.4295244448680071,
+      "grad_norm": 1.650688886642456,
+      "learning_rate": 0.00010469837034213286,
+      "loss": 1.7202,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4295244448680071,
+      "eval_loss": 2.290478467941284,
+      "eval_runtime": 80.1852,
+      "eval_samples_per_second": 173.523,
+      "eval_steps_per_second": 7.233,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4771752596969407,
+      "grad_norm": 1.4705020189285278,
+      "learning_rate": 0.00010152164935353727,
+      "loss": 1.721,
+      "step": 15500
+    },
+    {
+      "epoch": 1.5248260745258744,
+      "grad_norm": 1.530394434928894,
+      "learning_rate": 9.834492836494172e-05,
+      "loss": 1.7261,
+      "step": 16000
+    },
+    {
+      "epoch": 1.5248260745258744,
+      "eval_loss": 2.2944624423980713,
+      "eval_runtime": 80.1122,
+      "eval_samples_per_second": 173.682,
+      "eval_steps_per_second": 7.24,
+      "step": 16000
+    },
+    {
+      "epoch": 1.572476889354808,
+      "grad_norm": 1.667024850845337,
+      "learning_rate": 9.516820737634614e-05,
+      "loss": 1.7072,
+      "step": 16500
+    },
+    {
+      "epoch": 1.6201277041837416,
+      "grad_norm": 1.4624521732330322,
+      "learning_rate": 9.199148638775057e-05,
+      "loss": 1.7091,
+      "step": 17000
+    },
+    {
+      "epoch": 1.6201277041837416,
+      "eval_loss": 2.2861549854278564,
+      "eval_runtime": 80.0947,
+      "eval_samples_per_second": 173.719,
+      "eval_steps_per_second": 7.241,
+      "step": 17000
+    },
+    {
+      "epoch": 1.6677785190126753,
+      "grad_norm": 1.7141919136047363,
+      "learning_rate": 8.881476539915499e-05,
+      "loss": 1.7281,
+      "step": 17500
+    },
+    {
+      "epoch": 1.7154293338416087,
+      "grad_norm": 1.367767333984375,
+      "learning_rate": 8.563804441055943e-05,
+      "loss": 1.7098,
+      "step": 18000
+    },
+    {
+      "epoch": 1.7154293338416087,
+      "eval_loss": 2.2811758518218994,
+      "eval_runtime": 80.1424,
+      "eval_samples_per_second": 173.616,
+      "eval_steps_per_second": 7.237,
+      "step": 18000
+    },
+    {
+      "epoch": 1.7630801486705423,
+      "grad_norm": 1.530991792678833,
+      "learning_rate": 8.246132342196385e-05,
+      "loss": 1.6994,
+      "step": 18500
+    },
+    {
+      "epoch": 1.8107309634994757,
+      "grad_norm": 1.4421322345733643,
+      "learning_rate": 7.928460243336828e-05,
+      "loss": 1.6943,
+      "step": 19000
+    },
+    {
+      "epoch": 1.8107309634994757,
+      "eval_loss": 2.273425579071045,
+      "eval_runtime": 80.1385,
+      "eval_samples_per_second": 173.624,
+      "eval_steps_per_second": 7.237,
+      "step": 19000
+    },
+    {
+      "epoch": 1.8583817783284093,
+      "grad_norm": 1.5695687532424927,
+      "learning_rate": 7.610788144477272e-05,
+      "loss": 1.7,
+      "step": 19500
+    },
+    {
+      "epoch": 1.906032593157343,
+      "grad_norm": 1.6507039070129395,
+      "learning_rate": 7.293116045617714e-05,
+      "loss": 1.7035,
+      "step": 20000
+    },
+    {
+      "epoch": 1.906032593157343,
+      "eval_loss": 2.266268730163574,
+      "eval_runtime": 80.1631,
+      "eval_samples_per_second": 173.571,
+      "eval_steps_per_second": 7.235,
+      "step": 20000
+    },
+    {
+      "epoch": 1.9536834079862766,
+      "grad_norm": 1.41545832157135,
+      "learning_rate": 6.975443946758157e-05,
+      "loss": 1.6948,
+      "step": 20500
+    },
+    {
+      "epoch": 2.0013342228152102,
+      "grad_norm": 1.3855451345443726,
+      "learning_rate": 6.657771847898599e-05,
+      "loss": 1.6776,
+      "step": 21000
+    },
+    {
+      "epoch": 2.0013342228152102,
+      "eval_loss": 2.302978515625,
+      "eval_runtime": 80.1675,
+      "eval_samples_per_second": 173.562,
+      "eval_steps_per_second": 7.235,
+      "step": 21000
+    },
+    {
+      "epoch": 2.048985037644144,
+      "grad_norm": 1.3997050523757935,
+      "learning_rate": 6.340099749039043e-05,
+      "loss": 1.438,
+      "step": 21500
+    },
+    {
+      "epoch": 2.0966358524730775,
+      "grad_norm": 1.4828859567642212,
+      "learning_rate": 6.0224276501794854e-05,
+      "loss": 1.4406,
+      "step": 22000
+    },
+    {
+      "epoch": 2.0966358524730775,
+      "eval_loss": 2.3172175884246826,
+      "eval_runtime": 80.1748,
+      "eval_samples_per_second": 173.546,
+      "eval_steps_per_second": 7.234,
+      "step": 22000
+    },
+    {
+      "epoch": 2.1442866673020107,
+      "grad_norm": 1.8176885843276978,
+      "learning_rate": 5.704755551319928e-05,
+      "loss": 1.4555,
+      "step": 22500
+    },
+    {
+      "epoch": 2.1919374821309443,
+      "grad_norm": 1.48106050491333,
+      "learning_rate": 5.387083452460371e-05,
+      "loss": 1.4659,
+      "step": 23000
+    },
+    {
+      "epoch": 2.1919374821309443,
+      "eval_loss": 2.3182783126831055,
+      "eval_runtime": 80.2101,
+      "eval_samples_per_second": 173.47,
+      "eval_steps_per_second": 7.231,
+      "step": 23000
+    },
+    {
+      "epoch": 2.239588296959878,
+      "grad_norm": 1.6957001686096191,
+      "learning_rate": 5.0694113536008136e-05,
+      "loss": 1.448,
+      "step": 23500
+    },
+    {
+      "epoch": 2.2872391117888116,
+      "grad_norm": 1.3845641613006592,
+      "learning_rate": 4.7517392547412564e-05,
+      "loss": 1.4608,
+      "step": 24000
+    },
+    {
+      "epoch": 2.2872391117888116,
+      "eval_loss": 2.318488836288452,
+      "eval_runtime": 80.1689,
+      "eval_samples_per_second": 173.559,
+      "eval_steps_per_second": 7.235,
+      "step": 24000
+    },
+    {
+      "epoch": 2.334889926617745,
+      "grad_norm": 1.9913188219070435,
+      "learning_rate": 4.434067155881699e-05,
+      "loss": 1.439,
+      "step": 24500
+    },
+    {
+      "epoch": 2.382540741446679,
+      "grad_norm": 1.8244202136993408,
+      "learning_rate": 4.116395057022142e-05,
+      "loss": 1.4423,
+      "step": 25000
+    },
+    {
+      "epoch": 2.382540741446679,
+      "eval_loss": 2.3121349811553955,
+      "eval_runtime": 80.1537,
+      "eval_samples_per_second": 173.591,
+      "eval_steps_per_second": 7.236,
+      "step": 25000
+    },
+    {
+      "epoch": 2.4301915562756125,
+      "grad_norm": 1.347023606300354,
+      "learning_rate": 3.7987229581625846e-05,
+      "loss": 1.4506,
+      "step": 25500
+    },
+    {
+      "epoch": 2.477842371104546,
+      "grad_norm": 1.49163019657135,
+      "learning_rate": 3.481050859303028e-05,
+      "loss": 1.4378,
+      "step": 26000
+    },
+    {
+      "epoch": 2.477842371104546,
+      "eval_loss": 2.3090391159057617,
+      "eval_runtime": 80.1708,
+      "eval_samples_per_second": 173.554,
+      "eval_steps_per_second": 7.235,
+      "step": 26000
+    },
+    {
+      "epoch": 2.5254931859334793,
+      "grad_norm": 1.7945301532745361,
+      "learning_rate": 3.163378760443471e-05,
+      "loss": 1.4436,
+      "step": 26500
+    },
+    {
+      "epoch": 2.573144000762413,
+      "grad_norm": 1.5082517862319946,
+      "learning_rate": 2.8457066615839136e-05,
+      "loss": 1.4277,
+      "step": 27000
+    },
+    {
+      "epoch": 2.573144000762413,
+      "eval_loss": 2.3082542419433594,
+      "eval_runtime": 80.1802,
+      "eval_samples_per_second": 173.534,
+      "eval_steps_per_second": 7.234,
+      "step": 27000
+    },
+    {
+      "epoch": 2.6207948155913465,
+      "grad_norm": 1.4329321384429932,
+      "learning_rate": 2.5280345627243563e-05,
+      "loss": 1.4301,
+      "step": 27500
+    },
+    {
+      "epoch": 2.66844563042028,
+      "grad_norm": 1.2606436014175415,
+      "learning_rate": 2.2103624638647987e-05,
+      "loss": 1.4251,
+      "step": 28000
+    },
+    {
+      "epoch": 2.66844563042028,
+      "eval_loss": 2.2960703372955322,
+      "eval_runtime": 80.1531,
+      "eval_samples_per_second": 173.593,
+      "eval_steps_per_second": 7.236,
+      "step": 28000
+    },
+    {
+      "epoch": 2.716096445249214,
+      "grad_norm": 1.4542068243026733,
+      "learning_rate": 1.8926903650052415e-05,
+      "loss": 1.4248,
+      "step": 28500
+    },
+    {
+      "epoch": 2.7637472600781474,
+      "grad_norm": 1.6642916202545166,
+      "learning_rate": 1.5750182661456846e-05,
+      "loss": 1.4219,
+      "step": 29000
+    },
+    {
+      "epoch": 2.7637472600781474,
+      "eval_loss": 2.296442985534668,
+      "eval_runtime": 80.1753,
+      "eval_samples_per_second": 173.545,
+      "eval_steps_per_second": 7.234,
+      "step": 29000
+    },
+    {
+      "epoch": 2.811398074907081,
+      "grad_norm": 2.0301756858825684,
+      "learning_rate": 1.2573461672861273e-05,
+      "loss": 1.4281,
+      "step": 29500
+    },
+    {
+      "epoch": 2.8590488897360142,
+      "grad_norm": 1.6031594276428223,
+      "learning_rate": 9.3967406842657e-06,
+      "loss": 1.434,
+      "step": 30000
+    },
+    {
+      "epoch": 2.8590488897360142,
+      "eval_loss": 2.2933690547943115,
+      "eval_runtime": 80.1482,
+      "eval_samples_per_second": 173.603,
+      "eval_steps_per_second": 7.237,
+      "step": 30000
+    },
+    {
+      "epoch": 2.9066997045649483,
+      "grad_norm": 1.6658378839492798,
+      "learning_rate": 6.22001969567013e-06,
+      "loss": 1.4291,
+      "step": 30500
+    },
+    {
+      "epoch": 2.9543505193938815,
+      "grad_norm": 1.589982032775879,
+      "learning_rate": 3.0432987070745578e-06,
+      "loss": 1.4279,
+      "step": 31000
+    },
+    {
+      "epoch": 2.9543505193938815,
+      "eval_loss": 2.2906086444854736,
+      "eval_runtime": 80.2746,
+      "eval_samples_per_second": 173.33,
+      "eval_steps_per_second": 7.225,
+      "step": 31000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 31479,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 50000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.934891962368e+16,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8dde0e4fbbe3c1bc9dd39c9618c32d5353cf56390332c7dcdbf04ad84e6ffed
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1cb82ad67a09d3ad34c485ce75404c4ecac9c33795cc43afad0edd89cf6d615
 size 5176