upload new version

Browse files

Files changed (8) hide show

all_results.json +15 -15
eval_results.json +6 -6
predict_results.json +5 -5
predictions.txt +0 -0
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +587 -122
training_args.bin +2 -2

all_results.json CHANGED Viewed

@@ -1,20 +1,20 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.3333333333333333,
-    "eval_loss": 1.0986275672912598,
-    "eval_runtime": 4.8281,
     "eval_samples": 2490,
-    "eval_samples_per_second": 515.736,
-    "eval_steps_per_second": 64.622,
-    "predict_accuracy": 0.3333333333333333,
-    "predict_loss": 1.0986275672912598,
-    "predict_runtime": 9.6687,
     "predict_samples": 5010,
-    "predict_samples_per_second": 518.166,
-    "predict_steps_per_second": 64.848,
-    "train_loss": 1.0999860929852203,
-    "train_runtime": 4899.674,
     "train_samples": 392702,
-    "train_samples_per_second": 160.297,
-    "train_steps_per_second": 5.009
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.7690763052208835,
+    "eval_loss": 0.5665035843849182,
+    "eval_runtime": 4.8322,
     "eval_samples": 2490,
+    "eval_samples_per_second": 515.291,
+    "eval_steps_per_second": 64.567,
+    "predict_accuracy": 0.7616766467065869,
+    "predict_loss": 0.590855598449707,
+    "predict_runtime": 9.7003,
     "predict_samples": 5010,
+    "predict_samples_per_second": 516.481,
+    "predict_steps_per_second": 64.637,
+    "train_loss": 0.5115460454251962,
+    "train_runtime": 12311.6395,
     "train_samples": 392702,
+    "train_samples_per_second": 159.484,
+    "train_steps_per_second": 4.984
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 2.0,
-    "eval_accuracy": 0.3333333333333333,
-    "eval_loss": 1.0986275672912598,
-    "eval_runtime": 4.8281,
     "eval_samples": 2490,
-    "eval_samples_per_second": 515.736,
-    "eval_steps_per_second": 64.622
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.7690763052208835,
+    "eval_loss": 0.5665035843849182,
+    "eval_runtime": 4.8322,
     "eval_samples": 2490,
+    "eval_samples_per_second": 515.291,
+    "eval_steps_per_second": 64.567
 }

predict_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "predict_accuracy": 0.3333333333333333,
-    "predict_loss": 1.0986275672912598,
-    "predict_runtime": 9.6687,
     "predict_samples": 5010,
-    "predict_samples_per_second": 518.166,
-    "predict_steps_per_second": 64.848
 }

 {
+    "predict_accuracy": 0.7616766467065869,
+    "predict_loss": 0.590855598449707,
+    "predict_runtime": 9.7003,
     "predict_samples": 5010,
+    "predict_samples_per_second": 516.481,
+    "predict_steps_per_second": 64.637
 }

predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92f8153d6a07513ded085c3c8e0fc3d4e5a177d6fd26251985f0f92a80b961a9
 size 1112257205

 version https://git-lfs.github.com/spec/v1
+oid sha256:80469624345f6780d4c3ff6c1a9ce801fb9f96735a1035e0472fcf73063efbe5
 size 1112257205

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "train_loss": 1.0999860929852203,
-    "train_runtime": 4899.674,
     "train_samples": 392702,
-    "train_samples_per_second": 160.297,
-    "train_steps_per_second": 5.009
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.5115460454251962,
+    "train_runtime": 12311.6395,
     "train_samples": 392702,
+    "train_samples_per_second": 159.484,
+    "train_steps_per_second": 4.984
 }

trainer_state.json CHANGED Viewed

@@ -1,337 +1,802 @@
 {
-  "best_metric": 1.0986275672912598,
-  "best_model_checkpoint": "chinese_xlm_xnli/checkpoint-24544",
-  "epoch": 2.0,
-  "global_step": 24544,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
-      "learning_rate": 4.898142112125163e-05,
-      "loss": 1.1048,
       "step": 500
     },
     {
       "epoch": 0.08,
-      "learning_rate": 4.7962842242503265e-05,
-      "loss": 1.1022,
       "step": 1000
     },
     {
       "epoch": 0.12,
-      "learning_rate": 4.694426336375489e-05,
-      "loss": 1.1026,
       "step": 1500
     },
     {
       "epoch": 0.16,
-      "learning_rate": 4.592568448500652e-05,
-      "loss": 1.1017,
       "step": 2000
     },
     {
       "epoch": 0.2,
-      "learning_rate": 4.490710560625815e-05,
-      "loss": 1.1016,
       "step": 2500
     },
     {
       "epoch": 0.24,
-      "learning_rate": 4.3888526727509784e-05,
-      "loss": 1.1011,
       "step": 3000
     },
     {
       "epoch": 0.29,
-      "learning_rate": 4.286994784876141e-05,
-      "loss": 1.1014,
       "step": 3500
     },
     {
       "epoch": 0.33,
-      "learning_rate": 4.185136897001304e-05,
-      "loss": 1.1007,
       "step": 4000
     },
     {
       "epoch": 0.37,
-      "learning_rate": 4.0832790091264675e-05,
-      "loss": 1.1016,
       "step": 4500
     },
     {
       "epoch": 0.41,
-      "learning_rate": 3.98142112125163e-05,
-      "loss": 1.1009,
       "step": 5000
     },
     {
       "epoch": 0.45,
-      "learning_rate": 3.879563233376793e-05,
-      "loss": 1.1003,
       "step": 5500
     },
     {
       "epoch": 0.49,
-      "learning_rate": 3.777705345501956e-05,
-      "loss": 1.1003,
       "step": 6000
     },
     {
       "epoch": 0.53,
-      "learning_rate": 3.675847457627119e-05,
-      "loss": 1.1003,
       "step": 6500
     },
     {
       "epoch": 0.57,
-      "learning_rate": 3.5739895697522816e-05,
-      "loss": 1.1003,
       "step": 7000
     },
     {
       "epoch": 0.61,
-      "learning_rate": 3.4721316818774444e-05,
-      "loss": 1.1006,
       "step": 7500
     },
     {
       "epoch": 0.65,
-      "learning_rate": 3.370273794002607e-05,
-      "loss": 1.1,
       "step": 8000
     },
     {
       "epoch": 0.69,
-      "learning_rate": 3.2684159061277707e-05,
-      "loss": 1.1006,
       "step": 8500
     },
     {
       "epoch": 0.73,
-      "learning_rate": 3.1665580182529335e-05,
-      "loss": 1.1001,
       "step": 9000
     },
     {
       "epoch": 0.77,
-      "learning_rate": 3.064700130378096e-05,
-      "loss": 1.1,
       "step": 9500
     },
     {
       "epoch": 0.81,
-      "learning_rate": 2.9628422425032598e-05,
-      "loss": 1.1001,
       "step": 10000
     },
     {
       "epoch": 0.86,
-      "learning_rate": 2.8609843546284226e-05,
-      "loss": 1.1001,
       "step": 10500
     },
     {
       "epoch": 0.9,
-      "learning_rate": 2.7591264667535854e-05,
-      "loss": 1.0995,
       "step": 11000
     },
     {
       "epoch": 0.94,
-      "learning_rate": 2.6572685788787482e-05,
-      "loss": 1.0994,
       "step": 11500
     },
     {
       "epoch": 0.98,
-      "learning_rate": 2.5554106910039117e-05,
-      "loss": 1.1,
       "step": 12000
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.3333333333333333,
-      "eval_loss": 1.0986357927322388,
-      "eval_runtime": 4.8859,
-      "eval_samples_per_second": 509.632,
-      "eval_steps_per_second": 63.857,
       "step": 12272
     },
     {
       "epoch": 1.02,
-      "learning_rate": 2.4535528031290745e-05,
-      "loss": 1.0995,
       "step": 12500
     },
     {
       "epoch": 1.06,
-      "learning_rate": 2.3516949152542376e-05,
-      "loss": 1.0999,
       "step": 13000
     },
     {
       "epoch": 1.1,
-      "learning_rate": 2.2498370273794004e-05,
-      "loss": 1.0998,
       "step": 13500
     },
     {
       "epoch": 1.14,
-      "learning_rate": 2.1479791395045636e-05,
-      "loss": 1.0993,
       "step": 14000
     },
     {
       "epoch": 1.18,
-      "learning_rate": 2.0461212516297264e-05,
-      "loss": 1.0995,
       "step": 14500
     },
     {
       "epoch": 1.22,
-      "learning_rate": 1.944263363754889e-05,
-      "loss": 1.0991,
       "step": 15000
     },
     {
       "epoch": 1.26,
-      "learning_rate": 1.842405475880052e-05,
-      "loss": 1.0993,
       "step": 15500
     },
     {
       "epoch": 1.3,
-      "learning_rate": 1.740547588005215e-05,
-      "loss": 1.0994,
       "step": 16000
     },
     {
       "epoch": 1.34,
-      "learning_rate": 1.6386897001303783e-05,
-      "loss": 1.0993,
       "step": 16500
     },
     {
       "epoch": 1.39,
-      "learning_rate": 1.536831812255541e-05,
-      "loss": 1.0994,
       "step": 17000
     },
     {
       "epoch": 1.43,
-      "learning_rate": 1.4349739243807042e-05,
-      "loss": 1.0992,
       "step": 17500
     },
     {
       "epoch": 1.47,
-      "learning_rate": 1.333116036505867e-05,
-      "loss": 1.0989,
       "step": 18000
     },
     {
       "epoch": 1.51,
-      "learning_rate": 1.23125814863103e-05,
-      "loss": 1.0991,
       "step": 18500
     },
     {
       "epoch": 1.55,
-      "learning_rate": 1.1294002607561931e-05,
-      "loss": 1.0991,
       "step": 19000
     },
     {
       "epoch": 1.59,
-      "learning_rate": 1.027542372881356e-05,
-      "loss": 1.0991,
       "step": 19500
     },
     {
       "epoch": 1.63,
-      "learning_rate": 9.25684485006519e-06,
-      "loss": 1.099,
       "step": 20000
     },
     {
       "epoch": 1.67,
-      "learning_rate": 8.238265971316819e-06,
-      "loss": 1.0989,
       "step": 20500
     },
     {
       "epoch": 1.71,
-      "learning_rate": 7.219687092568449e-06,
-      "loss": 1.0988,
       "step": 21000
     },
     {
       "epoch": 1.75,
-      "learning_rate": 6.2011082138200785e-06,
-      "loss": 1.0988,
       "step": 21500
     },
     {
       "epoch": 1.79,
-      "learning_rate": 5.182529335071708e-06,
-      "loss": 1.0992,
       "step": 22000
     },
     {
       "epoch": 1.83,
-      "learning_rate": 4.163950456323338e-06,
-      "loss": 1.0988,
       "step": 22500
     },
     {
       "epoch": 1.87,
-      "learning_rate": 3.1453715775749674e-06,
-      "loss": 1.099,
       "step": 23000
     },
     {
       "epoch": 1.91,
-      "learning_rate": 2.126792698826597e-06,
-      "loss": 1.0992,
       "step": 23500
     },
     {
       "epoch": 1.96,
-      "learning_rate": 1.108213820078227e-06,
-      "loss": 1.0987,
       "step": 24000
     },
     {
       "epoch": 2.0,
-      "learning_rate": 8.963494132985658e-08,
-      "loss": 1.0988,
       "step": 24500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.3333333333333333,
-      "eval_loss": 1.0986275672912598,
-      "eval_runtime": 4.862,
-      "eval_samples_per_second": 512.131,
-      "eval_steps_per_second": 64.171,
       "step": 24544
     },
     {
-      "epoch": 2.0,
-      "step": 24544,
-      "total_flos": 5.166258268431053e+16,
-      "train_loss": 1.0999860929852203,
-      "train_runtime": 4899.674,
-      "train_samples_per_second": 160.297,
-      "train_steps_per_second": 5.009
     }
   ],
-  "max_steps": 24544,
-  "num_train_epochs": 2,
-  "total_flos": 5.166258268431053e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7690763052208835,
+  "best_model_checkpoint": "models/chinese_xlm_xnli/checkpoint-24544",
+  "epoch": 5.0,
+  "global_step": 61360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.04,
+      "learning_rate": 1.983702737940026e-05,
+      "loss": 1.035,
       "step": 500
     },
     {
       "epoch": 0.08,
+      "learning_rate": 1.9674054758800523e-05,
+      "loss": 0.8793,
       "step": 1000
     },
     {
       "epoch": 0.12,
+      "learning_rate": 1.9511082138200782e-05,
+      "loss": 0.8076,
       "step": 1500
     },
     {
       "epoch": 0.16,
+      "learning_rate": 1.9348109517601044e-05,
+      "loss": 0.7784,
       "step": 2000
     },
     {
       "epoch": 0.2,
+      "learning_rate": 1.9185136897001307e-05,
+      "loss": 0.7584,
       "step": 2500
     },
     {
       "epoch": 0.24,
+      "learning_rate": 1.9022164276401566e-05,
+      "loss": 0.7431,
       "step": 3000
     },
     {
       "epoch": 0.29,
+      "learning_rate": 1.8859191655801828e-05,
+      "loss": 0.732,
       "step": 3500
     },
     {
       "epoch": 0.33,
+      "learning_rate": 1.8696219035202087e-05,
+      "loss": 0.7164,
       "step": 4000
     },
     {
       "epoch": 0.37,
+      "learning_rate": 1.853324641460235e-05,
+      "loss": 0.7006,
       "step": 4500
     },
     {
       "epoch": 0.41,
+      "learning_rate": 1.837027379400261e-05,
+      "loss": 0.6956,
       "step": 5000
     },
     {
       "epoch": 0.45,
+      "learning_rate": 1.820730117340287e-05,
+      "loss": 0.6938,
       "step": 5500
     },
     {
       "epoch": 0.49,
+      "learning_rate": 1.804432855280313e-05,
+      "loss": 0.6865,
       "step": 6000
     },
     {
       "epoch": 0.53,
+      "learning_rate": 1.788135593220339e-05,
+      "loss": 0.6811,
       "step": 6500
     },
     {
       "epoch": 0.57,
+      "learning_rate": 1.771838331160365e-05,
+      "loss": 0.6763,
       "step": 7000
     },
     {
       "epoch": 0.61,
+      "learning_rate": 1.7555410691003914e-05,
+      "loss": 0.6637,
       "step": 7500
     },
     {
       "epoch": 0.65,
+      "learning_rate": 1.7392438070404173e-05,
+      "loss": 0.6526,
       "step": 8000
     },
     {
       "epoch": 0.69,
+      "learning_rate": 1.7229465449804435e-05,
+      "loss": 0.6587,
       "step": 8500
     },
     {
       "epoch": 0.73,
+      "learning_rate": 1.7066492829204694e-05,
+      "loss": 0.6586,
       "step": 9000
     },
     {
       "epoch": 0.77,
+      "learning_rate": 1.6903520208604957e-05,
+      "loss": 0.6502,
       "step": 9500
     },
     {
       "epoch": 0.81,
+      "learning_rate": 1.6740547588005215e-05,
+      "loss": 0.646,
       "step": 10000
     },
     {
       "epoch": 0.86,
+      "learning_rate": 1.6577574967405478e-05,
+      "loss": 0.6524,
       "step": 10500
     },
     {
       "epoch": 0.9,
+      "learning_rate": 1.6414602346805737e-05,
+      "loss": 0.6495,
       "step": 11000
     },
     {
       "epoch": 0.94,
+      "learning_rate": 1.6251629726206e-05,
+      "loss": 0.6401,
       "step": 11500
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.608865710560626e-05,
+      "loss": 0.646,
       "step": 12000
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7502008032128514,
+      "eval_loss": 0.6004876494407654,
+      "eval_runtime": 4.8793,
+      "eval_samples_per_second": 510.322,
+      "eval_steps_per_second": 63.944,
       "step": 12272
     },
     {
       "epoch": 1.02,
+      "learning_rate": 1.592568448500652e-05,
+      "loss": 0.6147,
       "step": 12500
     },
     {
       "epoch": 1.06,
+      "learning_rate": 1.576271186440678e-05,
+      "loss": 0.5821,
       "step": 13000
     },
     {
       "epoch": 1.1,
+      "learning_rate": 1.5599739243807042e-05,
+      "loss": 0.5814,
       "step": 13500
     },
     {
       "epoch": 1.14,
+      "learning_rate": 1.54367666232073e-05,
+      "loss": 0.5787,
       "step": 14000
     },
     {
       "epoch": 1.18,
+      "learning_rate": 1.5273794002607563e-05,
+      "loss": 0.5711,
       "step": 14500
     },
     {
       "epoch": 1.22,
+      "learning_rate": 1.5110821382007822e-05,
+      "loss": 0.5753,
       "step": 15000
     },
     {
       "epoch": 1.26,
+      "learning_rate": 1.4947848761408083e-05,
+      "loss": 0.5682,
       "step": 15500
     },
     {
       "epoch": 1.3,
+      "learning_rate": 1.4784876140808346e-05,
+      "loss": 0.5665,
       "step": 16000
     },
     {
       "epoch": 1.34,
+      "learning_rate": 1.4621903520208606e-05,
+      "loss": 0.5725,
       "step": 16500
     },
     {
       "epoch": 1.39,
+      "learning_rate": 1.4458930899608867e-05,
+      "loss": 0.5812,
       "step": 17000
     },
     {
       "epoch": 1.43,
+      "learning_rate": 1.4295958279009128e-05,
+      "loss": 0.574,
       "step": 17500
     },
     {
       "epoch": 1.47,
+      "learning_rate": 1.4132985658409388e-05,
+      "loss": 0.5701,
       "step": 18000
     },
     {
       "epoch": 1.51,
+      "learning_rate": 1.3970013037809649e-05,
+      "loss": 0.5725,
       "step": 18500
     },
     {
       "epoch": 1.55,
+      "learning_rate": 1.380704041720991e-05,
+      "loss": 0.5704,
       "step": 19000
     },
     {
       "epoch": 1.59,
+      "learning_rate": 1.364406779661017e-05,
+      "loss": 0.5692,
       "step": 19500
     },
     {
       "epoch": 1.63,
+      "learning_rate": 1.3481095176010431e-05,
+      "loss": 0.5731,
       "step": 20000
     },
     {
       "epoch": 1.67,
+      "learning_rate": 1.3318122555410693e-05,
+      "loss": 0.5722,
       "step": 20500
     },
     {
       "epoch": 1.71,
+      "learning_rate": 1.3155149934810954e-05,
+      "loss": 0.5711,
       "step": 21000
     },
     {
       "epoch": 1.75,
+      "learning_rate": 1.2992177314211213e-05,
+      "loss": 0.5684,
       "step": 21500
     },
     {
       "epoch": 1.79,
+      "learning_rate": 1.2829204693611474e-05,
+      "loss": 0.5638,
       "step": 22000
     },
     {
       "epoch": 1.83,
+      "learning_rate": 1.2666232073011735e-05,
+      "loss": 0.5664,
       "step": 22500
     },
     {
       "epoch": 1.87,
+      "learning_rate": 1.2503259452411995e-05,
+      "loss": 0.5738,
       "step": 23000
     },
     {
       "epoch": 1.91,
+      "learning_rate": 1.2340286831812256e-05,
+      "loss": 0.5572,
       "step": 23500
     },
     {
       "epoch": 1.96,
+      "learning_rate": 1.2177314211212517e-05,
+      "loss": 0.5665,
       "step": 24000
     },
     {
       "epoch": 2.0,
+      "learning_rate": 1.2014341590612777e-05,
+      "loss": 0.5627,
       "step": 24500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7690763052208835,
+      "eval_loss": 0.5665035843849182,
+      "eval_runtime": 4.8826,
+      "eval_samples_per_second": 509.976,
+      "eval_steps_per_second": 63.901,
       "step": 24544
     },
     {
+      "epoch": 2.04,
+      "learning_rate": 1.185136897001304e-05,
+      "loss": 0.4979,
+      "step": 25000
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.16883963494133e-05,
+      "loss": 0.4939,
+      "step": 25500
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 1.1525423728813561e-05,
+      "loss": 0.4942,
+      "step": 26000
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.1362451108213822e-05,
+      "loss": 0.4881,
+      "step": 26500
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.1199478487614082e-05,
+      "loss": 0.4886,
+      "step": 27000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.1036505867014341e-05,
+      "loss": 0.4852,
+      "step": 27500
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 1.0873533246414602e-05,
+      "loss": 0.4989,
+      "step": 28000
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.0710560625814863e-05,
+      "loss": 0.4948,
+      "step": 28500
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.0547588005215125e-05,
+      "loss": 0.4971,
+      "step": 29000
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.0384615384615386e-05,
+      "loss": 0.493,
+      "step": 29500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.0221642764015647e-05,
+      "loss": 0.4977,
+      "step": 30000
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.0058670143415907e-05,
+      "loss": 0.4946,
+      "step": 30500
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 9.895697522816168e-06,
+      "loss": 0.4873,
+      "step": 31000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.732724902216429e-06,
+      "loss": 0.4886,
+      "step": 31500
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 9.56975228161669e-06,
+      "loss": 0.4973,
+      "step": 32000
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 9.40677966101695e-06,
+      "loss": 0.4865,
+      "step": 32500
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 9.24380704041721e-06,
+      "loss": 0.4895,
+      "step": 33000
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 9.080834419817471e-06,
+      "loss": 0.4708,
+      "step": 33500
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 8.917861799217732e-06,
+      "loss": 0.4984,
+      "step": 34000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 8.754889178617993e-06,
+      "loss": 0.4989,
+      "step": 34500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 8.591916558018254e-06,
+      "loss": 0.4818,
+      "step": 35000
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 8.428943937418514e-06,
+      "loss": 0.4845,
+      "step": 35500
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 8.265971316818775e-06,
+      "loss": 0.492,
+      "step": 36000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 8.102998696219036e-06,
+      "loss": 0.4816,
+      "step": 36500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7670682730923695,
+      "eval_loss": 0.5784117579460144,
+      "eval_runtime": 4.8762,
+      "eval_samples_per_second": 510.646,
+      "eval_steps_per_second": 63.985,
+      "step": 36816
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 7.940026075619296e-06,
+      "loss": 0.4527,
+      "step": 37000
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 7.777053455019557e-06,
+      "loss": 0.4163,
+      "step": 37500
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 7.614080834419818e-06,
+      "loss": 0.4126,
+      "step": 38000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 7.451108213820078e-06,
+      "loss": 0.4298,
+      "step": 38500
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 7.288135593220339e-06,
+      "loss": 0.4253,
+      "step": 39000
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 7.125162972620601e-06,
+      "loss": 0.4187,
+      "step": 39500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 6.962190352020861e-06,
+      "loss": 0.4221,
+      "step": 40000
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 6.799217731421122e-06,
+      "loss": 0.4314,
+      "step": 40500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 6.636245110821382e-06,
+      "loss": 0.4295,
+      "step": 41000
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 6.473272490221643e-06,
+      "loss": 0.4324,
+      "step": 41500
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 6.310299869621904e-06,
+      "loss": 0.4242,
+      "step": 42000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 6.147327249022165e-06,
+      "loss": 0.4217,
+      "step": 42500
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 5.9843546284224255e-06,
+      "loss": 0.4194,
+      "step": 43000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 5.821382007822687e-06,
+      "loss": 0.4147,
+      "step": 43500
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 5.658409387222948e-06,
+      "loss": 0.4213,
+      "step": 44000
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 5.4954367666232076e-06,
+      "loss": 0.4295,
+      "step": 44500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 5.332464146023468e-06,
+      "loss": 0.4237,
+      "step": 45000
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 5.169491525423729e-06,
+      "loss": 0.4227,
+      "step": 45500
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 5.0065189048239905e-06,
+      "loss": 0.4141,
+      "step": 46000
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 4.843546284224251e-06,
+      "loss": 0.4115,
+      "step": 46500
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 4.680573663624511e-06,
+      "loss": 0.4251,
+      "step": 47000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 4.5176010430247726e-06,
+      "loss": 0.4156,
+      "step": 47500
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 4.354628422425033e-06,
+      "loss": 0.412,
+      "step": 48000
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 4.191655801825294e-06,
+      "loss": 0.4187,
+      "step": 48500
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 4.028683181225555e-06,
+      "loss": 0.4148,
+      "step": 49000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7650602409638554,
+      "eval_loss": 0.6273519396781921,
+      "eval_runtime": 4.898,
+      "eval_samples_per_second": 508.374,
+      "eval_steps_per_second": 63.7,
+      "step": 49088
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 3.865710560625815e-06,
+      "loss": 0.3675,
+      "step": 49500
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 3.702737940026076e-06,
+      "loss": 0.3813,
+      "step": 50000
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 3.5397653194263363e-06,
+      "loss": 0.3636,
+      "step": 50500
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 3.3767926988265974e-06,
+      "loss": 0.3583,
+      "step": 51000
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 3.213820078226858e-06,
+      "loss": 0.3609,
+      "step": 51500
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 3.0508474576271192e-06,
+      "loss": 0.3551,
+      "step": 52000
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 2.8878748370273795e-06,
+      "loss": 0.3748,
+      "step": 52500
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 2.7249022164276406e-06,
+      "loss": 0.3618,
+      "step": 53000
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 2.5619295958279013e-06,
+      "loss": 0.3635,
+      "step": 53500
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 2.398956975228162e-06,
+      "loss": 0.3723,
+      "step": 54000
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 2.2359843546284227e-06,
+      "loss": 0.3601,
+      "step": 54500
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 2.0730117340286834e-06,
+      "loss": 0.3772,
+      "step": 55000
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 1.910039113428944e-06,
+      "loss": 0.3623,
+      "step": 55500
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 1.7470664928292048e-06,
+      "loss": 0.3575,
+      "step": 56000
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 1.5840938722294655e-06,
+      "loss": 0.3692,
+      "step": 56500
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 1.4211212516297262e-06,
+      "loss": 0.3667,
+      "step": 57000
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 1.258148631029987e-06,
+      "loss": 0.3457,
+      "step": 57500
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 1.0951760104302478e-06,
+      "loss": 0.3631,
+      "step": 58000
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 9.322033898305086e-07,
+      "loss": 0.3648,
+      "step": 58500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 7.692307692307694e-07,
+      "loss": 0.3556,
+      "step": 59000
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 6.0625814863103e-07,
+      "loss": 0.3727,
+      "step": 59500
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 4.432855280312908e-07,
+      "loss": 0.3612,
+      "step": 60000
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 2.803129074315515e-07,
+      "loss": 0.3618,
+      "step": 60500
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 1.1734028683181226e-07,
+      "loss": 0.3693,
+      "step": 61000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7598393574297189,
+      "eval_loss": 0.6770225763320923,
+      "eval_runtime": 4.89,
+      "eval_samples_per_second": 509.207,
+      "eval_steps_per_second": 63.804,
+      "step": 61360
+    },
+    {
+      "epoch": 5.0,
+      "step": 61360,
+      "total_flos": 1.2915645671077632e+17,
+      "train_loss": 0.5115460454251962,
+      "train_runtime": 12311.6395,
+      "train_samples_per_second": 159.484,
+      "train_steps_per_second": 4.984
     }
   ],
+  "max_steps": 61360,
+  "num_train_epochs": 5,
+  "total_flos": 1.2915645671077632e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:565b618e03b2e32e2521a98a7c19e5ad9a94a7d54cc7c88cd3b6caf9616300fa
-size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:aebb92c7bc4f6696e3d4b71c8ed1490f5f9d2011c00e3df92030aec62f48068a
+size 3451