Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

all_results.json +3 -3
pytorch_model.bin +1 -1
train_results.json +3 -3
trainer_state.json +55 -55

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.93,
-    "train_loss": 4.00847572179941,
-    "train_runtime": 6918.2704,
     "train_samples": 6745,
-    "train_samples_per_second": 4.875,
     "train_steps_per_second": 0.038
 }

 {
     "epoch": 4.93,
+    "train_loss": 3.7126791367164027,
+    "train_runtime": 6928.357,
     "train_samples": 6745,
+    "train_samples_per_second": 4.868,
     "train_steps_per_second": 0.038
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:451b0aba5f5bfb7c2862e26c316a3dcd3cedee1e1d52883e04ed06bb2a94a56e
 size 70790896

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c59887e1c32406c3695d91a439867d607fe8dd623106771b44500032f3a7bdc
 size 70790896

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 4.93,
-    "train_loss": 4.00847572179941,
-    "train_runtime": 6918.2704,
     "train_samples": 6745,
-    "train_samples_per_second": 4.875,
     "train_steps_per_second": 0.038
 }

 {
     "epoch": 4.93,
+    "train_loss": 3.7126791367164027,
+    "train_runtime": 6928.357,
     "train_samples": 6745,
+    "train_samples_per_second": 4.868,
     "train_steps_per_second": 0.038
 }

trainer_state.json CHANGED Viewed

@@ -11,322 +11,322 @@
     {
       "epoch": 0.09,
       "learning_rate": 0.001,
-      "loss": 5.0956,
       "step": 5
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
-      "loss": 4.534,
       "step": 10
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
-      "loss": 4.3882,
       "step": 15
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
-      "loss": 4.2993,
       "step": 20
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
-      "loss": 4.2772,
       "step": 25
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
-      "loss": 4.2505,
       "step": 30
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.001,
-      "loss": 4.225,
       "step": 35
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.001,
-      "loss": 4.198,
       "step": 40
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.001,
-      "loss": 4.2169,
       "step": 45
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.001,
-      "loss": 4.1725,
       "step": 50
     },
     {
       "epoch": 1.04,
       "learning_rate": 0.001,
-      "loss": 4.096,
       "step": 55
     },
     {
       "epoch": 1.14,
       "learning_rate": 0.001,
-      "loss": 4.0965,
       "step": 60
     },
     {
       "epoch": 1.23,
       "learning_rate": 0.001,
-      "loss": 4.1271,
       "step": 65
     },
     {
       "epoch": 1.33,
       "learning_rate": 0.001,
-      "loss": 4.0536,
       "step": 70
     },
     {
       "epoch": 1.42,
       "learning_rate": 0.001,
-      "loss": 4.0566,
       "step": 75
     },
     {
       "epoch": 1.52,
       "learning_rate": 0.001,
-      "loss": 4.0699,
       "step": 80
     },
     {
       "epoch": 1.61,
       "learning_rate": 0.001,
-      "loss": 4.0534,
       "step": 85
     },
     {
       "epoch": 1.71,
       "learning_rate": 0.001,
-      "loss": 4.0219,
       "step": 90
     },
     {
       "epoch": 1.8,
       "learning_rate": 0.001,
-      "loss": 3.9933,
       "step": 95
     },
     {
       "epoch": 1.9,
       "learning_rate": 0.001,
-      "loss": 4.0694,
       "step": 100
     },
     {
       "epoch": 1.99,
       "learning_rate": 0.001,
-      "loss": 3.9699,
       "step": 105
     },
     {
       "epoch": 2.09,
       "learning_rate": 0.001,
-      "loss": 3.9706,
       "step": 110
     },
     {
       "epoch": 2.18,
       "learning_rate": 0.001,
-      "loss": 3.9641,
       "step": 115
     },
     {
       "epoch": 2.28,
       "learning_rate": 0.001,
-      "loss": 3.9781,
       "step": 120
     },
     {
       "epoch": 2.37,
       "learning_rate": 0.001,
-      "loss": 3.9421,
       "step": 125
     },
     {
       "epoch": 2.47,
       "learning_rate": 0.001,
-      "loss": 3.9427,
       "step": 130
     },
     {
       "epoch": 2.56,
       "learning_rate": 0.001,
-      "loss": 3.9432,
       "step": 135
     },
     {
       "epoch": 2.66,
       "learning_rate": 0.001,
-      "loss": 3.908,
       "step": 140
     },
     {
       "epoch": 2.75,
       "learning_rate": 0.001,
-      "loss": 3.951,
       "step": 145
     },
     {
       "epoch": 2.85,
       "learning_rate": 0.001,
-      "loss": 3.9514,
       "step": 150
     },
     {
       "epoch": 2.94,
       "learning_rate": 0.001,
-      "loss": 3.9265,
       "step": 155
     },
     {
       "epoch": 3.04,
       "learning_rate": 0.001,
-      "loss": 3.885,
       "step": 160
     },
     {
       "epoch": 3.13,
       "learning_rate": 0.001,
-      "loss": 3.9041,
       "step": 165
     },
     {
       "epoch": 3.23,
       "learning_rate": 0.001,
-      "loss": 3.8435,
       "step": 170
     },
     {
       "epoch": 3.32,
       "learning_rate": 0.001,
-      "loss": 3.8874,
       "step": 175
     },
     {
       "epoch": 3.42,
       "learning_rate": 0.001,
-      "loss": 3.8671,
       "step": 180
     },
     {
       "epoch": 3.51,
       "learning_rate": 0.001,
-      "loss": 3.8561,
       "step": 185
     },
     {
       "epoch": 3.61,
       "learning_rate": 0.001,
-      "loss": 3.8794,
       "step": 190
     },
     {
       "epoch": 3.7,
       "learning_rate": 0.001,
-      "loss": 3.8521,
       "step": 195
     },
     {
       "epoch": 3.8,
       "learning_rate": 0.001,
-      "loss": 3.86,
       "step": 200
     },
     {
       "epoch": 3.89,
       "learning_rate": 0.001,
-      "loss": 3.8851,
       "step": 205
     },
     {
       "epoch": 3.99,
       "learning_rate": 0.001,
-      "loss": 3.8581,
       "step": 210
     },
     {
       "epoch": 4.08,
       "learning_rate": 0.001,
-      "loss": 3.7836,
       "step": 215
     },
     {
       "epoch": 4.17,
       "learning_rate": 0.001,
-      "loss": 3.8085,
       "step": 220
     },
     {
       "epoch": 4.27,
       "learning_rate": 0.001,
-      "loss": 3.8295,
       "step": 225
     },
     {
       "epoch": 4.36,
       "learning_rate": 0.001,
-      "loss": 3.8402,
       "step": 230
     },
     {
       "epoch": 4.46,
       "learning_rate": 0.001,
-      "loss": 3.8223,
       "step": 235
     },
     {
       "epoch": 4.55,
       "learning_rate": 0.001,
-      "loss": 3.8278,
       "step": 240
     },
     {
       "epoch": 4.65,
       "learning_rate": 0.001,
-      "loss": 3.8258,
       "step": 245
     },
     {
       "epoch": 4.74,
       "learning_rate": 0.001,
-      "loss": 3.7931,
       "step": 250
     },
     {
       "epoch": 4.84,
       "learning_rate": 0.001,
-      "loss": 3.7855,
       "step": 255
     },
     {
       "epoch": 4.93,
       "learning_rate": 0.001,
-      "loss": 3.8042,
       "step": 260
     },
     {
       "epoch": 4.93,
       "step": 260,
       "total_flos": 1.527316217856e+16,
-      "train_loss": 4.00847572179941,
-      "train_runtime": 6918.2704,
-      "train_samples_per_second": 4.875,
       "train_steps_per_second": 0.038
     }
   ],

     {
       "epoch": 0.09,
       "learning_rate": 0.001,
+      "loss": 4.146,
       "step": 5
     },
     {
       "epoch": 0.19,
       "learning_rate": 0.001,
+      "loss": 3.9173,
       "step": 10
     },
     {
       "epoch": 0.28,
       "learning_rate": 0.001,
+      "loss": 3.8439,
       "step": 15
     },
     {
       "epoch": 0.38,
       "learning_rate": 0.001,
+      "loss": 3.8053,
       "step": 20
     },
     {
       "epoch": 0.47,
       "learning_rate": 0.001,
+      "loss": 3.8026,
       "step": 25
     },
     {
       "epoch": 0.57,
       "learning_rate": 0.001,
+      "loss": 3.8028,
       "step": 30
     },
     {
       "epoch": 0.66,
       "learning_rate": 0.001,
+      "loss": 3.7935,
       "step": 35
     },
     {
       "epoch": 0.76,
       "learning_rate": 0.001,
+      "loss": 3.7883,
       "step": 40
     },
     {
       "epoch": 0.85,
       "learning_rate": 0.001,
+      "loss": 3.8207,
       "step": 45
     },
     {
       "epoch": 0.95,
       "learning_rate": 0.001,
+      "loss": 3.7862,
       "step": 50
     },
     {
       "epoch": 1.04,
       "learning_rate": 0.001,
+      "loss": 3.734,
       "step": 55
     },
     {
       "epoch": 1.14,
       "learning_rate": 0.001,
+      "loss": 3.7344,
       "step": 60
     },
     {
       "epoch": 1.23,
       "learning_rate": 0.001,
+      "loss": 3.7731,
       "step": 65
     },
     {
       "epoch": 1.33,
       "learning_rate": 0.001,
+      "loss": 3.7143,
       "step": 70
     },
     {
       "epoch": 1.42,
       "learning_rate": 0.001,
+      "loss": 3.7279,
       "step": 75
     },
     {
       "epoch": 1.52,
       "learning_rate": 0.001,
+      "loss": 3.7474,
       "step": 80
     },
     {
       "epoch": 1.61,
       "learning_rate": 0.001,
+      "loss": 3.7295,
       "step": 85
     },
     {
       "epoch": 1.71,
       "learning_rate": 0.001,
+      "loss": 3.7168,
       "step": 90
     },
     {
       "epoch": 1.8,
       "learning_rate": 0.001,
+      "loss": 3.7001,
       "step": 95
     },
     {
       "epoch": 1.9,
       "learning_rate": 0.001,
+      "loss": 3.7773,
       "step": 100
     },
     {
       "epoch": 1.99,
       "learning_rate": 0.001,
+      "loss": 3.6938,
       "step": 105
     },
     {
       "epoch": 2.09,
       "learning_rate": 0.001,
+      "loss": 3.6895,
       "step": 110
     },
     {
       "epoch": 2.18,
       "learning_rate": 0.001,
+      "loss": 3.6959,
       "step": 115
     },
     {
       "epoch": 2.28,
       "learning_rate": 0.001,
+      "loss": 3.707,
       "step": 120
     },
     {
       "epoch": 2.37,
       "learning_rate": 0.001,
+      "loss": 3.6855,
       "step": 125
     },
     {
       "epoch": 2.47,
       "learning_rate": 0.001,
+      "loss": 3.6892,
       "step": 130
     },
     {
       "epoch": 2.56,
       "learning_rate": 0.001,
+      "loss": 3.6911,
       "step": 135
     },
     {
       "epoch": 2.66,
       "learning_rate": 0.001,
+      "loss": 3.6703,
       "step": 140
     },
     {
       "epoch": 2.75,
       "learning_rate": 0.001,
+      "loss": 3.7128,
       "step": 145
     },
     {
       "epoch": 2.85,
       "learning_rate": 0.001,
+      "loss": 3.7105,
       "step": 150
     },
     {
       "epoch": 2.94,
       "learning_rate": 0.001,
+      "loss": 3.6934,
       "step": 155
     },
     {
       "epoch": 3.04,
       "learning_rate": 0.001,
+      "loss": 3.6599,
       "step": 160
     },
     {
       "epoch": 3.13,
       "learning_rate": 0.001,
+      "loss": 3.677,
       "step": 165
     },
     {
       "epoch": 3.23,
       "learning_rate": 0.001,
+      "loss": 3.6255,
       "step": 170
     },
     {
       "epoch": 3.32,
       "learning_rate": 0.001,
+      "loss": 3.6733,
       "step": 175
     },
     {
       "epoch": 3.42,
       "learning_rate": 0.001,
+      "loss": 3.6516,
       "step": 180
     },
     {
       "epoch": 3.51,
       "learning_rate": 0.001,
+      "loss": 3.6434,
       "step": 185
     },
     {
       "epoch": 3.61,
       "learning_rate": 0.001,
+      "loss": 3.6714,
       "step": 190
     },
     {
       "epoch": 3.7,
       "learning_rate": 0.001,
+      "loss": 3.6504,
       "step": 195
     },
     {
       "epoch": 3.8,
       "learning_rate": 0.001,
+      "loss": 3.6588,
       "step": 200
     },
     {
       "epoch": 3.89,
       "learning_rate": 0.001,
+      "loss": 3.6882,
       "step": 205
     },
     {
       "epoch": 3.99,
       "learning_rate": 0.001,
+      "loss": 3.6627,
       "step": 210
     },
     {
       "epoch": 4.08,
       "learning_rate": 0.001,
+      "loss": 3.5937,
       "step": 215
     },
     {
       "epoch": 4.17,
       "learning_rate": 0.001,
+      "loss": 3.6135,
       "step": 220
     },
     {
       "epoch": 4.27,
       "learning_rate": 0.001,
+      "loss": 3.6352,
       "step": 225
     },
     {
       "epoch": 4.36,
       "learning_rate": 0.001,
+      "loss": 3.6514,
       "step": 230
     },
     {
       "epoch": 4.46,
       "learning_rate": 0.001,
+      "loss": 3.6351,
       "step": 235
     },
     {
       "epoch": 4.55,
       "learning_rate": 0.001,
+      "loss": 3.6453,
       "step": 240
     },
     {
       "epoch": 4.65,
       "learning_rate": 0.001,
+      "loss": 3.6458,
       "step": 245
     },
     {
       "epoch": 4.74,
       "learning_rate": 0.001,
+      "loss": 3.6196,
       "step": 250
     },
     {
       "epoch": 4.84,
       "learning_rate": 0.001,
+      "loss": 3.6168,
       "step": 255
     },
     {
       "epoch": 4.93,
       "learning_rate": 0.001,
+      "loss": 3.6403,
       "step": 260
     },
     {
       "epoch": 4.93,
       "step": 260,
       "total_flos": 1.527316217856e+16,
+      "train_loss": 3.7126791367164027,
+      "train_runtime": 6928.357,
+      "train_samples_per_second": 4.868,
       "train_steps_per_second": 0.038
     }
   ],