Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

pytorch_model-00001-of-00003.bin +1 -1
pytorch_model-00002-of-00003.bin +1 -1
pytorch_model-00003-of-00003.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +671 -3
training_args.bin +2 -2

pytorch_model-00001-of-00003.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4ca3fb841bee4cff14b2e462ea2de09ad87bb9b917dcea5988b5b92798683c5
 size 9949048046

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2a8a9cde4c46113cbbf48ae220d46fa6219fad20c081a6bf0aedee0e9719f7e
 size 9949048046

pytorch_model-00002-of-00003.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9feb0e50da1f7109a9c960499cf59fceedc93911c11f3fd98763ee1fe843eb
 size 9904474400

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c4e0301bb2e41ff4ff0efb7bdc0cfe5cab5e5713aa08138b7624806cfa7450f
 size 9904474400

pytorch_model-00003-of-00003.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d13d5cb462af48e05cc9cc9a004c95e650425446d86a20afd156f32e717d2435
 size 6179210249

 version https://git-lfs.github.com/spec/v1
+oid sha256:c085de478c04c9209f03c904d8d33b01895c7622458b9895f775f397e6a75cf4
 size 6179210249

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98faac54bb4691597f342efb5e51a9af83dbd7d612cb41773ce3397e9739d297
 size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:51edccd6f9855740cdfe1d96d81afba5cfd7b32b28cf15897f8fbadf588f1179
 size 14511

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f4766a50a63740d51a19c983a4de442d7f62ff1e951fc016c44cc6c58fb9db1
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec0a535d2c9c4c62a74336a7f93b6d947a1152f53a6066eccd4123d6b477c15c
 size 627

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0009760716430288746,
-  "global_step": 3100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2114,11 +2114,679 @@
       "eval_samples_per_second": 4.049,
       "eval_steps_per_second": 2.024,
       "step": 3100
     }
   ],
   "max_steps": 10000,
   "num_train_epochs": 1,
-  "total_flos": 5.849399834018734e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.005037789125310321,
+  "global_step": 8000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.049,
       "eval_steps_per_second": 2.024,
       "step": 3100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1955,
+      "step": 3150
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1781,
+      "step": 3200
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1431,
+      "step": 3250
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1395,
+      "step": 3300
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1339,
+      "step": 3350
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1488,
+      "step": 3400
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1246,
+      "step": 3450
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1307,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.2042970657348633,
+      "eval_runtime": 34108.0847,
+      "eval_samples_per_second": 2.969,
+      "eval_steps_per_second": 0.742,
+      "step": 3500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1207,
+      "step": 3550
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1247,
+      "step": 3600
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1225,
+      "step": 3650
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0978,
+      "step": 3700
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1168,
+      "step": 3750
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1122,
+      "step": 3800
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1046,
+      "step": 3850
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1208,
+      "step": 3900
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1206,
+      "step": 3950
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.1128,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.1652708053588867,
+      "eval_runtime": 34110.436,
+      "eval_samples_per_second": 2.969,
+      "eval_steps_per_second": 0.742,
+      "step": 4000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0952,
+      "step": 4050
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0932,
+      "step": 4100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0884,
+      "step": 4150
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0733,
+      "step": 4200
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0889,
+      "step": 4250
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0845,
+      "step": 4300
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0734,
+      "step": 4350
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0829,
+      "step": 4400
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0784,
+      "step": 4450
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0669,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.144939661026001,
+      "eval_runtime": 34106.0495,
+      "eval_samples_per_second": 2.969,
+      "eval_steps_per_second": 0.742,
+      "step": 4500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0678,
+      "step": 4550
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0704,
+      "step": 4600
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0714,
+      "step": 4650
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0661,
+      "step": 4700
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0707,
+      "step": 4750
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0685,
+      "step": 4800
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0706,
+      "step": 4850
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0753,
+      "step": 4900
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.056,
+      "step": 4950
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0646,
+      "step": 5000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.1237690448760986,
+      "eval_runtime": 34108.4877,
+      "eval_samples_per_second": 2.969,
+      "eval_steps_per_second": 0.742,
+      "step": 5000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.053,
+      "step": 5050
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0622,
+      "step": 5100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0415,
+      "step": 5150
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0561,
+      "step": 5200
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0517,
+      "step": 5250
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0559,
+      "step": 5300
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0417,
+      "step": 5350
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0435,
+      "step": 5400
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0533,
+      "step": 5450
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0388,
+      "step": 5500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.109766960144043,
+      "eval_runtime": 34100.9613,
+      "eval_samples_per_second": 2.97,
+      "eval_steps_per_second": 0.742,
+      "step": 5500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0524,
+      "step": 5550
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0521,
+      "step": 5600
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0356,
+      "step": 5650
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0565,
+      "step": 5700
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0341,
+      "step": 5750
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.041,
+      "step": 5800
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0378,
+      "step": 5850
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0388,
+      "step": 5900
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0456,
+      "step": 5950
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0391,
+      "step": 6000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.0924971103668213,
+      "eval_runtime": 34094.327,
+      "eval_samples_per_second": 2.97,
+      "eval_steps_per_second": 0.743,
+      "step": 6000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0364,
+      "step": 6050
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.028,
+      "step": 6100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0255,
+      "step": 6150
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0049,
+      "step": 6200
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0214,
+      "step": 6250
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0303,
+      "step": 6300
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0216,
+      "step": 6350
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0278,
+      "step": 6400
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.04,
+      "step": 6450
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0146,
+      "step": 6500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.082850217819214,
+      "eval_runtime": 34130.627,
+      "eval_samples_per_second": 2.967,
+      "eval_steps_per_second": 0.742,
+      "step": 6500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0299,
+      "step": 6550
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0249,
+      "step": 6600
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0169,
+      "step": 6650
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0043,
+      "step": 6700
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0169,
+      "step": 6750
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0146,
+      "step": 6800
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0178,
+      "step": 6850
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.017,
+      "step": 6900
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0011,
+      "step": 6950
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.9961,
+      "step": 7000
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.0665175914764404,
+      "eval_runtime": 34103.0381,
+      "eval_samples_per_second": 2.97,
+      "eval_steps_per_second": 0.742,
+      "step": 7000
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0201,
+      "step": 7050
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0165,
+      "step": 7100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0071,
+      "step": 7150
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0038,
+      "step": 7200
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0074,
+      "step": 7250
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0009,
+      "step": 7300
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.9877,
+      "step": 7350
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.006,
+      "step": 7400
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.9915,
+      "step": 7450
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.993,
+      "step": 7500
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.0603718757629395,
+      "eval_runtime": 34086.5352,
+      "eval_samples_per_second": 2.971,
+      "eval_steps_per_second": 0.743,
+      "step": 7500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.9975,
+      "step": 7550
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.994,
+      "step": 7600
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.007,
+      "step": 7650
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0034,
+      "step": 7700
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0081,
+      "step": 7750
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 1.9855,
+      "step": 7800
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0026,
+      "step": 7850
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0002,
+      "loss": 2.0022,
+      "step": 7900
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 2.0013,
+      "step": 7950
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0002,
+      "loss": 2.0073,
+      "step": 8000
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.050844669342041,
+      "eval_runtime": 34104.8601,
+      "eval_samples_per_second": 2.969,
+      "eval_steps_per_second": 0.742,
+      "step": 8000
     }
   ],
   "max_steps": 10000,
   "num_train_epochs": 1,
+  "total_flos": 2.484742130335789e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc23f5cf300528a33ebc8b688eabafcfb40b0fb5049cbbda172a08cb5a27121f
-size 5755

 version https://git-lfs.github.com/spec/v1
+oid sha256:151c1e0a38693ccd36dfbee906fcda3901de363201e50826113290f62066924b
+size 5819