Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

README.md +5 -5
all_results.json +12 -12
eval_results.json +7 -7
pytorch_model.bin +1 -1
train_results.json +6 -6
trainer_state.json +40 -754
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [./core2/](https://huggingface.co/./core2/) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.5534
-- Accuracy: 0.4330
 ## Model description
@@ -40,10 +40,10 @@ The following hyperparameters were used during training:
 - train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
-- lr_scheduler_type: linear
 - num_epochs: 1.0
 ### Training results

 This model is a fine-tuned version of [./core2/](https://huggingface.co/./core2/) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.2227
+- Accuracy: 0.4777
 ## Model description
 - train_batch_size: 1
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 512
+- total_train_batch_size: 512
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
 - num_epochs: 1.0
 ### Training results

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.43297187933346976,
-    "eval_loss": 2.553417444229126,
-    "eval_runtime": 1.7282,
     "eval_samples": 129,
-    "eval_samples_per_second": 74.646,
-    "eval_steps_per_second": 9.837,
-    "perplexity": 12.850946217445413,
-    "train_loss": 3.3343640817306177,
-    "train_runtime": 1458.5581,
-    "train_samples": 51585,
-    "train_samples_per_second": 35.367,
-    "train_steps_per_second": 4.421
 }

 {
+    "epoch": 0.9,
+    "eval_accuracy": 0.4777027590230891,
+    "eval_loss": 2.222717761993408,
+    "eval_runtime": 1.797,
     "eval_samples": 129,
+    "eval_samples_per_second": 71.786,
+    "eval_steps_per_second": 9.46,
+    "perplexity": 9.2323882343288,
+    "train_loss": 2.689473125669691,
+    "train_runtime": 118.9327,
+    "train_samples": 5117,
+    "train_samples_per_second": 43.024,
+    "train_steps_per_second": 0.076
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.43297187933346976,
-    "eval_loss": 2.553417444229126,
-    "eval_runtime": 1.7282,
     "eval_samples": 129,
-    "eval_samples_per_second": 74.646,
-    "eval_steps_per_second": 9.837,
-    "perplexity": 12.850946217445413
 }

 {
+    "epoch": 0.9,
+    "eval_accuracy": 0.4777027590230891,
+    "eval_loss": 2.222717761993408,
+    "eval_runtime": 1.797,
     "eval_samples": 129,
+    "eval_samples_per_second": 71.786,
+    "eval_steps_per_second": 9.46,
+    "perplexity": 9.2323882343288
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dd324b6cf685a7b5f40c8fbea96175df25641cafbbe0135d2c0bd3da3ac73e3
 size 929067029

 version https://git-lfs.github.com/spec/v1
+oid sha256:57f122b3164f3ec83b608251f67e4b6d4771c756f4fc5a1e7b9481acfbd9921e
 size 929067029

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 3.3343640817306177,
-    "train_runtime": 1458.5581,
-    "train_samples": 51585,
-    "train_samples_per_second": 35.367,
-    "train_steps_per_second": 4.421
 }

 {
+    "epoch": 0.9,
+    "train_loss": 2.689473125669691,
+    "train_runtime": 118.9327,
+    "train_samples": 5117,
+    "train_samples_per_second": 43.024,
+    "train_steps_per_second": 0.076
 }

trainer_state.json CHANGED Viewed

@@ -1,796 +1,82 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9999806145197248,
   "eval_steps": 500,
-  "global_step": 6448,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 0.0009922456575682382,
-      "loss": 4.0749,
-      "step": 50
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.0009844913151364765,
-      "loss": 3.9181,
-      "step": 100
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.0009767369727047147,
-      "loss": 3.8669,
-      "step": 150
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.0009689826302729528,
-      "loss": 3.8069,
-      "step": 200
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.000961228287841191,
-      "loss": 3.7749,
-      "step": 250
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0009534739454094294,
-      "loss": 3.7757,
-      "step": 300
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.0009457196029776675,
-      "loss": 3.7511,
-      "step": 350
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.0009379652605459057,
-      "loss": 3.684,
-      "step": 400
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.000930210918114144,
-      "loss": 3.6771,
-      "step": 450
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.0009224565756823822,
-      "loss": 3.6402,
-      "step": 500
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0009147022332506204,
-      "loss": 3.6889,
-      "step": 550
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.0009069478908188585,
-      "loss": 3.6868,
-      "step": 600
-    },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0008991935483870968,
-      "loss": 3.6779,
-      "step": 650
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.000891439205955335,
-      "loss": 3.6314,
-      "step": 700
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.0008836848635235732,
-      "loss": 3.6376,
-      "step": 750
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.0008759305210918114,
-      "loss": 3.6291,
-      "step": 800
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.0008681761786600497,
-      "loss": 3.629,
-      "step": 850
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.0008604218362282879,
-      "loss": 3.5972,
-      "step": 900
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.0008526674937965261,
-      "loss": 3.6299,
-      "step": 950
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0008449131513647643,
-      "loss": 3.551,
-      "step": 1000
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0008371588089330025,
-      "loss": 3.5943,
-      "step": 1050
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0008294044665012407,
-      "loss": 3.5458,
-      "step": 1100
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.0008216501240694789,
-      "loss": 3.581,
-      "step": 1150
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.0008138957816377171,
-      "loss": 3.542,
-      "step": 1200
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.0008061414392059554,
-      "loss": 3.5666,
-      "step": 1250
     },
     {
       "epoch": 0.2,
-      "learning_rate": 0.0007983870967741935,
-      "loss": 3.5265,
-      "step": 1300
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.0007906327543424317,
-      "loss": 3.5315,
-      "step": 1350
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.00078287841191067,
-      "loss": 3.4934,
-      "step": 1400
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0007751240694789083,
-      "loss": 3.5086,
-      "step": 1450
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.0007673697270471465,
-      "loss": 3.5028,
-      "step": 1500
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0007596153846153846,
-      "loss": 3.4822,
-      "step": 1550
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.0007518610421836228,
-      "loss": 3.4943,
-      "step": 1600
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.0007441066997518611,
-      "loss": 3.5014,
-      "step": 1650
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.0007363523573200993,
-      "loss": 3.4705,
-      "step": 1700
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0007285980148883374,
-      "loss": 3.4899,
-      "step": 1750
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.0007208436724565756,
-      "loss": 3.4403,
-      "step": 1800
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0007130893300248139,
-      "loss": 3.4123,
-      "step": 1850
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.0007053349875930521,
-      "loss": 3.4231,
-      "step": 1900
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0006975806451612903,
-      "loss": 3.3957,
-      "step": 1950
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.0006898263027295286,
-      "loss": 3.3722,
-      "step": 2000
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.0006820719602977668,
-      "loss": 3.4255,
-      "step": 2050
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.000674317617866005,
-      "loss": 3.4004,
-      "step": 2100
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.0006665632754342432,
-      "loss": 3.3749,
-      "step": 2150
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.0006588089330024815,
-      "loss": 3.3498,
-      "step": 2200
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.0006510545905707196,
-      "loss": 3.4563,
-      "step": 2250
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0006433002481389578,
-      "loss": 3.392,
-      "step": 2300
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.000635545905707196,
-      "loss": 3.3686,
-      "step": 2350
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.0006277915632754343,
-      "loss": 3.3739,
-      "step": 2400
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.0006200372208436724,
-      "loss": 3.3357,
-      "step": 2450
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0006122828784119106,
-      "loss": 3.3859,
-      "step": 2500
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0006045285359801489,
-      "loss": 3.3605,
-      "step": 2550
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.0005967741935483872,
-      "loss": 3.361,
-      "step": 2600
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.0005890198511166254,
-      "loss": 3.3729,
-      "step": 2650
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.0005812655086848635,
-      "loss": 3.3592,
-      "step": 2700
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.0005735111662531017,
-      "loss": 3.3576,
-      "step": 2750
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.00056575682382134,
-      "loss": 3.3464,
-      "step": 2800
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.0005580024813895782,
-      "loss": 3.3225,
-      "step": 2850
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.0005502481389578163,
-      "loss": 3.3228,
-      "step": 2900
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.0005424937965260545,
-      "loss": 3.3369,
-      "step": 2950
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.0005347394540942928,
-      "loss": 3.2912,
-      "step": 3000
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.000526985111662531,
-      "loss": 3.2722,
-      "step": 3050
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.0005192307692307693,
-      "loss": 3.2878,
-      "step": 3100
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.0005114764267990075,
-      "loss": 3.2558,
-      "step": 3150
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.0005037220843672457,
-      "loss": 3.3018,
-      "step": 3200
     },
     {
       "epoch": 0.5,
-      "learning_rate": 0.0004959677419354839,
-      "loss": 3.2785,
-      "step": 3250
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00048821339950372213,
-      "loss": 3.2249,
-      "step": 3300
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.0004804590570719603,
-      "loss": 3.2703,
-      "step": 3350
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.00047270471464019853,
-      "loss": 3.2871,
-      "step": 3400
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.0004649503722084367,
-      "loss": 3.2357,
-      "step": 3450
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.000457196029776675,
-      "loss": 3.2428,
-      "step": 3500
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 0.00044944168734491316,
-      "loss": 3.2125,
-      "step": 3550
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.0004416873449131514,
-      "loss": 3.2338,
-      "step": 3600
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00043393300248138956,
-      "loss": 3.288,
-      "step": 3650
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.0004261786600496278,
-      "loss": 3.2564,
-      "step": 3700
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.000418424317617866,
-      "loss": 3.1859,
-      "step": 3750
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00041066997518610424,
-      "loss": 3.2368,
-      "step": 3800
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.00040291563275434247,
-      "loss": 3.2368,
-      "step": 3850
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00039516129032258064,
-      "loss": 3.1754,
-      "step": 3900
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 0.00038740694789081887,
-      "loss": 3.2392,
-      "step": 3950
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.00037965260545905704,
-      "loss": 3.2382,
-      "step": 4000
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.00037189826302729527,
-      "loss": 3.2545,
-      "step": 4050
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.00036414392059553355,
-      "loss": 3.1993,
-      "step": 4100
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.0003563895781637717,
-      "loss": 3.1565,
-      "step": 4150
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.00034863523573200995,
-      "loss": 3.2112,
-      "step": 4200
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.0003408808933002481,
-      "loss": 3.1617,
-      "step": 4250
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.00033312655086848635,
-      "loss": 3.1602,
-      "step": 4300
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.0003253722084367246,
-      "loss": 3.1477,
-      "step": 4350
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.0003176178660049628,
-      "loss": 3.1583,
-      "step": 4400
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.00030986352357320103,
-      "loss": 3.207,
-      "step": 4450
     },
     {
       "epoch": 0.7,
-      "learning_rate": 0.0003021091811414392,
-      "loss": 3.1408,
-      "step": 4500
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.00029435483870967743,
-      "loss": 3.0965,
-      "step": 4550
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.0002866004962779156,
-      "loss": 3.154,
-      "step": 4600
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0002788461538461539,
-      "loss": 3.1413,
-      "step": 4650
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.00027109181141439205,
-      "loss": 3.1373,
-      "step": 4700
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0002633374689826303,
-      "loss": 3.1198,
-      "step": 4750
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.0002555831265508685,
-      "loss": 3.1047,
-      "step": 4800
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0002478287841191067,
-      "loss": 3.1728,
-      "step": 4850
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0002400744416873449,
-      "loss": 3.1262,
-      "step": 4900
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.00023232009925558313,
-      "loss": 3.1111,
-      "step": 4950
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.00022456575682382136,
-      "loss": 3.1426,
-      "step": 5000
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.00021681141439205956,
-      "loss": 3.1709,
-      "step": 5050
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.00020905707196029776,
-      "loss": 3.1666,
-      "step": 5100
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.000201302729528536,
-      "loss": 3.0971,
-      "step": 5150
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.0001935483870967742,
-      "loss": 3.1585,
-      "step": 5200
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.00018579404466501241,
-      "loss": 3.0784,
-      "step": 5250
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.00017803970223325061,
-      "loss": 3.1064,
-      "step": 5300
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.00017028535980148884,
-      "loss": 3.1601,
-      "step": 5350
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.00016253101736972707,
-      "loss": 3.1306,
-      "step": 5400
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.00015477667493796527,
-      "loss": 3.1461,
-      "step": 5450
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.00014702233250620347,
-      "loss": 3.1139,
-      "step": 5500
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0001392679900744417,
-      "loss": 3.0884,
-      "step": 5550
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0001315136476426799,
-      "loss": 3.1221,
-      "step": 5600
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.00012375930521091812,
-      "loss": 3.0781,
-      "step": 5650
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.00011600496277915632,
-      "loss": 3.156,
-      "step": 5700
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.00010825062034739454,
-      "loss": 3.1047,
-      "step": 5750
     },
     {
       "epoch": 0.9,
-      "learning_rate": 0.00010049627791563276,
-      "loss": 3.1811,
-      "step": 5800
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 9.274193548387098e-05,
-      "loss": 3.1423,
-      "step": 5850
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 8.498759305210918e-05,
-      "loss": 3.1057,
-      "step": 5900
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 7.723325062034739e-05,
-      "loss": 3.0984,
-      "step": 5950
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 6.947890818858562e-05,
-      "loss": 3.1098,
-      "step": 6000
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 6.172456575682382e-05,
-      "loss": 3.1232,
-      "step": 6050
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 5.3970223325062036e-05,
-      "loss": 3.129,
-      "step": 6100
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 4.621588089330025e-05,
-      "loss": 3.1156,
-      "step": 6150
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 3.846153846153846e-05,
-      "loss": 3.1295,
-      "step": 6200
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 3.0707196029776676e-05,
-      "loss": 3.0784,
-      "step": 6250
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 2.295285359801489e-05,
-      "loss": 3.1048,
-      "step": 6300
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 1.5198511166253101e-05,
-      "loss": 3.1145,
-      "step": 6350
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 7.444168734491316e-06,
-      "loss": 3.185,
-      "step": 6400
-    },
-    {
-      "epoch": 1.0,
-      "step": 6448,
-      "total_flos": 1.0568400432109978e+17,
-      "train_loss": 3.3343640817306177,
-      "train_runtime": 1458.5581,
-      "train_samples_per_second": 35.367,
-      "train_steps_per_second": 4.421
     }
   ],
-  "logging_steps": 50,
-  "max_steps": 6448,
   "num_train_epochs": 1,
-  "save_steps": -6448,
-  "total_flos": 1.0568400432109978e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9005276529216337,
   "eval_steps": 500,
+  "global_step": 9,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.1,
+      "learning_rate": 0.001,
+      "loss": 2.3313,
+      "step": 1
     },
     {
       "epoch": 0.2,
+      "learning_rate": 0.001,
+      "loss": 3.851,
+      "step": 2
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.001,
+      "loss": 3.2287,
+      "step": 3
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.001,
+      "loss": 2.7855,
+      "step": 4
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.001,
+      "loss": 2.6085,
+      "step": 5
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.001,
+      "loss": 2.4226,
+      "step": 6
     },
     {
       "epoch": 0.7,
+      "learning_rate": 0.001,
+      "loss": 2.3728,
+      "step": 7
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.001,
+      "loss": 2.3366,
+      "step": 8
     },
     {
       "epoch": 0.9,
+      "learning_rate": 0.001,
+      "loss": 2.2684,
+      "step": 9
     },
     {
+      "epoch": 0.9,
+      "step": 9,
+      "total_flos": 9440754728435712.0,
+      "train_loss": 2.689473125669691,
+      "train_runtime": 118.9327,
+      "train_samples_per_second": 43.024,
+      "train_steps_per_second": 0.076
     }
   ],
+  "logging_steps": 1.0,
+  "max_steps": 9,
   "num_train_epochs": 1,
+  "save_steps": -9,
+  "total_flos": 9440754728435712.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:164c4b37b97a054742e9ab666c8f07d9e7fda1d553be739f57042a8801d6d49b
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:b86cd19e50153cca84ec432ffe3a736db67de735000a21e789fbd7059d3ac7d6
 size 4027