text generate

Browse files

Files changed (7) hide show

README.md +4 -4
all_results.json +12 -12
eval_results.json +7 -7
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +162 -114
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [rinna/japanese-gpt2-small](https://huggingface.co/rinna/japanese-gpt2-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3302
-- Accuracy: 0.9362
 ## Model description
@@ -37,8 +37,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 1
-- eval_batch_size: 1
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear

 This model is a fine-tuned version of [rinna/japanese-gpt2-small](https://huggingface.co/rinna/japanese-gpt2-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 3.4525
+- Accuracy: 0.4155
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.9362485952347703,
-    "eval_loss": 0.3302019238471985,
-    "eval_runtime": 21.3271,
-    "eval_samples": 441,
-    "eval_samples_per_second": 20.678,
-    "eval_steps_per_second": 20.678,
-    "perplexity": 1.3912490264586577,
-    "train_loss": 0.3641805998430505,
-    "train_runtime": 2786.6784,
-    "train_samples": 1773,
-    "train_samples_per_second": 6.362,
-    "train_steps_per_second": 6.362
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.4155386408089473,
+    "eval_loss": 3.452547311782837,
+    "eval_runtime": 124.7104,
+    "eval_samples": 1083,
+    "eval_samples_per_second": 8.684,
+    "eval_steps_per_second": 4.346,
+    "perplexity": 31.58073591590414,
+    "train_loss": 3.354035396443779,
+    "train_runtime": 7135.8784,
+    "train_samples": 4329,
+    "train_samples_per_second": 6.067,
+    "train_steps_per_second": 3.034
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 10.0,
-    "eval_accuracy": 0.9362485952347703,
-    "eval_loss": 0.3302019238471985,
-    "eval_runtime": 21.3271,
-    "eval_samples": 441,
-    "eval_samples_per_second": 20.678,
-    "eval_steps_per_second": 20.678,
-    "perplexity": 1.3912490264586577
 }

 {
     "epoch": 10.0,
+    "eval_accuracy": 0.4155386408089473,
+    "eval_loss": 3.452547311782837,
+    "eval_runtime": 124.7104,
+    "eval_samples": 1083,
+    "eval_samples_per_second": 8.684,
+    "eval_steps_per_second": 4.346,
+    "perplexity": 31.58073591590414
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b12699d10432545207f93f7160f4fadf575c69caa806787c2714cb3443a97bd
 size 454312509

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb43918a890497700b32e4ae8f70411be347cdbb363534172530ab5f8fbd6b2f
 size 454312509

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "train_loss": 0.3641805998430505,
-    "train_runtime": 2786.6784,
-    "train_samples": 1773,
-    "train_samples_per_second": 6.362,
-    "train_steps_per_second": 6.362
 }

 {
     "epoch": 10.0,
+    "train_loss": 3.354035396443779,
+    "train_runtime": 7135.8784,
+    "train_samples": 4329,
+    "train_samples_per_second": 6.067,
+    "train_steps_per_second": 3.034
 }

trainer_state.json CHANGED Viewed

@@ -2,234 +2,282 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 10.0,
-  "global_step": 17730,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.28,
-      "learning_rate": 4.8589960518894536e-05,
-      "loss": 1.5368,
       "step": 500
     },
     {
-      "epoch": 0.56,
-      "learning_rate": 4.717992103778906e-05,
-      "loss": 0.4168,
       "step": 1000
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 4.576988155668359e-05,
-      "loss": 0.3662,
       "step": 1500
     },
     {
-      "epoch": 1.13,
-      "learning_rate": 4.435984207557812e-05,
-      "loss": 0.3525,
       "step": 2000
     },
     {
-      "epoch": 1.41,
-      "learning_rate": 4.294980259447265e-05,
-      "loss": 0.346,
       "step": 2500
     },
     {
-      "epoch": 1.69,
-      "learning_rate": 4.153976311336718e-05,
-      "loss": 0.3425,
       "step": 3000
     },
     {
-      "epoch": 1.97,
-      "learning_rate": 4.0129723632261705e-05,
-      "loss": 0.3409,
       "step": 3500
     },
     {
-      "epoch": 2.26,
-      "learning_rate": 3.871968415115623e-05,
-      "loss": 0.3376,
       "step": 4000
     },
     {
-      "epoch": 2.54,
-      "learning_rate": 3.7309644670050766e-05,
-      "loss": 0.337,
       "step": 4500
     },
     {
-      "epoch": 2.82,
-      "learning_rate": 3.589960518894529e-05,
-      "loss": 0.335,
       "step": 5000
     },
     {
-      "epoch": 3.1,
-      "learning_rate": 3.448956570783982e-05,
-      "loss": 0.333,
       "step": 5500
     },
     {
-      "epoch": 3.38,
-      "learning_rate": 3.307952622673435e-05,
-      "loss": 0.3315,
       "step": 6000
     },
     {
-      "epoch": 3.67,
-      "learning_rate": 3.166948674562888e-05,
-      "loss": 0.3303,
       "step": 6500
     },
     {
-      "epoch": 3.95,
-      "learning_rate": 3.025944726452341e-05,
-      "loss": 0.3319,
       "step": 7000
     },
     {
-      "epoch": 4.23,
-      "learning_rate": 2.8849407783417938e-05,
-      "loss": 0.3283,
       "step": 7500
     },
     {
-      "epoch": 4.51,
-      "learning_rate": 2.743936830231247e-05,
-      "loss": 0.3291,
       "step": 8000
     },
     {
-      "epoch": 4.79,
-      "learning_rate": 2.6029328821206996e-05,
-      "loss": 0.3271,
       "step": 8500
     },
     {
-      "epoch": 5.08,
-      "learning_rate": 2.4619289340101523e-05,
-      "loss": 0.3276,
       "step": 9000
     },
     {
-      "epoch": 5.36,
-      "learning_rate": 2.3209249858996053e-05,
-      "loss": 0.3251,
       "step": 9500
     },
     {
-      "epoch": 5.64,
-      "learning_rate": 2.1799210377890583e-05,
-      "loss": 0.325,
       "step": 10000
     },
     {
-      "epoch": 5.92,
-      "learning_rate": 2.038917089678511e-05,
-      "loss": 0.3249,
       "step": 10500
     },
     {
-      "epoch": 6.2,
-      "learning_rate": 1.897913141567964e-05,
-      "loss": 0.3217,
       "step": 11000
     },
     {
-      "epoch": 6.49,
-      "learning_rate": 1.7569091934574168e-05,
-      "loss": 0.3221,
       "step": 11500
     },
     {
-      "epoch": 6.77,
-      "learning_rate": 1.6159052453468698e-05,
-      "loss": 0.3223,
       "step": 12000
     },
     {
-      "epoch": 7.05,
-      "learning_rate": 1.4749012972363227e-05,
-      "loss": 0.3199,
       "step": 12500
     },
     {
-      "epoch": 7.33,
-      "learning_rate": 1.3338973491257756e-05,
-      "loss": 0.3197,
       "step": 13000
     },
     {
-      "epoch": 7.61,
-      "learning_rate": 1.1928934010152284e-05,
-      "loss": 0.319,
       "step": 13500
     },
     {
-      "epoch": 7.9,
-      "learning_rate": 1.0518894529046813e-05,
-      "loss": 0.3172,
       "step": 14000
     },
     {
-      "epoch": 8.18,
-      "learning_rate": 9.108855047941344e-06,
-      "loss": 0.3173,
       "step": 14500
     },
     {
-      "epoch": 8.46,
-      "learning_rate": 7.698815566835872e-06,
-      "loss": 0.315,
       "step": 15000
     },
     {
-      "epoch": 8.74,
-      "learning_rate": 6.288776085730401e-06,
-      "loss": 0.3169,
       "step": 15500
     },
     {
-      "epoch": 9.02,
-      "learning_rate": 4.87873660462493e-06,
-      "loss": 0.315,
       "step": 16000
     },
     {
-      "epoch": 9.31,
-      "learning_rate": 3.4686971235194584e-06,
-      "loss": 0.3123,
       "step": 16500
     },
     {
-      "epoch": 9.59,
-      "learning_rate": 2.0586576424139875e-06,
-      "loss": 0.3138,
       "step": 17000
     },
     {
-      "epoch": 9.87,
-      "learning_rate": 6.486181613085167e-07,
-      "loss": 0.3122,
       "step": 17500
     },
     {
       "epoch": 10.0,
-      "step": 17730,
-      "total_flos": 9265415454720000.0,
-      "train_loss": 0.3641805998430505,
-      "train_runtime": 2786.6784,
-      "train_samples_per_second": 6.362,
-      "train_steps_per_second": 6.362
     }
   ],
-  "max_steps": 17730,
   "num_train_epochs": 10,
-  "total_flos": 9265415454720000.0,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 10.0,
+  "global_step": 21650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.23,
+      "learning_rate": 4.884526558891455e-05,
+      "loss": 4.2127,
       "step": 500
     },
     {
+      "epoch": 0.46,
+      "learning_rate": 4.7690531177829104e-05,
+      "loss": 3.9681,
       "step": 1000
     },
     {
+      "epoch": 0.69,
+      "learning_rate": 4.653579676674365e-05,
+      "loss": 3.8763,
       "step": 1500
     },
     {
+      "epoch": 0.92,
+      "learning_rate": 4.53810623556582e-05,
+      "loss": 3.8201,
       "step": 2000
     },
     {
+      "epoch": 1.15,
+      "learning_rate": 4.422632794457275e-05,
+      "loss": 3.7144,
       "step": 2500
     },
     {
+      "epoch": 1.39,
+      "learning_rate": 4.30715935334873e-05,
+      "loss": 3.6592,
       "step": 3000
     },
     {
+      "epoch": 1.62,
+      "learning_rate": 4.1916859122401844e-05,
+      "loss": 3.6401,
       "step": 3500
     },
     {
+      "epoch": 1.85,
+      "learning_rate": 4.07621247113164e-05,
+      "loss": 3.6187,
       "step": 4000
     },
     {
+      "epoch": 2.08,
+      "learning_rate": 3.960739030023095e-05,
+      "loss": 3.5668,
       "step": 4500
     },
     {
+      "epoch": 2.31,
+      "learning_rate": 3.84526558891455e-05,
+      "loss": 3.5025,
       "step": 5000
     },
     {
+      "epoch": 2.54,
+      "learning_rate": 3.729792147806005e-05,
+      "loss": 3.4936,
       "step": 5500
     },
     {
+      "epoch": 2.77,
+      "learning_rate": 3.61431870669746e-05,
+      "loss": 3.484,
       "step": 6000
     },
     {
+      "epoch": 3.0,
+      "learning_rate": 3.498845265588915e-05,
+      "loss": 3.4812,
       "step": 6500
     },
     {
+      "epoch": 3.23,
+      "learning_rate": 3.38337182448037e-05,
+      "loss": 3.3856,
       "step": 7000
     },
     {
+      "epoch": 3.46,
+      "learning_rate": 3.2678983833718243e-05,
+      "loss": 3.3908,
       "step": 7500
     },
     {
+      "epoch": 3.7,
+      "learning_rate": 3.1524249422632794e-05,
+      "loss": 3.387,
       "step": 8000
     },
     {
+      "epoch": 3.93,
+      "learning_rate": 3.0369515011547345e-05,
+      "loss": 3.3845,
       "step": 8500
     },
     {
+      "epoch": 4.16,
+      "learning_rate": 2.9214780600461896e-05,
+      "loss": 3.3198,
       "step": 9000
     },
     {
+      "epoch": 4.39,
+      "learning_rate": 2.8060046189376443e-05,
+      "loss": 3.3053,
       "step": 9500
     },
     {
+      "epoch": 4.62,
+      "learning_rate": 2.6905311778290994e-05,
+      "loss": 3.3024,
       "step": 10000
     },
     {
+      "epoch": 4.85,
+      "learning_rate": 2.575057736720554e-05,
+      "loss": 3.3116,
       "step": 10500
     },
     {
+      "epoch": 5.08,
+      "learning_rate": 2.4595842956120095e-05,
+      "loss": 3.2744,
       "step": 11000
     },
     {
+      "epoch": 5.31,
+      "learning_rate": 2.3441108545034643e-05,
+      "loss": 3.2322,
       "step": 11500
     },
     {
+      "epoch": 5.54,
+      "learning_rate": 2.2286374133949193e-05,
+      "loss": 3.2407,
       "step": 12000
     },
     {
+      "epoch": 5.77,
+      "learning_rate": 2.113163972286374e-05,
+      "loss": 3.242,
       "step": 12500
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 1.997690531177829e-05,
+      "loss": 3.2379,
       "step": 13000
     },
     {
+      "epoch": 6.24,
+      "learning_rate": 1.8822170900692842e-05,
+      "loss": 3.1766,
       "step": 13500
     },
     {
+      "epoch": 6.47,
+      "learning_rate": 1.7667436489607393e-05,
+      "loss": 3.1793,
       "step": 14000
     },
     {
+      "epoch": 6.7,
+      "learning_rate": 1.651270207852194e-05,
+      "loss": 3.1928,
       "step": 14500
     },
     {
+      "epoch": 6.93,
+      "learning_rate": 1.535796766743649e-05,
+      "loss": 3.1859,
       "step": 15000
     },
     {
+      "epoch": 7.16,
+      "learning_rate": 1.420323325635104e-05,
+      "loss": 3.156,
       "step": 15500
     },
     {
+      "epoch": 7.39,
+      "learning_rate": 1.304849884526559e-05,
+      "loss": 3.1379,
       "step": 16000
     },
     {
+      "epoch": 7.62,
+      "learning_rate": 1.189376443418014e-05,
+      "loss": 3.1447,
       "step": 16500
     },
     {
+      "epoch": 7.85,
+      "learning_rate": 1.0739030023094689e-05,
+      "loss": 3.1469,
       "step": 17000
     },
     {
+      "epoch": 8.08,
+      "learning_rate": 9.584295612009238e-06,
+      "loss": 3.1291,
       "step": 17500
     },
+    {
+      "epoch": 8.31,
+      "learning_rate": 8.429561200923789e-06,
+      "loss": 3.1071,
+      "step": 18000
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 7.274826789838338e-06,
+      "loss": 3.1128,
+      "step": 18500
+    },
+    {
+      "epoch": 8.78,
+      "learning_rate": 6.120092378752887e-06,
+      "loss": 3.1132,
+      "step": 19000
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 4.965357967667437e-06,
+      "loss": 3.1141,
+      "step": 19500
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 3.810623556581986e-06,
+      "loss": 3.0843,
+      "step": 20000
+    },
+    {
+      "epoch": 9.47,
+      "learning_rate": 2.655889145496536e-06,
+      "loss": 3.0897,
+      "step": 20500
+    },
+    {
+      "epoch": 9.7,
+      "learning_rate": 1.5011547344110855e-06,
+      "loss": 3.0902,
+      "step": 21000
+    },
+    {
+      "epoch": 9.93,
+      "learning_rate": 3.4642032332563515e-07,
+      "loss": 3.0911,
+      "step": 21500
+    },
     {
       "epoch": 10.0,
+      "step": 21650,
+      "total_flos": 2.262266413056e+16,
+      "train_loss": 3.354035396443779,
+      "train_runtime": 7135.8784,
+      "train_samples_per_second": 6.067,
+      "train_steps_per_second": 3.034
     }
   ],
+  "max_steps": 21650,
   "num_train_epochs": 10,
+  "total_flos": 2.262266413056e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a01935ab011ea12717770c4c9b1fe2935341b4f35f98a60d4a3c0919f0307750
 size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd56fb655a723b6fa828c8b9b0007079e678b3737e7b5bb85814f54fd349df06
 size 3387