20

Browse files

Files changed (8) hide show

README.md +4 -4
all_results.json +12 -12
eval_results.json +7 -7
pytorch_model.bin +1 -1
tokenizer_config.json +1 -2
train_results.json +5 -5
trainer_state.json +144 -84
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,8 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [rinna/japanese-gpt2-small](https://huggingface.co/rinna/japanese-gpt2-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 4.5630
-- Accuracy: 0.5320
 ## Model description
@@ -37,8 +37,8 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
-- train_batch_size: 1
-- eval_batch_size: 1
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear

 This model is a fine-tuned version of [rinna/japanese-gpt2-small](https://huggingface.co/rinna/japanese-gpt2-small) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 4.1254
+- Accuracy: 0.5704
 ## Model description
 The following hyperparameters were used during training:
 - learning_rate: 5e-05
+- train_batch_size: 2
+- eval_batch_size: 2
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
     "epoch": 100.0,
-    "eval_accuracy": 0.531983137829912,
-    "eval_loss": 4.562988758087158,
-    "eval_runtime": 1.506,
-    "eval_samples": 32,
-    "eval_samples_per_second": 21.249,
-    "eval_steps_per_second": 21.249,
-    "perplexity": 95.86958306210914,
-    "train_loss": 0.4174059252133445,
-    "train_runtime": 1920.7593,
-    "train_samples": 126,
-    "train_samples_per_second": 6.56,
-    "train_steps_per_second": 6.56
 }

 {
     "epoch": 100.0,
+    "eval_accuracy": 0.5704086900172438,
+    "eval_loss": 4.125412940979004,
+    "eval_runtime": 4.3796,
+    "eval_samples": 89,
+    "eval_samples_per_second": 20.321,
+    "eval_steps_per_second": 10.275,
+    "perplexity": 61.89336227967192,
+    "train_loss": 0.605967927964706,
+    "train_runtime": 4572.1542,
+    "train_samples": 357,
+    "train_samples_per_second": 7.808,
+    "train_steps_per_second": 3.915
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 100.0,
-    "eval_accuracy": 0.531983137829912,
-    "eval_loss": 4.562988758087158,
-    "eval_runtime": 1.506,
-    "eval_samples": 32,
-    "eval_samples_per_second": 21.249,
-    "eval_steps_per_second": 21.249,
-    "perplexity": 95.86958306210914
 }

 {
     "epoch": 100.0,
+    "eval_accuracy": 0.5704086900172438,
+    "eval_loss": 4.125412940979004,
+    "eval_runtime": 4.3796,
+    "eval_samples": 89,
+    "eval_samples_per_second": 20.321,
+    "eval_steps_per_second": 10.275,
+    "perplexity": 61.89336227967192
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb42704c5960fbfa8a3998f2850cfbfa22257aaca3595bbf070714b4c5901e22
 size 454312509

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b1ecfdfe8f31a00765cae3c0c1dbebc82db67f6db00a2323b5c37dafd213617
 size 454312509

tokenizer_config.json CHANGED Viewed

@@ -13,6 +13,5 @@
   "sp_model_kwargs": {},
   "special_tokens_map_file": "C:\\Users\\Nakasone Natsuki/.cache\\huggingface\\hub\\models--rinna--japanese-gpt2-small\\snapshots\\d35a68cf1fea74b71708ce898b351471b5c698ce\\special_tokens_map.json",
   "tokenizer_class": "T5Tokenizer",
-  "unk_token": "<unk>",
-  "use_fast": false
 }

   "sp_model_kwargs": {},
   "special_tokens_map_file": "C:\\Users\\Nakasone Natsuki/.cache\\huggingface\\hub\\models--rinna--japanese-gpt2-small\\snapshots\\d35a68cf1fea74b71708ce898b351471b5c698ce\\special_tokens_map.json",
   "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 100.0,
-    "train_loss": 0.4174059252133445,
-    "train_runtime": 1920.7593,
-    "train_samples": 126,
-    "train_samples_per_second": 6.56,
-    "train_steps_per_second": 6.56
 }

 {
     "epoch": 100.0,
+    "train_loss": 0.605967927964706,
+    "train_runtime": 4572.1542,
+    "train_samples": 357,
+    "train_samples_per_second": 7.808,
+    "train_steps_per_second": 3.915
 }

trainer_state.json CHANGED Viewed

@@ -2,174 +2,234 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 100.0,
-  "global_step": 12600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 3.97,
-      "learning_rate": 4.801587301587302e-05,
-      "loss": 3.3806,
       "step": 500
     },
     {
-      "epoch": 7.94,
-      "learning_rate": 4.603174603174603e-05,
-      "loss": 2.0351,
       "step": 1000
     },
     {
-      "epoch": 11.9,
-      "learning_rate": 4.404761904761905e-05,
-      "loss": 1.3335,
       "step": 1500
     },
     {
-      "epoch": 15.87,
-      "learning_rate": 4.2063492063492065e-05,
-      "loss": 0.9008,
       "step": 2000
     },
     {
-      "epoch": 19.84,
-      "learning_rate": 4.007936507936508e-05,
-      "loss": 0.641,
       "step": 2500
     },
     {
-      "epoch": 23.81,
-      "learning_rate": 3.809523809523809e-05,
-      "loss": 0.475,
       "step": 3000
     },
     {
-      "epoch": 27.78,
-      "learning_rate": 3.611111111111111e-05,
-      "loss": 0.3548,
       "step": 3500
     },
     {
-      "epoch": 31.75,
-      "learning_rate": 3.412698412698413e-05,
-      "loss": 0.2571,
       "step": 4000
     },
     {
-      "epoch": 35.71,
-      "learning_rate": 3.2142857142857144e-05,
-      "loss": 0.1845,
       "step": 4500
     },
     {
-      "epoch": 39.68,
-      "learning_rate": 3.0158730158730158e-05,
-      "loss": 0.1332,
       "step": 5000
     },
     {
-      "epoch": 43.65,
-      "learning_rate": 2.8174603174603175e-05,
-      "loss": 0.1001,
       "step": 5500
     },
     {
-      "epoch": 47.62,
-      "learning_rate": 2.6190476190476192e-05,
-      "loss": 0.0823,
       "step": 6000
     },
     {
-      "epoch": 51.59,
-      "learning_rate": 2.4206349206349206e-05,
-      "loss": 0.0696,
       "step": 6500
     },
     {
-      "epoch": 55.56,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.0626,
       "step": 7000
     },
     {
-      "epoch": 59.52,
-      "learning_rate": 2.023809523809524e-05,
-      "loss": 0.0564,
       "step": 7500
     },
     {
-      "epoch": 63.49,
-      "learning_rate": 1.8253968253968254e-05,
-      "loss": 0.0532,
       "step": 8000
     },
     {
-      "epoch": 67.46,
-      "learning_rate": 1.626984126984127e-05,
-      "loss": 0.0495,
       "step": 8500
     },
     {
-      "epoch": 71.43,
-      "learning_rate": 1.4285714285714285e-05,
-      "loss": 0.048,
       "step": 9000
     },
     {
-      "epoch": 75.4,
-      "learning_rate": 1.2301587301587301e-05,
-      "loss": 0.0454,
       "step": 9500
     },
     {
-      "epoch": 79.37,
-      "learning_rate": 1.0317460317460318e-05,
-      "loss": 0.0438,
       "step": 10000
     },
     {
-      "epoch": 83.33,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.0427,
       "step": 10500
     },
     {
-      "epoch": 87.3,
-      "learning_rate": 6.349206349206349e-06,
-      "loss": 0.041,
       "step": 11000
     },
     {
-      "epoch": 91.27,
-      "learning_rate": 4.365079365079365e-06,
-      "loss": 0.0409,
       "step": 11500
     },
     {
-      "epoch": 95.24,
-      "learning_rate": 2.3809523809523808e-06,
-      "loss": 0.0401,
       "step": 12000
     },
     {
-      "epoch": 99.21,
-      "learning_rate": 3.9682539682539683e-07,
-      "loss": 0.0395,
       "step": 12500
     },
     {
       "epoch": 100.0,
-      "step": 12600,
-      "total_flos": 6584559206400000.0,
-      "train_loss": 0.4174059252133445,
-      "train_runtime": 1920.7593,
-      "train_samples_per_second": 6.56,
-      "train_steps_per_second": 6.56
     }
   ],
-  "max_steps": 12600,
   "num_train_epochs": 100,
-  "total_flos": 6584559206400000.0,
   "trial_name": null,
   "trial_params": null
 }

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 100.0,
+  "global_step": 17900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 2.79,
+      "learning_rate": 4.860335195530727e-05,
+      "loss": 3.59,
       "step": 500
     },
     {
+      "epoch": 5.59,
+      "learning_rate": 4.7206703910614525e-05,
+      "loss": 2.6596,
       "step": 1000
     },
     {
+      "epoch": 8.38,
+      "learning_rate": 4.581005586592179e-05,
+      "loss": 2.1604,
       "step": 1500
     },
     {
+      "epoch": 11.17,
+      "learning_rate": 4.4413407821229054e-05,
+      "loss": 1.7776,
       "step": 2000
     },
     {
+      "epoch": 13.97,
+      "learning_rate": 4.301675977653631e-05,
+      "loss": 1.4733,
       "step": 2500
     },
     {
+      "epoch": 16.76,
+      "learning_rate": 4.1620111731843576e-05,
+      "loss": 1.2269,
       "step": 3000
     },
     {
+      "epoch": 19.55,
+      "learning_rate": 4.022346368715084e-05,
+      "loss": 1.0393,
       "step": 3500
     },
     {
+      "epoch": 22.35,
+      "learning_rate": 3.8826815642458106e-05,
+      "loss": 0.8902,
       "step": 4000
     },
     {
+      "epoch": 25.14,
+      "learning_rate": 3.743016759776536e-05,
+      "loss": 0.7686,
       "step": 4500
     },
     {
+      "epoch": 27.93,
+      "learning_rate": 3.603351955307263e-05,
+      "loss": 0.6742,
       "step": 5000
     },
     {
+      "epoch": 30.73,
+      "learning_rate": 3.463687150837989e-05,
+      "loss": 0.5921,
       "step": 5500
     },
     {
+      "epoch": 33.52,
+      "learning_rate": 3.324022346368715e-05,
+      "loss": 0.528,
       "step": 6000
     },
     {
+      "epoch": 36.31,
+      "learning_rate": 3.1843575418994415e-05,
+      "loss": 0.4712,
       "step": 6500
     },
     {
+      "epoch": 39.11,
+      "learning_rate": 3.0446927374301676e-05,
+      "loss": 0.422,
       "step": 7000
     },
     {
+      "epoch": 41.9,
+      "learning_rate": 2.9050279329608944e-05,
+      "loss": 0.3746,
       "step": 7500
     },
     {
+      "epoch": 44.69,
+      "learning_rate": 2.7653631284916205e-05,
+      "loss": 0.3347,
       "step": 8000
     },
     {
+      "epoch": 47.49,
+      "learning_rate": 2.6256983240223466e-05,
+      "loss": 0.2979,
       "step": 8500
     },
     {
+      "epoch": 50.28,
+      "learning_rate": 2.4860335195530728e-05,
+      "loss": 0.2651,
       "step": 9000
     },
     {
+      "epoch": 53.07,
+      "learning_rate": 2.346368715083799e-05,
+      "loss": 0.2358,
       "step": 9500
     },
     {
+      "epoch": 55.87,
+      "learning_rate": 2.206703910614525e-05,
+      "loss": 0.2078,
       "step": 10000
     },
     {
+      "epoch": 58.66,
+      "learning_rate": 2.0670391061452515e-05,
+      "loss": 0.1848,
       "step": 10500
     },
     {
+      "epoch": 61.45,
+      "learning_rate": 1.9273743016759776e-05,
+      "loss": 0.1643,
       "step": 11000
     },
     {
+      "epoch": 64.25,
+      "learning_rate": 1.787709497206704e-05,
+      "loss": 0.148,
       "step": 11500
     },
     {
+      "epoch": 67.04,
+      "learning_rate": 1.64804469273743e-05,
+      "loss": 0.1332,
       "step": 12000
     },
     {
+      "epoch": 69.83,
+      "learning_rate": 1.5083798882681566e-05,
+      "loss": 0.1205,
       "step": 12500
     },
+    {
+      "epoch": 72.63,
+      "learning_rate": 1.3687150837988827e-05,
+      "loss": 0.1115,
+      "step": 13000
+    },
+    {
+      "epoch": 75.42,
+      "learning_rate": 1.229050279329609e-05,
+      "loss": 0.1037,
+      "step": 13500
+    },
+    {
+      "epoch": 78.21,
+      "learning_rate": 1.0893854748603351e-05,
+      "loss": 0.0977,
+      "step": 14000
+    },
+    {
+      "epoch": 81.01,
+      "learning_rate": 9.497206703910614e-06,
+      "loss": 0.0922,
+      "step": 14500
+    },
+    {
+      "epoch": 83.8,
+      "learning_rate": 8.100558659217877e-06,
+      "loss": 0.0879,
+      "step": 15000
+    },
+    {
+      "epoch": 86.59,
+      "learning_rate": 6.70391061452514e-06,
+      "loss": 0.0841,
+      "step": 15500
+    },
+    {
+      "epoch": 89.39,
+      "learning_rate": 5.307262569832402e-06,
+      "loss": 0.0823,
+      "step": 16000
+    },
+    {
+      "epoch": 92.18,
+      "learning_rate": 3.910614525139665e-06,
+      "loss": 0.0794,
+      "step": 16500
+    },
+    {
+      "epoch": 94.97,
+      "learning_rate": 2.5139664804469276e-06,
+      "loss": 0.078,
+      "step": 17000
+    },
+    {
+      "epoch": 97.77,
+      "learning_rate": 1.11731843575419e-06,
+      "loss": 0.0766,
+      "step": 17500
+    },
     {
       "epoch": 100.0,
+      "step": 17900,
+      "total_flos": 1.86562510848e+16,
+      "train_loss": 0.605967927964706,
+      "train_runtime": 4572.1542,
+      "train_samples_per_second": 7.808,
+      "train_steps_per_second": 3.915
     }
   ],
+  "max_steps": 17900,
   "num_train_epochs": 100,
+  "total_flos": 1.86562510848e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d7ac81ab65eb17c529d1cf5cf61b06a1389796c3e7231768beb7db1914446e0b
 size 3387

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b18bac2198d54aadd67e1c4bee82cba6dd7721c5f7865e4cbb060597ad10aef
 size 3387