End of training

Browse files

Files changed (7) hide show

README.md +23 -8
all_results.json +22 -22
eval_results.json +9 -9
generated_predictions.txt +0 -0
predict_results.json +9 -9
train_results.json +4 -4
trainer_state.json +61 -61

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -9,7 +11,20 @@ metrics:
 - rouge
 model-index:
 - name: liputan6-base
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -17,14 +32,14 @@ should probably proofread and complete it, then remove this comment. -->
 # liputan6-base
-This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5170
-- Rouge1: 38.108
-- Rouge2: 27.5573
-- Rougel: 34.7198
-- Rougelsum: 36.6919
-- Gen Len: 56.589
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 - rouge
 model-index:
 - name: liputan6-base
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: id_liputan6 canonical
+      type: id_liputan6
+      config: canonical
+      split: validation
+      args: canonical
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 40.3998
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # liputan6-base
+This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 canonical dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5539
+- Rouge1: 40.3998
+- Rouge2: 30.0512
+- Rougel: 37.1464
+- Rougelsum: 39.0852
+- Gen Len: 56.486
 ## Model description

all_results.json CHANGED Viewed

@@ -1,29 +1,29 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 35.116,
-    "eval_loss": 5.426603317260742,
-    "eval_rouge1": 18.1827,
-    "eval_rouge2": 5.5014,
-    "eval_rougeL": 15.5147,
-    "eval_rougeLsum": 16.9245,
-    "eval_runtime": 911.181,
     "eval_samples": 1000,
-    "eval_samples_per_second": 1.097,
-    "eval_steps_per_second": 0.035,
-    "predict_gen_len": 34.243,
-    "predict_loss": 4.6857404708862305,
-    "predict_rouge1": 21.8177,
-    "predict_rouge2": 7.8564,
-    "predict_rougeL": 18.4408,
-    "predict_rougeLsum": 20.3028,
-    "predict_runtime": 933.246,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.072,
-    "predict_steps_per_second": 0.034,
     "total_flos": 3423786762240000.0,
-    "train_loss": 1.6593605313982283,
-    "train_runtime": 1412.1276,
     "train_samples": 1000,
-    "train_samples_per_second": 3.541,
-    "train_steps_per_second": 0.223
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 56.486,
+    "eval_loss": 0.5539225339889526,
+    "eval_rouge1": 40.3998,
+    "eval_rouge2": 30.0512,
+    "eval_rougeL": 37.1464,
+    "eval_rougeLsum": 39.0852,
+    "eval_runtime": 979.0588,
     "eval_samples": 1000,
+    "eval_samples_per_second": 1.021,
+    "eval_steps_per_second": 0.033,
+    "predict_gen_len": 53.108,
+    "predict_loss": 0.5772507190704346,
+    "predict_rouge1": 44.0344,
+    "predict_rouge2": 34.6711,
+    "predict_rougeL": 41.3114,
+    "predict_rougeLsum": 43.0665,
+    "predict_runtime": 981.1213,
     "predict_samples": 1000,
+    "predict_samples_per_second": 1.019,
+    "predict_steps_per_second": 0.033,
     "total_flos": 3423786762240000.0,
+    "train_loss": 0.6272867081657288,
+    "train_runtime": 1485.4068,
     "train_samples": 1000,
+    "train_samples_per_second": 3.366,
+    "train_steps_per_second": 0.212
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 35.116,
-    "eval_loss": 5.426603317260742,
-    "eval_rouge1": 18.1827,
-    "eval_rouge2": 5.5014,
-    "eval_rougeL": 15.5147,
-    "eval_rougeLsum": 16.9245,
-    "eval_runtime": 911.181,
     "eval_samples": 1000,
-    "eval_samples_per_second": 1.097,
-    "eval_steps_per_second": 0.035
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 56.486,
+    "eval_loss": 0.5539225339889526,
+    "eval_rouge1": 40.3998,
+    "eval_rouge2": 30.0512,
+    "eval_rougeL": 37.1464,
+    "eval_rougeLsum": 39.0852,
+    "eval_runtime": 979.0588,
     "eval_samples": 1000,
+    "eval_samples_per_second": 1.021,
+    "eval_steps_per_second": 0.033
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 34.243,
-    "predict_loss": 4.6857404708862305,
-    "predict_rouge1": 21.8177,
-    "predict_rouge2": 7.8564,
-    "predict_rougeL": 18.4408,
-    "predict_rougeLsum": 20.3028,
-    "predict_runtime": 933.246,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.072,
-    "predict_steps_per_second": 0.034
 }

 {
+    "predict_gen_len": 53.108,
+    "predict_loss": 0.5772507190704346,
+    "predict_rouge1": 44.0344,
+    "predict_rouge2": 34.6711,
+    "predict_rougeL": 41.3114,
+    "predict_rougeLsum": 43.0665,
+    "predict_runtime": 981.1213,
     "predict_samples": 1000,
+    "predict_samples_per_second": 1.019,
+    "predict_steps_per_second": 0.033
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 3423786762240000.0,
-    "train_loss": 1.6593605313982283,
-    "train_runtime": 1412.1276,
     "train_samples": 1000,
-    "train_samples_per_second": 3.541,
-    "train_steps_per_second": 0.223
 }

 {
     "epoch": 5.0,
     "total_flos": 3423786762240000.0,
+    "train_loss": 0.6272867081657288,
+    "train_runtime": 1485.4068,
     "train_samples": 1000,
+    "train_samples_per_second": 3.366,
+    "train_steps_per_second": 0.212
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 17.698,
-  "best_model_checkpoint": "bin/liputan6-base/checkpoint-315",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
@@ -10,112 +10,112 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 5.591057300567627,
       "learning_rate": 0.0008,
-      "loss": 3.8271,
       "step": 63
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 47.473,
-      "eval_loss": 3.9787089824676514,
-      "eval_rouge1": 14.5233,
-      "eval_rouge2": 4.127,
-      "eval_rougeL": 12.7611,
-      "eval_rougeLsum": 13.5205,
-      "eval_runtime": 251.9921,
-      "eval_samples_per_second": 3.968,
-      "eval_steps_per_second": 0.127,
       "step": 63
     },
     {
       "epoch": 2.0,
-      "grad_norm": 5.016976833343506,
       "learning_rate": 0.0006,
-      "loss": 2.2739,
       "step": 126
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 44.229,
-      "eval_loss": 4.131580352783203,
-      "eval_rouge1": 15.9563,
-      "eval_rouge2": 4.7752,
-      "eval_rougeL": 13.8242,
-      "eval_rougeLsum": 14.8005,
-      "eval_runtime": 252.4735,
-      "eval_samples_per_second": 3.961,
-      "eval_steps_per_second": 0.127,
       "step": 126
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.183892726898193,
       "learning_rate": 0.0004,
-      "loss": 1.2999,
       "step": 189
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 33.112,
-      "eval_loss": 4.484961032867432,
-      "eval_rouge1": 17.2932,
-      "eval_rouge2": 4.6352,
-      "eval_rougeL": 14.8582,
-      "eval_rougeLsum": 16.1555,
-      "eval_runtime": 221.3655,
-      "eval_samples_per_second": 4.517,
-      "eval_steps_per_second": 0.145,
       "step": 189
     },
     {
       "epoch": 4.0,
-      "grad_norm": 4.1966776847839355,
       "learning_rate": 0.0002,
-      "loss": 0.6423,
       "step": 252
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 36.399,
-      "eval_loss": 4.919987678527832,
-      "eval_rouge1": 17.5707,
-      "eval_rouge2": 4.9772,
-      "eval_rougeL": 14.949,
-      "eval_rougeLsum": 16.1838,
-      "eval_runtime": 217.3583,
-      "eval_samples_per_second": 4.601,
-      "eval_steps_per_second": 0.147,
       "step": 252
     },
     {
       "epoch": 5.0,
-      "grad_norm": 2.510921001434326,
       "learning_rate": 0.0,
-      "loss": 0.2536,
       "step": 315
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 31.108,
-      "eval_loss": 5.426603317260742,
-      "eval_rouge1": 17.698,
-      "eval_rouge2": 4.7021,
-      "eval_rougeL": 14.8138,
-      "eval_rougeLsum": 16.3595,
-      "eval_runtime": 159.266,
-      "eval_samples_per_second": 6.279,
-      "eval_steps_per_second": 0.201,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3423786762240000.0,
-      "train_loss": 1.6593605313982283,
-      "train_runtime": 1412.1276,
-      "train_samples_per_second": 3.541,
-      "train_steps_per_second": 0.223
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 39.0802,
+  "best_model_checkpoint": "bin/liputan6-base/checkpoint-252",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 6.927645683288574,
       "learning_rate": 0.0008,
+      "loss": 1.6488,
       "step": 63
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 65.191,
+      "eval_loss": 0.7318153381347656,
+      "eval_rouge1": 34.224,
+      "eval_rouge2": 24.5266,
+      "eval_rougeL": 31.0318,
+      "eval_rougeLsum": 32.8875,
+      "eval_runtime": 255.5421,
+      "eval_samples_per_second": 3.913,
+      "eval_steps_per_second": 0.125,
       "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.6224966049194336,
       "learning_rate": 0.0006,
+      "loss": 0.6983,
       "step": 126
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 65.46,
+      "eval_loss": 0.6432784795761108,
+      "eval_rouge1": 37.3155,
+      "eval_rouge2": 27.3019,
+      "eval_rougeL": 33.9529,
+      "eval_rougeLsum": 36.1013,
+      "eval_runtime": 250.329,
+      "eval_samples_per_second": 3.995,
+      "eval_steps_per_second": 0.128,
       "step": 126
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.090550184249878,
       "learning_rate": 0.0004,
+      "loss": 0.4226,
       "step": 189
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 59.969,
+      "eval_loss": 0.5831208229064941,
+      "eval_rouge1": 36.9679,
+      "eval_rouge2": 26.3535,
+      "eval_rougeL": 33.5956,
+      "eval_rougeLsum": 35.7604,
+      "eval_runtime": 241.9062,
+      "eval_samples_per_second": 4.134,
+      "eval_steps_per_second": 0.132,
       "step": 189
     },
     {
       "epoch": 4.0,
+      "grad_norm": 4.525897026062012,
       "learning_rate": 0.0002,
+      "loss": 0.242,
       "step": 252
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 55.301,
+      "eval_loss": 0.5539225339889526,
+      "eval_rouge1": 39.0802,
+      "eval_rouge2": 28.4622,
+      "eval_rougeL": 35.8085,
+      "eval_rougeLsum": 37.8181,
+      "eval_runtime": 216.2243,
+      "eval_samples_per_second": 4.625,
+      "eval_steps_per_second": 0.148,
       "step": 252
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.9606621861457825,
       "learning_rate": 0.0,
+      "loss": 0.1248,
       "step": 315
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 56.589,
+      "eval_loss": 0.5169788599014282,
+      "eval_rouge1": 38.108,
+      "eval_rouge2": 27.5573,
+      "eval_rougeL": 34.7198,
+      "eval_rougeLsum": 36.6919,
+      "eval_runtime": 211.3459,
+      "eval_samples_per_second": 4.732,
+      "eval_steps_per_second": 0.151,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3423786762240000.0,
+      "train_loss": 0.6272867081657288,
+      "train_runtime": 1485.4068,
+      "train_samples_per_second": 3.366,
+      "train_steps_per_second": 0.212
     }
   ],
   "logging_steps": 500,