End of training

Browse files

Files changed (7) hide show

README.md +22 -7
all_results.json +26 -6
eval_results.json +13 -0
generated_predictions.txt +0 -0
predict_results.json +12 -0
train_results.json +6 -6
trainer_state.json +90 -50

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -9,7 +11,20 @@ metrics:
 - rouge
 model-index:
 - name: liputan6-base
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -17,14 +32,14 @@ should probably proofread and complete it, then remove this comment. -->
 # liputan6-base
-This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 5.4266
-- Rouge1: 17.698
-- Rouge2: 4.7021
-- Rougel: 14.8138
-- Rougelsum: 16.3595
-- Gen Len: 31.108
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 - rouge
 model-index:
 - name: liputan6-base
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: id_liputan6 canonical
+      type: id_liputan6
+      config: canonical
+      split: validation
+      args: canonical
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 18.1827
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # liputan6-base
+This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 canonical dataset.
 It achieves the following results on the evaluation set:
 - Loss: 5.4266
+- Rouge1: 18.1827
+- Rouge2: 5.5014
+- Rougel: 15.5147
+- Rougelsum: 16.9245
+- Gen Len: 35.116
 ## Model description

all_results.json CHANGED Viewed

@@ -1,9 +1,29 @@
 {
-    "epoch": 3.0,
-    "total_flos": 2054272057344000.0,
-    "train_loss": 2.2623963128952753,
-    "train_runtime": 857.0722,
     "train_samples": 1000,
-    "train_samples_per_second": 3.5,
-    "train_steps_per_second": 0.221
 }

 {
+    "epoch": 5.0,
+    "eval_gen_len": 35.116,
+    "eval_loss": 5.426603317260742,
+    "eval_rouge1": 18.1827,
+    "eval_rouge2": 5.5014,
+    "eval_rougeL": 15.5147,
+    "eval_rougeLsum": 16.9245,
+    "eval_runtime": 911.181,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 1.097,
+    "eval_steps_per_second": 0.035,
+    "predict_gen_len": 34.243,
+    "predict_loss": 4.6857404708862305,
+    "predict_rouge1": 21.8177,
+    "predict_rouge2": 7.8564,
+    "predict_rougeL": 18.4408,
+    "predict_rougeLsum": 20.3028,
+    "predict_runtime": 933.246,
+    "predict_samples": 1000,
+    "predict_samples_per_second": 1.072,
+    "predict_steps_per_second": 0.034,
+    "total_flos": 3423786762240000.0,
+    "train_loss": 1.6593605313982283,
+    "train_runtime": 1412.1276,
     "train_samples": 1000,
+    "train_samples_per_second": 3.541,
+    "train_steps_per_second": 0.223
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 5.0,
+    "eval_gen_len": 35.116,
+    "eval_loss": 5.426603317260742,
+    "eval_rouge1": 18.1827,
+    "eval_rouge2": 5.5014,
+    "eval_rougeL": 15.5147,
+    "eval_rougeLsum": 16.9245,
+    "eval_runtime": 911.181,
+    "eval_samples": 1000,
+    "eval_samples_per_second": 1.097,
+    "eval_steps_per_second": 0.035
+}

generated_predictions.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "predict_gen_len": 34.243,
+    "predict_loss": 4.6857404708862305,
+    "predict_rouge1": 21.8177,
+    "predict_rouge2": 7.8564,
+    "predict_rougeL": 18.4408,
+    "predict_rougeLsum": 20.3028,
+    "predict_runtime": 933.246,
+    "predict_samples": 1000,
+    "predict_samples_per_second": 1.072,
+    "predict_steps_per_second": 0.034
+}

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 3.0,
-    "total_flos": 2054272057344000.0,
-    "train_loss": 2.2623963128952753,
-    "train_runtime": 857.0722,
     "train_samples": 1000,
-    "train_samples_per_second": 3.5,
-    "train_steps_per_second": 0.221
 }

 {
+    "epoch": 5.0,
+    "total_flos": 3423786762240000.0,
+    "train_loss": 1.6593605313982283,
+    "train_runtime": 1412.1276,
     "train_samples": 1000,
+    "train_samples_per_second": 3.541,
+    "train_steps_per_second": 0.223
 }

trainer_state.json CHANGED Viewed

@@ -1,89 +1,129 @@
 {
-  "best_metric": 19.886,
-  "best_model_checkpoint": "bin/liputan6-base/checkpoint-189",
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 189,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 5.871487617492676,
-      "learning_rate": 0.0006666666666666666,
-      "loss": 3.7824,
       "step": 63
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 31.998,
-      "eval_loss": 3.822542190551758,
-      "eval_rouge1": 16.8681,
-      "eval_rouge2": 5.1649,
-      "eval_rougeL": 14.9393,
-      "eval_rougeLsum": 15.6881,
-      "eval_runtime": 235.6514,
-      "eval_samples_per_second": 4.244,
-      "eval_steps_per_second": 0.136,
       "step": 63
     },
     {
       "epoch": 2.0,
-      "grad_norm": 4.992724895477295,
-      "learning_rate": 0.0003333333333333333,
-      "loss": 2.0598,
       "step": 126
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 38.822,
-      "eval_loss": 3.8557004928588867,
-      "eval_rouge1": 18.6028,
-      "eval_rouge2": 5.9301,
-      "eval_rougeL": 15.9454,
-      "eval_rougeLsum": 17.1143,
-      "eval_runtime": 247.4796,
-      "eval_samples_per_second": 4.041,
-      "eval_steps_per_second": 0.129,
       "step": 126
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.042899131774902,
-      "learning_rate": 0.0,
-      "loss": 0.945,
       "step": 189
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 30.875,
-      "eval_loss": 4.205010414123535,
-      "eval_rouge1": 19.886,
-      "eval_rouge2": 6.0542,
-      "eval_rougeL": 16.8703,
-      "eval_rougeLsum": 18.2573,
-      "eval_runtime": 188.2411,
-      "eval_samples_per_second": 5.312,
-      "eval_steps_per_second": 0.17,
       "step": 189
     },
     {
-      "epoch": 3.0,
-      "step": 189,
-      "total_flos": 2054272057344000.0,
-      "train_loss": 2.2623963128952753,
-      "train_runtime": 857.0722,
-      "train_samples_per_second": 3.5,
-      "train_steps_per_second": 0.221
     }
   ],
   "logging_steps": 500,
-  "max_steps": 189,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2054272057344000.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 17.698,
+  "best_model_checkpoint": "bin/liputan6-base/checkpoint-315",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 315,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 5.591057300567627,
+      "learning_rate": 0.0008,
+      "loss": 3.8271,
       "step": 63
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 47.473,
+      "eval_loss": 3.9787089824676514,
+      "eval_rouge1": 14.5233,
+      "eval_rouge2": 4.127,
+      "eval_rougeL": 12.7611,
+      "eval_rougeLsum": 13.5205,
+      "eval_runtime": 251.9921,
+      "eval_samples_per_second": 3.968,
+      "eval_steps_per_second": 0.127,
       "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 5.016976833343506,
+      "learning_rate": 0.0006,
+      "loss": 2.2739,
       "step": 126
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 44.229,
+      "eval_loss": 4.131580352783203,
+      "eval_rouge1": 15.9563,
+      "eval_rouge2": 4.7752,
+      "eval_rougeL": 13.8242,
+      "eval_rougeLsum": 14.8005,
+      "eval_runtime": 252.4735,
+      "eval_samples_per_second": 3.961,
+      "eval_steps_per_second": 0.127,
       "step": 126
     },
     {
       "epoch": 3.0,
+      "grad_norm": 4.183892726898193,
+      "learning_rate": 0.0004,
+      "loss": 1.2999,
       "step": 189
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 33.112,
+      "eval_loss": 4.484961032867432,
+      "eval_rouge1": 17.2932,
+      "eval_rouge2": 4.6352,
+      "eval_rougeL": 14.8582,
+      "eval_rougeLsum": 16.1555,
+      "eval_runtime": 221.3655,
+      "eval_samples_per_second": 4.517,
+      "eval_steps_per_second": 0.145,
       "step": 189
     },
     {
+      "epoch": 4.0,
+      "grad_norm": 4.1966776847839355,
+      "learning_rate": 0.0002,
+      "loss": 0.6423,
+      "step": 252
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 36.399,
+      "eval_loss": 4.919987678527832,
+      "eval_rouge1": 17.5707,
+      "eval_rouge2": 4.9772,
+      "eval_rougeL": 14.949,
+      "eval_rougeLsum": 16.1838,
+      "eval_runtime": 217.3583,
+      "eval_samples_per_second": 4.601,
+      "eval_steps_per_second": 0.147,
+      "step": 252
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.510921001434326,
+      "learning_rate": 0.0,
+      "loss": 0.2536,
+      "step": 315
+    },
+    {
+      "epoch": 5.0,
+      "eval_gen_len": 31.108,
+      "eval_loss": 5.426603317260742,
+      "eval_rouge1": 17.698,
+      "eval_rouge2": 4.7021,
+      "eval_rougeL": 14.8138,
+      "eval_rougeLsum": 16.3595,
+      "eval_runtime": 159.266,
+      "eval_samples_per_second": 6.279,
+      "eval_steps_per_second": 0.201,
+      "step": 315
+    },
+    {
+      "epoch": 5.0,
+      "step": 315,
+      "total_flos": 3423786762240000.0,
+      "train_loss": 1.6593605313982283,
+      "train_runtime": 1412.1276,
+      "train_samples_per_second": 3.541,
+      "train_steps_per_second": 0.223
     }
   ],
   "logging_steps": 500,
+  "max_steps": 315,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 3423786762240000.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null