End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul18_22-46-23_801ec3347245/events.out.tfevents.1721347554.801ec3347245.3797.1 +3 -0
train_results.json +6 -6
trainer_state.json +280 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: mini-roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # mini-roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: mini-roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.15905819453012543
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # mini-roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 6.0607
+- Accuracy: 0.1591
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.14698866640019598,
-    "eval_loss": 6.374551773071289,
-    "eval_runtime": 52.0555,
     "eval_samples": 8106,
-    "eval_samples_per_second": 155.718,
-    "eval_steps_per_second": 38.939,
-    "perplexity": 586.7223872208433,
-    "total_flos": 8866386447212160.0,
-    "train_loss": 2.1665261722384206,
-    "train_runtime": 1599.9695,
     "train_samples": 160441,
-    "train_samples_per_second": 1504.163,
-    "train_steps_per_second": 11.756
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.15905819453012543,
+    "eval_loss": 6.060703277587891,
+    "eval_runtime": 50.7232,
     "eval_samples": 8106,
+    "eval_samples_per_second": 159.809,
+    "eval_steps_per_second": 39.962,
+    "perplexity": 428.67680966518134,
+    "total_flos": 1.773277289442432e+16,
+    "train_loss": 3.0397992164007466,
+    "train_runtime": 4647.9256,
     "train_samples": 160441,
+    "train_samples_per_second": 1035.565,
+    "train_steps_per_second": 8.094
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 15.0,
-    "eval_accuracy": 0.14698866640019598,
-    "eval_loss": 6.374551773071289,
-    "eval_runtime": 52.0555,
     "eval_samples": 8106,
-    "eval_samples_per_second": 155.718,
-    "eval_steps_per_second": 38.939,
-    "perplexity": 586.7223872208433
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.15905819453012543,
+    "eval_loss": 6.060703277587891,
+    "eval_runtime": 50.7232,
     "eval_samples": 8106,
+    "eval_samples_per_second": 159.809,
+    "eval_steps_per_second": 39.962,
+    "perplexity": 428.67680966518134
 }

runs/Jul18_22-46-23_801ec3347245/events.out.tfevents.1721347554.801ec3347245.3797.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37dfeb6ab6ccc3320bff59200ee03313745fac3d9af531bee95b8616e9c43105
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 15.0,
-    "total_flos": 8866386447212160.0,
-    "train_loss": 2.1665261722384206,
-    "train_runtime": 1599.9695,
     "train_samples": 160441,
-    "train_samples_per_second": 1504.163,
-    "train_steps_per_second": 11.756
 }

 {
+    "epoch": 30.0,
+    "total_flos": 1.773277289442432e+16,
+    "train_loss": 3.0397992164007466,
+    "train_runtime": 4647.9256,
     "train_samples": 160441,
+    "train_samples_per_second": 1035.565,
+    "train_steps_per_second": 8.094
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 15.0,
   "eval_steps": 500,
-  "global_step": 18810,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -284,12 +284,287 @@
       "train_runtime": 1599.9695,
       "train_samples_per_second": 1504.163,
       "train_steps_per_second": 11.756
     }
   ],
   "logging_steps": 500,
-  "max_steps": 18810,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 15,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -303,7 +578,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8866386447212160.0,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 30.0,
   "eval_steps": 500,
+  "global_step": 37620,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 1599.9695,
       "train_samples_per_second": 1504.163,
       "train_steps_per_second": 11.756
+    },
+    {
+      "epoch": 15.151515151515152,
+      "grad_norm": 2.2735719680786133,
+      "learning_rate": 4.974747474747475e-05,
+      "loss": 6.3524,
+      "step": 19000
+    },
+    {
+      "epoch": 15.55023923444976,
+      "grad_norm": 3.0628674030303955,
+      "learning_rate": 4.9082934609250406e-05,
+      "loss": 6.3525,
+      "step": 19500
+    },
+    {
+      "epoch": 15.94896331738437,
+      "grad_norm": 2.572157382965088,
+      "learning_rate": 4.841839447102605e-05,
+      "loss": 6.3283,
+      "step": 20000
+    },
+    {
+      "epoch": 16.34768740031898,
+      "grad_norm": 2.8556103706359863,
+      "learning_rate": 4.775385433280171e-05,
+      "loss": 6.3006,
+      "step": 20500
+    },
+    {
+      "epoch": 16.74641148325359,
+      "grad_norm": 2.7908451557159424,
+      "learning_rate": 4.7089314194577354e-05,
+      "loss": 6.2868,
+      "step": 21000
+    },
+    {
+      "epoch": 17.1451355661882,
+      "grad_norm": 2.637225389480591,
+      "learning_rate": 4.6424774056353006e-05,
+      "loss": 6.2645,
+      "step": 21500
+    },
+    {
+      "epoch": 17.54385964912281,
+      "grad_norm": 2.9248273372650146,
+      "learning_rate": 4.576023391812866e-05,
+      "loss": 6.24,
+      "step": 22000
+    },
+    {
+      "epoch": 17.942583732057415,
+      "grad_norm": 2.293976306915283,
+      "learning_rate": 4.509569377990431e-05,
+      "loss": 6.2331,
+      "step": 22500
+    },
+    {
+      "epoch": 18.341307814992025,
+      "grad_norm": 2.7412922382354736,
+      "learning_rate": 4.443115364167996e-05,
+      "loss": 6.1999,
+      "step": 23000
+    },
+    {
+      "epoch": 18.740031897926634,
+      "grad_norm": 3.194049119949341,
+      "learning_rate": 4.376661350345561e-05,
+      "loss": 6.1953,
+      "step": 23500
+    },
+    {
+      "epoch": 19.138755980861244,
+      "grad_norm": 2.366976022720337,
+      "learning_rate": 4.310207336523126e-05,
+      "loss": 6.1713,
+      "step": 24000
+    },
+    {
+      "epoch": 19.537480063795854,
+      "grad_norm": 2.459841728210449,
+      "learning_rate": 4.2437533227006915e-05,
+      "loss": 6.1535,
+      "step": 24500
+    },
+    {
+      "epoch": 19.93620414673046,
+      "grad_norm": 2.5043203830718994,
+      "learning_rate": 4.177432216905902e-05,
+      "loss": 6.1481,
+      "step": 25000
+    },
+    {
+      "epoch": 20.33492822966507,
+      "grad_norm": 2.6015625,
+      "learning_rate": 4.1109782030834664e-05,
+      "loss": 6.1228,
+      "step": 25500
+    },
+    {
+      "epoch": 20.73365231259968,
+      "grad_norm": 3.39577579498291,
+      "learning_rate": 4.0445241892610315e-05,
+      "loss": 6.1113,
+      "step": 26000
+    },
+    {
+      "epoch": 21.13237639553429,
+      "grad_norm": 2.7234418392181396,
+      "learning_rate": 3.978070175438597e-05,
+      "loss": 6.1074,
+      "step": 26500
+    },
+    {
+      "epoch": 21.5311004784689,
+      "grad_norm": 2.6176741123199463,
+      "learning_rate": 3.911749069643807e-05,
+      "loss": 6.0859,
+      "step": 27000
+    },
+    {
+      "epoch": 21.92982456140351,
+      "grad_norm": 2.5121538639068604,
+      "learning_rate": 3.845427963849017e-05,
+      "loss": 6.0804,
+      "step": 27500
+    },
+    {
+      "epoch": 22.328548644338117,
+      "grad_norm": 2.72497296333313,
+      "learning_rate": 3.778973950026582e-05,
+      "loss": 6.0623,
+      "step": 28000
+    },
+    {
+      "epoch": 22.727272727272727,
+      "grad_norm": 2.9392683506011963,
+      "learning_rate": 3.712519936204147e-05,
+      "loss": 6.0536,
+      "step": 28500
+    },
+    {
+      "epoch": 23.125996810207337,
+      "grad_norm": 2.5510990619659424,
+      "learning_rate": 3.646065922381712e-05,
+      "loss": 6.0508,
+      "step": 29000
+    },
+    {
+      "epoch": 23.524720893141946,
+      "grad_norm": 2.9767627716064453,
+      "learning_rate": 3.5796119085592774e-05,
+      "loss": 6.029,
+      "step": 29500
+    },
+    {
+      "epoch": 23.923444976076556,
+      "grad_norm": 2.644033908843994,
+      "learning_rate": 3.513157894736842e-05,
+      "loss": 6.0329,
+      "step": 30000
+    },
+    {
+      "epoch": 24.322169059011163,
+      "grad_norm": 2.623633861541748,
+      "learning_rate": 3.446836788942052e-05,
+      "loss": 6.003,
+      "step": 30500
+    },
+    {
+      "epoch": 24.720893141945773,
+      "grad_norm": 2.6472909450531006,
+      "learning_rate": 3.3803827751196174e-05,
+      "loss": 6.0,
+      "step": 31000
+    },
+    {
+      "epoch": 25.119617224880383,
+      "grad_norm": 3.0670645236968994,
+      "learning_rate": 3.3139287612971825e-05,
+      "loss": 5.9948,
+      "step": 31500
+    },
+    {
+      "epoch": 25.518341307814993,
+      "grad_norm": 2.6866748332977295,
+      "learning_rate": 3.247474747474748e-05,
+      "loss": 5.9883,
+      "step": 32000
+    },
+    {
+      "epoch": 25.917065390749602,
+      "grad_norm": 2.8670027256011963,
+      "learning_rate": 3.181020733652313e-05,
+      "loss": 5.9801,
+      "step": 32500
+    },
+    {
+      "epoch": 26.31578947368421,
+      "grad_norm": 2.797853708267212,
+      "learning_rate": 3.114566719829878e-05,
+      "loss": 5.9665,
+      "step": 33000
+    },
+    {
+      "epoch": 26.71451355661882,
+      "grad_norm": 3.076382637023926,
+      "learning_rate": 3.0481127060074432e-05,
+      "loss": 5.9655,
+      "step": 33500
+    },
+    {
+      "epoch": 27.11323763955343,
+      "grad_norm": 2.7438435554504395,
+      "learning_rate": 2.981791600212653e-05,
+      "loss": 5.9445,
+      "step": 34000
+    },
+    {
+      "epoch": 27.51196172248804,
+      "grad_norm": 3.119704484939575,
+      "learning_rate": 2.9153375863902184e-05,
+      "loss": 5.9319,
+      "step": 34500
+    },
+    {
+      "epoch": 27.91068580542265,
+      "grad_norm": 2.594749927520752,
+      "learning_rate": 2.8488835725677832e-05,
+      "loss": 5.9327,
+      "step": 35000
+    },
+    {
+      "epoch": 28.30940988835726,
+      "grad_norm": 2.6697604656219482,
+      "learning_rate": 2.7824295587453487e-05,
+      "loss": 5.9261,
+      "step": 35500
+    },
+    {
+      "epoch": 28.708133971291865,
+      "grad_norm": 3.4312615394592285,
+      "learning_rate": 2.7159755449229135e-05,
+      "loss": 5.9146,
+      "step": 36000
+    },
+    {
+      "epoch": 29.106858054226475,
+      "grad_norm": 3.0306286811828613,
+      "learning_rate": 2.6495215311004783e-05,
+      "loss": 5.9243,
+      "step": 36500
+    },
+    {
+      "epoch": 29.505582137161085,
+      "grad_norm": 2.841744899749756,
+      "learning_rate": 2.583067517278044e-05,
+      "loss": 5.9046,
+      "step": 37000
+    },
+    {
+      "epoch": 29.904306220095695,
+      "grad_norm": 2.9730348587036133,
+      "learning_rate": 2.5166135034556087e-05,
+      "loss": 5.8976,
+      "step": 37500
+    },
+    {
+      "epoch": 30.0,
+      "step": 37620,
+      "total_flos": 1.773277289442432e+16,
+      "train_loss": 3.0397992164007466,
+      "train_runtime": 4647.9256,
+      "train_samples_per_second": 1035.565,
+      "train_steps_per_second": 8.094
     }
   ],
   "logging_steps": 500,
+  "max_steps": 37620,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.773277289442432e+16,
   "train_batch_size": 128,
   "trial_name": null,
   "trial_params": null