End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul12_23-21-44_6b2d4ff0fae4/events.out.tfevents.1720831481.6b2d4ff0fae4.19196.1 +3 -0
train_results.json +6 -6
trainer_state.json +222 -12

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: roberta-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # roberta-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: roberta-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.2780392959476054
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # roberta-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 5.0243
+- Accuracy: 0.2780
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.16528946828166702,
-    "eval_loss": 6.006351470947266,
-    "eval_runtime": 28.9332,
     "eval_samples": 4053,
-    "eval_samples_per_second": 140.081,
-    "eval_steps_per_second": 35.046,
-    "perplexity": 405.99931440686527,
-    "total_flos": 4.223778440028365e+16,
-    "train_loss": 2.356345704317949,
-    "train_runtime": 3822.1574,
     "train_samples": 80219,
-    "train_samples_per_second": 167.903,
-    "train_steps_per_second": 10.495
 }

 {
+    "epoch": 11.0,
+    "eval_accuracy": 0.2780392959476054,
+    "eval_loss": 5.024305820465088,
+    "eval_runtime": 29.6763,
     "eval_samples": 4053,
+    "eval_samples_per_second": 136.574,
+    "eval_steps_per_second": 34.169,
+    "perplexity": 152.0646592908706,
+    "total_flos": 5.807695355039002e+16,
+    "train_loss": 1.5156397336923944,
+    "train_runtime": 4860.501,
     "train_samples": 80219,
+    "train_samples_per_second": 181.547,
+    "train_steps_per_second": 11.347
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.16528946828166702,
-    "eval_loss": 6.006351470947266,
-    "eval_runtime": 28.9332,
     "eval_samples": 4053,
-    "eval_samples_per_second": 140.081,
-    "eval_steps_per_second": 35.046,
-    "perplexity": 405.99931440686527
 }

 {
+    "epoch": 11.0,
+    "eval_accuracy": 0.2780392959476054,
+    "eval_loss": 5.024305820465088,
+    "eval_runtime": 29.6763,
     "eval_samples": 4053,
+    "eval_samples_per_second": 136.574,
+    "eval_steps_per_second": 34.169,
+    "perplexity": 152.0646592908706
 }

runs/Jul12_23-21-44_6b2d4ff0fae4/events.out.tfevents.1720831481.6b2d4ff0fae4.19196.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44b6f3370c90f02699f03b53af768b8af403f3efab6f1ce5ae19e325c7edf30f
+size 417

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 8.0,
-    "total_flos": 4.223778440028365e+16,
-    "train_loss": 2.356345704317949,
-    "train_runtime": 3822.1574,
     "train_samples": 80219,
-    "train_samples_per_second": 167.903,
-    "train_steps_per_second": 10.495
 }

 {
+    "epoch": 11.0,
+    "total_flos": 5.807695355039002e+16,
+    "train_loss": 1.5156397336923944,
+    "train_runtime": 4860.501,
     "train_samples": 80219,
+    "train_samples_per_second": 181.547,
+    "train_steps_per_second": 11.347
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 40112,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -578,19 +578,229 @@
       "step": 40000
     },
     {
-      "epoch": 8.0,
-      "step": 40112,
-      "total_flos": 4.223778440028365e+16,
-      "train_loss": 2.356345704317949,
-      "train_runtime": 3822.1574,
-      "train_samples_per_second": 167.903,
-      "train_steps_per_second": 10.495
     }
   ],
   "logging_steps": 500,
-  "max_steps": 40112,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -604,7 +814,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.223778440028365e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 55154,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 40000
     },
     {
+      "epoch": 8.07738332668528,
+      "grad_norm": 5.084179401397705,
+      "learning_rate": 3.601552017986003e-05,
+      "loss": 5.9368,
+      "step": 40500
+    },
+    {
+      "epoch": 8.177104108496211,
+      "grad_norm": 5.475657939910889,
+      "learning_rate": 3.556224389890126e-05,
+      "loss": 5.9181,
+      "step": 41000
+    },
+    {
+      "epoch": 8.27682489030714,
+      "grad_norm": 4.678411960601807,
+      "learning_rate": 3.510896761794249e-05,
+      "loss": 5.8795,
+      "step": 41500
+    },
+    {
+      "epoch": 8.37654567211807,
+      "grad_norm": 5.502169132232666,
+      "learning_rate": 3.465569133698372e-05,
+      "loss": 5.8389,
+      "step": 42000
+    },
+    {
+      "epoch": 8.476266453928998,
+      "grad_norm": 5.32131290435791,
+      "learning_rate": 3.420241505602495e-05,
+      "loss": 5.8329,
+      "step": 42500
+    },
+    {
+      "epoch": 8.575987235739928,
+      "grad_norm": 5.6808552742004395,
+      "learning_rate": 3.374913877506618e-05,
+      "loss": 5.8001,
+      "step": 43000
+    },
+    {
+      "epoch": 8.675708017550857,
+      "grad_norm": 4.988351821899414,
+      "learning_rate": 3.329586249410741e-05,
+      "loss": 5.7928,
+      "step": 43500
+    },
+    {
+      "epoch": 8.775428799361787,
+      "grad_norm": 5.559896469116211,
+      "learning_rate": 3.284258621314864e-05,
+      "loss": 5.7488,
+      "step": 44000
+    },
+    {
+      "epoch": 8.875149581172716,
+      "grad_norm": 6.084516525268555,
+      "learning_rate": 3.238930993218987e-05,
+      "loss": 5.7262,
+      "step": 44500
+    },
+    {
+      "epoch": 8.974870362983646,
+      "grad_norm": 6.219081401824951,
+      "learning_rate": 3.19360336512311e-05,
+      "loss": 5.6925,
+      "step": 45000
+    },
+    {
+      "epoch": 9.074591144794574,
+      "grad_norm": 6.170139789581299,
+      "learning_rate": 3.1482757370272333e-05,
+      "loss": 5.6491,
+      "step": 45500
+    },
+    {
+      "epoch": 9.174311926605505,
+      "grad_norm": 5.830073356628418,
+      "learning_rate": 3.102948108931356e-05,
+      "loss": 5.6228,
+      "step": 46000
+    },
+    {
+      "epoch": 9.274032708416435,
+      "grad_norm": 5.452333927154541,
+      "learning_rate": 3.0577111360916706e-05,
+      "loss": 5.5724,
+      "step": 46500
+    },
+    {
+      "epoch": 9.373753490227363,
+      "grad_norm": 5.113864421844482,
+      "learning_rate": 3.0123835079957935e-05,
+      "loss": 5.5437,
+      "step": 47000
+    },
+    {
+      "epoch": 9.473474272038294,
+      "grad_norm": 5.875530242919922,
+      "learning_rate": 2.9670558798999164e-05,
+      "loss": 5.525,
+      "step": 47500
+    },
+    {
+      "epoch": 9.573195053849222,
+      "grad_norm": 5.342255592346191,
+      "learning_rate": 2.9217282518040397e-05,
+      "loss": 5.5145,
+      "step": 48000
+    },
+    {
+      "epoch": 9.672915835660152,
+      "grad_norm": 6.1103644371032715,
+      "learning_rate": 2.8764006237081626e-05,
+      "loss": 5.4687,
+      "step": 48500
+    },
+    {
+      "epoch": 9.77263661747108,
+      "grad_norm": 6.640170097351074,
+      "learning_rate": 2.8310729956122855e-05,
+      "loss": 5.4448,
+      "step": 49000
+    },
+    {
+      "epoch": 9.872357399282011,
+      "grad_norm": 6.135842323303223,
+      "learning_rate": 2.7858360227726005e-05,
+      "loss": 5.4075,
+      "step": 49500
+    },
+    {
+      "epoch": 9.97207818109294,
+      "grad_norm": 6.063602924346924,
+      "learning_rate": 2.7405083946767234e-05,
+      "loss": 5.374,
+      "step": 50000
+    },
+    {
+      "epoch": 10.07179896290387,
+      "grad_norm": 6.689053535461426,
+      "learning_rate": 2.6951807665808463e-05,
+      "loss": 5.3459,
+      "step": 50500
+    },
+    {
+      "epoch": 10.171519744714798,
+      "grad_norm": 6.488341331481934,
+      "learning_rate": 2.6498531384849696e-05,
+      "loss": 5.3185,
+      "step": 51000
+    },
+    {
+      "epoch": 10.271240526525728,
+      "grad_norm": 6.589330673217773,
+      "learning_rate": 2.6045255103890925e-05,
+      "loss": 5.3019,
+      "step": 51500
+    },
+    {
+      "epoch": 10.370961308336657,
+      "grad_norm": 6.61977481842041,
+      "learning_rate": 2.5592885375494075e-05,
+      "loss": 5.2792,
+      "step": 52000
+    },
+    {
+      "epoch": 10.470682090147587,
+      "grad_norm": 6.396610736846924,
+      "learning_rate": 2.5139609094535304e-05,
+      "loss": 5.2347,
+      "step": 52500
+    },
+    {
+      "epoch": 10.570402871958516,
+      "grad_norm": 7.000791549682617,
+      "learning_rate": 2.4686332813576534e-05,
+      "loss": 5.2252,
+      "step": 53000
+    },
+    {
+      "epoch": 10.670123653769446,
+      "grad_norm": 6.714987277984619,
+      "learning_rate": 2.4233056532617763e-05,
+      "loss": 5.1965,
+      "step": 53500
+    },
+    {
+      "epoch": 10.769844435580374,
+      "grad_norm": 7.012180805206299,
+      "learning_rate": 2.3779780251658992e-05,
+      "loss": 5.1769,
+      "step": 54000
+    },
+    {
+      "epoch": 10.869565217391305,
+      "grad_norm": 6.85835599899292,
+      "learning_rate": 2.332650397070022e-05,
+      "loss": 5.1442,
+      "step": 54500
+    },
+    {
+      "epoch": 10.969285999202233,
+      "grad_norm": 6.789878845214844,
+      "learning_rate": 2.2873227689741453e-05,
+      "loss": 5.1071,
+      "step": 55000
+    },
+    {
+      "epoch": 11.0,
+      "step": 55154,
+      "total_flos": 5.807695355039002e+16,
+      "train_loss": 1.5156397336923944,
+      "train_runtime": 4860.501,
+      "train_samples_per_second": 181.547,
+      "train_steps_per_second": 11.347
     }
   ],
   "logging_steps": 500,
+  "max_steps": 55154,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 11,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 5.807695355039002e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null