End of training

Browse files

Files changed (6) hide show

README.md +20 -2
all_results.json +12 -12
eval_results.json +7 -7
runs/Jul31_02-24-15_390be55cffea/events.out.tfevents.1722393739.390be55cffea.22163.1 +3 -0
train_results.json +6 -6
trainer_state.json +56 -5

README.md CHANGED Viewed

@@ -1,9 +1,24 @@
 ---
 tags:
 - generated_from_trainer
 model-index:
 - name: smallbert-javanese
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -11,7 +26,10 @@ should probably proofread and complete it, then remove this comment. -->
 # smallbert-javanese
-This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
 ## Model description

 ---
 tags:
 - generated_from_trainer
+datasets:
+- akahana/GlotCC-V1-jav-Latn
+metrics:
+- accuracy
 model-index:
 - name: smallbert-javanese
+  results:
+  - task:
+      name: Masked Language Modeling
+      type: fill-mask
+    dataset:
+      name: akahana/GlotCC-V1-jav-Latn default
+      type: akahana/GlotCC-V1-jav-Latn
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.1417211592798902
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # smallbert-javanese
+This model is a fine-tuned version of [](https://huggingface.co/) on the akahana/GlotCC-V1-jav-Latn default dataset.
+It achieves the following results on the evaluation set:
+- Loss: 6.2400
+- Accuracy: 0.1417
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 20.0,
-    "eval_accuracy": 0.1432211125795332,
-    "eval_loss": 6.276556968688965,
-    "eval_runtime": 5.1628,
     "eval_samples": 963,
-    "eval_samples_per_second": 186.528,
-    "eval_steps_per_second": 11.815,
-    "perplexity": 531.9539730039461,
-    "total_flos": 1.513744687742976e+16,
-    "train_loss": 3.172654545207319,
-    "train_runtime": 2061.7586,
     "train_samples": 19092,
-    "train_samples_per_second": 185.201,
-    "train_steps_per_second": 5.791
 }

 {
+    "epoch": 25.0,
+    "eval_accuracy": 0.1417211592798902,
+    "eval_loss": 6.239955902099609,
+    "eval_runtime": 5.4847,
     "eval_samples": 963,
+    "eval_samples_per_second": 175.578,
+    "eval_steps_per_second": 11.122,
+    "perplexity": 512.8358954579503,
+    "total_flos": 1.89218085967872e+16,
+    "train_loss": 1.2342067862914834,
+    "train_runtime": 1036.8459,
     "train_samples": 19092,
+    "train_samples_per_second": 460.338,
+    "train_steps_per_second": 14.395
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 20.0,
-    "eval_accuracy": 0.1432211125795332,
-    "eval_loss": 6.276556968688965,
-    "eval_runtime": 5.1628,
     "eval_samples": 963,
-    "eval_samples_per_second": 186.528,
-    "eval_steps_per_second": 11.815,
-    "perplexity": 531.9539730039461
 }

 {
+    "epoch": 25.0,
+    "eval_accuracy": 0.1417211592798902,
+    "eval_loss": 6.239955902099609,
+    "eval_runtime": 5.4847,
     "eval_samples": 963,
+    "eval_samples_per_second": 175.578,
+    "eval_steps_per_second": 11.122,
+    "perplexity": 512.8358954579503
 }

runs/Jul31_02-24-15_390be55cffea/events.out.tfevents.1722393739.390be55cffea.22163.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b41a4f4e583400700c1fa1321ba7dd972a51cb5198615d670957efefefc505fd
+size 411

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 20.0,
-    "total_flos": 1.513744687742976e+16,
-    "train_loss": 3.172654545207319,
-    "train_runtime": 2061.7586,
     "train_samples": 19092,
-    "train_samples_per_second": 185.201,
-    "train_steps_per_second": 5.791
 }

 {
+    "epoch": 25.0,
+    "total_flos": 1.89218085967872e+16,
+    "train_loss": 1.2342067862914834,
+    "train_runtime": 1036.8459,
     "train_samples": 19092,
+    "train_samples_per_second": 460.338,
+    "train_steps_per_second": 14.395
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 20.0,
   "eval_steps": 500,
-  "global_step": 11940,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -186,12 +186,63 @@
       "train_runtime": 2061.7586,
       "train_samples_per_second": 185.201,
       "train_steps_per_second": 5.791
     }
   ],
   "logging_steps": 500,
-  "max_steps": 11940,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -205,7 +256,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.513744687742976e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 25.0,
   "eval_steps": 500,
+  "global_step": 14925,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "train_runtime": 2061.7586,
       "train_samples_per_second": 185.201,
       "train_steps_per_second": 5.791
+    },
+    {
+      "epoch": 20.100502512562816,
+      "grad_norm": 1.9149502515792847,
+      "learning_rate": 4.9798994974874375e-05,
+      "loss": 6.2133,
+      "step": 12000
+    },
+    {
+      "epoch": 20.938023450586265,
+      "grad_norm": 1.8770983219146729,
+      "learning_rate": 4.8123953098827474e-05,
+      "loss": 6.222,
+      "step": 12500
+    },
+    {
+      "epoch": 21.775544388609717,
+      "grad_norm": 1.8764543533325195,
+      "learning_rate": 4.6448911222780573e-05,
+      "loss": 6.1987,
+      "step": 13000
+    },
+    {
+      "epoch": 22.613065326633166,
+      "grad_norm": 1.928965449333191,
+      "learning_rate": 4.477386934673367e-05,
+      "loss": 6.1787,
+      "step": 13500
+    },
+    {
+      "epoch": 23.450586264656618,
+      "grad_norm": 1.6476266384124756,
+      "learning_rate": 4.309882747068677e-05,
+      "loss": 6.1524,
+      "step": 14000
+    },
+    {
+      "epoch": 24.288107202680067,
+      "grad_norm": 1.7504838705062866,
+      "learning_rate": 4.142378559463987e-05,
+      "loss": 6.1409,
+      "step": 14500
+    },
+    {
+      "epoch": 25.0,
+      "step": 14925,
+      "total_flos": 1.89218085967872e+16,
+      "train_loss": 1.2342067862914834,
+      "train_runtime": 1036.8459,
+      "train_samples_per_second": 460.338,
+      "train_steps_per_second": 14.395
     }
   ],
   "logging_steps": 500,
+  "max_steps": 14925,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 25,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.89218085967872e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null