Upload 7 files

Browse files

Files changed (5) hide show

config.json +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +57 -3

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": ".",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "flax-community/gpt2-small-indonesian",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9cf4ecd8a5b06187890c4066192de56ba0f136e5e1f7946399af28c3e64711db
 size 497807197

 version https://git-lfs.github.com/spec/v1
+oid sha256:6e876a7b1ab0ee2bb64e9174fee3e0fc3e841c680d1aa89fa9ba2e64c6d25083
 size 497807197

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1784c9e20ffdc46b706882695c2108245d7626a328b6d70a37d079ad1fbbc989
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:6162bb9db25c89c41e126a7a00a5d0695219447bff9b18d08731531620758440
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa302b087d13df1585059f19c40718ddcbe9f202f5ca1867898c19a359f17e46
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:139d564a4ff8b0110bedb5670b2421665ae2dae7192939285858c6b23b9de487
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 837,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21,13 +21,67 @@
       "eval_samples_per_second": 42.083,
       "eval_steps_per_second": 5.275,
       "step": 837
     }
   ],
   "logging_steps": 500,
   "max_steps": 6696,
   "num_train_epochs": 8,
   "save_steps": 500,
-  "total_flos": 1310836801536000.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 3348,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 42.083,
       "eval_steps_per_second": 5.275,
       "step": 837
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.7013142174432496e-05,
+      "loss": 2.4595,
+      "step": 1000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.5519713261648747e-05,
+      "loss": 2.3818,
+      "step": 1500
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.373106002807617,
+      "eval_runtime": 42.2281,
+      "eval_samples_per_second": 42.318,
+      "eval_steps_per_second": 5.305,
+      "step": 1674
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 1.4026284348864996e-05,
+      "loss": 2.3449,
+      "step": 2000
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 1.2532855436081244e-05,
+      "loss": 2.3116,
+      "step": 2500
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 2.333420515060425,
+      "eval_runtime": 42.4622,
+      "eval_samples_per_second": 42.084,
+      "eval_steps_per_second": 5.275,
+      "step": 2511
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 1.1039426523297491e-05,
+      "loss": 2.2842,
+      "step": 3000
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 2.3103713989257812,
+      "eval_runtime": 42.488,
+      "eval_samples_per_second": 42.059,
+      "eval_steps_per_second": 5.272,
+      "step": 3348
     }
   ],
   "logging_steps": 500,
   "max_steps": 6696,
   "num_train_epochs": 8,
   "save_steps": 500,
+  "total_flos": 5243347206144000.0,
   "trial_name": null,
   "trial_params": null
 }