End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -1,6 +1,4 @@
 ---
-license: mit
-base_model: gpt2
 tags:
 - generated_from_trainer
 model-index:
@@ -13,14 +11,14 @@ should probably proofread and complete it, then remove this comment. -->
 # food-recipe-generation
-This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- eval_loss: 1.0114
-- eval_runtime: 2006.5534
-- eval_samples_per_second: 111.193
-- eval_steps_per_second: 1.738
-- epoch: 0.8
-- step: 50000
 ## Model description

 ---
 tags:
 - generated_from_trainer
 model-index:
 # food-recipe-generation
+This model was trained from scratch on an unknown dataset.
 It achieves the following results on the evaluation set:
+- eval_loss: 0.9693
+- eval_runtime: 1995.4615
+- eval_samples_per_second: 111.811
+- eval_steps_per_second: 1.747
+- epoch: 1.59
+- step: 100000
 ## Model description

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "gpt2",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

 {
+  "_name_or_path": "/kaggle/working/food-recipe-generation",
   "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"

logs/events.out.tfevents.1702955299.f861084c800d.26.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:903645a666d79f54bb6d9837684ceffc1d0a9ecd70e75689469dbfbcc2a108aa
+size 5099

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dec1b9b7354ba4a77850663e7816cf56efa720d5b9a816282d4900fdf2143a6c
 size 497918592

 version https://git-lfs.github.com/spec/v1
+oid sha256:af09b0cb96c80ba2c2efbb742971e5d8d3f924752b6de7ace4783c83116d6d77
 size 497918592

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7968000509952032,
   "eval_steps": 50000,
-  "global_step": 50000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21,6 +21,20 @@
       "eval_samples_per_second": 111.193,
       "eval_steps_per_second": 1.738,
       "step": 50000
     }
   ],
   "logging_steps": 50000,
@@ -28,7 +42,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 500,
   "save_steps": 50000,
-  "total_flos": 1.045168128e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.5936001019904067,
   "eval_steps": 50000,
+  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 111.193,
       "eval_steps_per_second": 1.738,
       "step": 50000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 4.992035346050262e-05,
+      "loss": 1.0123,
+      "step": 100000
+    },
+    {
+      "epoch": 1.59,
+      "eval_loss": 0.9693423509597778,
+      "eval_runtime": 1995.4615,
+      "eval_samples_per_second": 111.811,
+      "eval_steps_per_second": 1.747,
+      "step": 100000
     }
   ],
   "logging_steps": 50000,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 500,
   "save_steps": 50000,
+  "total_flos": 2.0903329898496e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null