Rubywong123 commited on Aug 6

Commit

f16d196

verified ·

1 Parent(s): e9edfcb

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

all_results.json +5 -5
checkpoint-78/global_step78/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-78/global_step78/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
checkpoint-78/global_step78/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
checkpoint-78/global_step78/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
checkpoint-78/model-00001-of-00004.safetensors +1 -1
checkpoint-78/model-00002-of-00004.safetensors +1 -1
checkpoint-78/model-00003-of-00004.safetensors +1 -1
checkpoint-78/model-00004-of-00004.safetensors +1 -1
checkpoint-78/trainer_state.json +41 -41
checkpoint-78/training_args.bin +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +46 -46
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.9915254237288136,
-    "total_flos": 2.0040717157217075e+17,
-    "train_loss": 0.3583613080091966,
-    "train_runtime": 1046.9285,
     "train_samples": 1886,
-    "train_samples_per_second": 3.603,
-    "train_steps_per_second": 0.075
 }

 {
     "epoch": 1.9915254237288136,
+    "total_flos": 1.99474976032555e+17,
+    "train_loss": 0.34869656616296524,
+    "train_runtime": 1209.7175,
     "train_samples": 1886,
+    "train_samples_per_second": 3.118,
+    "train_steps_per_second": 0.064
 }

checkpoint-78/global_step78/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e706c0f6ba1146d24b0d603079e53bd473f0b2a326a13d8e956e9c2e1112e629
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e19f69cd69f06c047b856af37fa26be7ecc2f1652ffed106e4ed67de201a92e
 size 24090788620

checkpoint-78/global_step78/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:706e7871adce3e6888b154ca136c3ceb5c250427de657bfc6c7720e531243275
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:74860641fa0d8b9a1875f73da806d2c7699a33ee66d53e11e3b4fd59fb9d3d3f
 size 24090788620

checkpoint-78/global_step78/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bbffc12416615fc410d75419c6d3a8ec95587ad55f2b97872d20b914e7f48d6
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:1726f0da5f7454310ac5250cf76bc31467df4c7396e597cf9090a298a620af37
 size 24090788620

checkpoint-78/global_step78/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd785912a6abdbe045de567e5c1c2adb0c193ff25406eb6a5490792eaa13666b
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:44b6735808c7da1530a9462e9dbb4fde337a22ce7ebebb500a37a81cf5b63a3b
 size 24090788620

checkpoint-78/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82d7684f0bc2d9ba8cae8438d38b9f13df930e561a00db485fb33be89e83a0cc
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:9463134d24a68e5467a165936344f7888de6dc726a027ff8087ca17573d59ed8
 size 4976698672

checkpoint-78/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcb4cbe4ed92182813741623598059e78fc5b0db59dce56cfa210a0fc186e7ca
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:82ed7d48cd123c89198e1f24f44b6af5b86f4f420c1b7eb7ade81652ce1e6dab
 size 4999802720

checkpoint-78/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88bdabd82844250933c777821ffa80dd245c0c9c8c553092254832b17d6e9cd9
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6e803792750c32787a675e62d8189bb5df6a8122a89ce8df44fe3aedef0a169
 size 4915916176

checkpoint-78/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:300bcb73b19b2c48b147c91dfc95b728037c5278340cbae67b3793e4168300d9
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8447e4e7a0ae4a548b4b3a321fe1b5da3db47b3ff391b973c498853fa3ee701
 size 1168138808

checkpoint-78/trainer_state.json CHANGED Viewed

@@ -10,130 +10,130 @@
   "log_history": [
     {
       "epoch": 0.025423728813559324,
-      "grad_norm": 0.0730147390450625,
       "learning_rate": 1.25e-06,
-      "loss": 0.4558,
       "step": 1
     },
     {
       "epoch": 0.1271186440677966,
-      "grad_norm": 0.06534838050795798,
       "learning_rate": 6.25e-06,
-      "loss": 0.4283,
       "step": 5
     },
     {
       "epoch": 0.2542372881355932,
-      "grad_norm": 0.07880361896680486,
       "learning_rate": 9.979871469976197e-06,
-      "loss": 0.4333,
       "step": 10
     },
     {
       "epoch": 0.3813559322033898,
-      "grad_norm": 0.06167813403187308,
       "learning_rate": 9.755282581475769e-06,
-      "loss": 0.3957,
       "step": 15
     },
     {
       "epoch": 0.5084745762711864,
-      "grad_norm": 0.056345965720785644,
       "learning_rate": 9.292243968009332e-06,
-      "loss": 0.3871,
       "step": 20
     },
     {
       "epoch": 0.635593220338983,
-      "grad_norm": 0.05709095573219508,
       "learning_rate": 8.613974319136959e-06,
-      "loss": 0.4074,
       "step": 25
     },
     {
       "epoch": 0.7627118644067796,
-      "grad_norm": 0.05325720652524892,
       "learning_rate": 7.754484907260513e-06,
-      "loss": 0.3923,
       "step": 30
     },
     {
       "epoch": 0.8898305084745762,
-      "grad_norm": 0.06496552156375579,
       "learning_rate": 6.7568741204067145e-06,
-      "loss": 0.3506,
       "step": 35
     },
     {
       "epoch": 0.9915254237288136,
-      "eval_loss": 0.42708608508110046,
-      "eval_runtime": 28.3391,
-      "eval_samples_per_second": 19.373,
-      "eval_steps_per_second": 4.87,
       "step": 39
     },
     {
       "epoch": 1.0254237288135593,
-      "grad_norm": 0.11980842959729002,
       "learning_rate": 5.671166329088278e-06,
-      "loss": 0.4393,
       "step": 40
     },
     {
       "epoch": 1.152542372881356,
-      "grad_norm": 0.05843339680839595,
       "learning_rate": 4.551803455482833e-06,
-      "loss": 0.3204,
       "step": 45
     },
     {
       "epoch": 1.2796610169491525,
-      "grad_norm": 0.054919903247120906,
       "learning_rate": 3.4549150281252635e-06,
-      "loss": 0.3555,
       "step": 50
     },
     {
       "epoch": 1.4067796610169492,
-      "grad_norm": 0.07085936292685689,
       "learning_rate": 2.43550361297047e-06,
-      "loss": 0.3271,
       "step": 55
     },
     {
       "epoch": 1.5338983050847457,
-      "grad_norm": 0.06803901954956897,
       "learning_rate": 1.544686755065677e-06,
-      "loss": 0.3118,
       "step": 60
     },
     {
       "epoch": 1.6610169491525424,
-      "grad_norm": 0.06855321202228915,
       "learning_rate": 8.271337313934869e-07,
-      "loss": 0.2804,
       "step": 65
     },
     {
       "epoch": 1.788135593220339,
-      "grad_norm": 0.06749004000856927,
       "learning_rate": 3.18825646801314e-07,
-      "loss": 0.2871,
       "step": 70
     },
     {
       "epoch": 1.9152542372881356,
-      "grad_norm": 0.06909307377658395,
       "learning_rate": 4.52511911603265e-08,
-      "loss": 0.2896,
       "step": 75
     },
     {
       "epoch": 1.9915254237288136,
-      "eval_loss": 0.43976882100105286,
-      "eval_runtime": 28.393,
-      "eval_samples_per_second": 19.336,
-      "eval_steps_per_second": 4.86,
       "step": 78
     }
   ],
@@ -154,7 +154,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0040717157217075e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.025423728813559324,
+      "grad_norm": 0.08035527647801548,
       "learning_rate": 1.25e-06,
+      "loss": 0.4007,
       "step": 1
     },
     {
       "epoch": 0.1271186440677966,
+      "grad_norm": 0.05733009561118041,
       "learning_rate": 6.25e-06,
+      "loss": 0.4134,
       "step": 5
     },
     {
       "epoch": 0.2542372881355932,
+      "grad_norm": 0.061316952771613246,
       "learning_rate": 9.979871469976197e-06,
+      "loss": 0.4061,
       "step": 10
     },
     {
       "epoch": 0.3813559322033898,
+      "grad_norm": 0.0706914793637617,
       "learning_rate": 9.755282581475769e-06,
+      "loss": 0.4018,
       "step": 15
     },
     {
       "epoch": 0.5084745762711864,
+      "grad_norm": 0.06306250853537879,
       "learning_rate": 9.292243968009332e-06,
+      "loss": 0.4068,
       "step": 20
     },
     {
       "epoch": 0.635593220338983,
+      "grad_norm": 0.05396739437655817,
       "learning_rate": 8.613974319136959e-06,
+      "loss": 0.388,
       "step": 25
     },
     {
       "epoch": 0.7627118644067796,
+      "grad_norm": 0.055943979296443166,
       "learning_rate": 7.754484907260513e-06,
+      "loss": 0.3379,
       "step": 30
     },
     {
       "epoch": 0.8898305084745762,
+      "grad_norm": 0.06643011122771461,
       "learning_rate": 6.7568741204067145e-06,
+      "loss": 0.3801,
       "step": 35
     },
     {
       "epoch": 0.9915254237288136,
+      "eval_loss": 0.42687076330184937,
+      "eval_runtime": 29.2208,
+      "eval_samples_per_second": 18.788,
+      "eval_steps_per_second": 4.723,
       "step": 39
     },
     {
       "epoch": 1.0254237288135593,
+      "grad_norm": 0.1257204507458321,
       "learning_rate": 5.671166329088278e-06,
+      "loss": 0.4294,
       "step": 40
     },
     {
       "epoch": 1.152542372881356,
+      "grad_norm": 0.061247984812326635,
       "learning_rate": 4.551803455482833e-06,
+      "loss": 0.3162,
       "step": 45
     },
     {
       "epoch": 1.2796610169491525,
+      "grad_norm": 0.06297833414755911,
       "learning_rate": 3.4549150281252635e-06,
+      "loss": 0.3145,
       "step": 50
     },
     {
       "epoch": 1.4067796610169492,
+      "grad_norm": 0.06687382967843461,
       "learning_rate": 2.43550361297047e-06,
+      "loss": 0.2941,
       "step": 55
     },
     {
       "epoch": 1.5338983050847457,
+      "grad_norm": 0.06683369207674608,
       "learning_rate": 1.544686755065677e-06,
+      "loss": 0.3145,
       "step": 60
     },
     {
       "epoch": 1.6610169491525424,
+      "grad_norm": 0.0813495468013659,
       "learning_rate": 8.271337313934869e-07,
+      "loss": 0.2945,
       "step": 65
     },
     {
       "epoch": 1.788135593220339,
+      "grad_norm": 0.07371530295761193,
       "learning_rate": 3.18825646801314e-07,
+      "loss": 0.3056,
       "step": 70
     },
     {
       "epoch": 1.9152542372881356,
+      "grad_norm": 0.06581699726337101,
       "learning_rate": 4.52511911603265e-08,
+      "loss": 0.2775,
       "step": 75
     },
     {
       "epoch": 1.9915254237288136,
+      "eval_loss": 0.443694531917572,
+      "eval_runtime": 28.5624,
+      "eval_samples_per_second": 19.221,
+      "eval_steps_per_second": 4.832,
       "step": 78
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 1.99474976032555e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-78/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc225b746e1882b49dcf5edd66225f1ecc9a54067aa2a93b6ed09a0bda7fe700
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:1506ee53478326afd61ccdceba54438180344163122931a3bb2d342d659bade0
 size 7352

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82d7684f0bc2d9ba8cae8438d38b9f13df930e561a00db485fb33be89e83a0cc
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:9463134d24a68e5467a165936344f7888de6dc726a027ff8087ca17573d59ed8
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcb4cbe4ed92182813741623598059e78fc5b0db59dce56cfa210a0fc186e7ca
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:82ed7d48cd123c89198e1f24f44b6af5b86f4f420c1b7eb7ade81652ce1e6dab
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88bdabd82844250933c777821ffa80dd245c0c9c8c553092254832b17d6e9cd9
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6e803792750c32787a675e62d8189bb5df6a8122a89ce8df44fe3aedef0a169
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:300bcb73b19b2c48b147c91dfc95b728037c5278340cbae67b3793e4168300d9
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8447e4e7a0ae4a548b4b3a321fe1b5da3db47b3ff391b973c498853fa3ee701
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.9915254237288136,
-    "total_flos": 2.0040717157217075e+17,
-    "train_loss": 0.3583613080091966,
-    "train_runtime": 1046.9285,
     "train_samples": 1886,
-    "train_samples_per_second": 3.603,
-    "train_steps_per_second": 0.075
 }

 {
     "epoch": 1.9915254237288136,
+    "total_flos": 1.99474976032555e+17,
+    "train_loss": 0.34869656616296524,
+    "train_runtime": 1209.7175,
     "train_samples": 1886,
+    "train_samples_per_second": 3.118,
+    "train_steps_per_second": 0.064
 }

trainer_state.json CHANGED Viewed

@@ -10,140 +10,140 @@
   "log_history": [
     {
       "epoch": 0.025423728813559324,
-      "grad_norm": 0.0730147390450625,
       "learning_rate": 1.25e-06,
-      "loss": 0.4558,
       "step": 1
     },
     {
       "epoch": 0.1271186440677966,
-      "grad_norm": 0.06534838050795798,
       "learning_rate": 6.25e-06,
-      "loss": 0.4283,
       "step": 5
     },
     {
       "epoch": 0.2542372881355932,
-      "grad_norm": 0.07880361896680486,
       "learning_rate": 9.979871469976197e-06,
-      "loss": 0.4333,
       "step": 10
     },
     {
       "epoch": 0.3813559322033898,
-      "grad_norm": 0.06167813403187308,
       "learning_rate": 9.755282581475769e-06,
-      "loss": 0.3957,
       "step": 15
     },
     {
       "epoch": 0.5084745762711864,
-      "grad_norm": 0.056345965720785644,
       "learning_rate": 9.292243968009332e-06,
-      "loss": 0.3871,
       "step": 20
     },
     {
       "epoch": 0.635593220338983,
-      "grad_norm": 0.05709095573219508,
       "learning_rate": 8.613974319136959e-06,
-      "loss": 0.4074,
       "step": 25
     },
     {
       "epoch": 0.7627118644067796,
-      "grad_norm": 0.05325720652524892,
       "learning_rate": 7.754484907260513e-06,
-      "loss": 0.3923,
       "step": 30
     },
     {
       "epoch": 0.8898305084745762,
-      "grad_norm": 0.06496552156375579,
       "learning_rate": 6.7568741204067145e-06,
-      "loss": 0.3506,
       "step": 35
     },
     {
       "epoch": 0.9915254237288136,
-      "eval_loss": 0.42708608508110046,
-      "eval_runtime": 28.3391,
-      "eval_samples_per_second": 19.373,
-      "eval_steps_per_second": 4.87,
       "step": 39
     },
     {
       "epoch": 1.0254237288135593,
-      "grad_norm": 0.11980842959729002,
       "learning_rate": 5.671166329088278e-06,
-      "loss": 0.4393,
       "step": 40
     },
     {
       "epoch": 1.152542372881356,
-      "grad_norm": 0.05843339680839595,
       "learning_rate": 4.551803455482833e-06,
-      "loss": 0.3204,
       "step": 45
     },
     {
       "epoch": 1.2796610169491525,
-      "grad_norm": 0.054919903247120906,
       "learning_rate": 3.4549150281252635e-06,
-      "loss": 0.3555,
       "step": 50
     },
     {
       "epoch": 1.4067796610169492,
-      "grad_norm": 0.07085936292685689,
       "learning_rate": 2.43550361297047e-06,
-      "loss": 0.3271,
       "step": 55
     },
     {
       "epoch": 1.5338983050847457,
-      "grad_norm": 0.06803901954956897,
       "learning_rate": 1.544686755065677e-06,
-      "loss": 0.3118,
       "step": 60
     },
     {
       "epoch": 1.6610169491525424,
-      "grad_norm": 0.06855321202228915,
       "learning_rate": 8.271337313934869e-07,
-      "loss": 0.2804,
       "step": 65
     },
     {
       "epoch": 1.788135593220339,
-      "grad_norm": 0.06749004000856927,
       "learning_rate": 3.18825646801314e-07,
-      "loss": 0.2871,
       "step": 70
     },
     {
       "epoch": 1.9152542372881356,
-      "grad_norm": 0.06909307377658395,
       "learning_rate": 4.52511911603265e-08,
-      "loss": 0.2896,
       "step": 75
     },
     {
       "epoch": 1.9915254237288136,
-      "eval_loss": 0.43976882100105286,
-      "eval_runtime": 28.393,
-      "eval_samples_per_second": 19.336,
-      "eval_steps_per_second": 4.86,
       "step": 78
     },
     {
       "epoch": 1.9915254237288136,
       "step": 78,
-      "total_flos": 2.0040717157217075e+17,
-      "train_loss": 0.3583613080091966,
-      "train_runtime": 1046.9285,
-      "train_samples_per_second": 3.603,
-      "train_steps_per_second": 0.075
     }
   ],
   "logging_steps": 5,
@@ -163,7 +163,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0040717157217075e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.025423728813559324,
+      "grad_norm": 0.08035527647801548,
       "learning_rate": 1.25e-06,
+      "loss": 0.4007,
       "step": 1
     },
     {
       "epoch": 0.1271186440677966,
+      "grad_norm": 0.05733009561118041,
       "learning_rate": 6.25e-06,
+      "loss": 0.4134,
       "step": 5
     },
     {
       "epoch": 0.2542372881355932,
+      "grad_norm": 0.061316952771613246,
       "learning_rate": 9.979871469976197e-06,
+      "loss": 0.4061,
       "step": 10
     },
     {
       "epoch": 0.3813559322033898,
+      "grad_norm": 0.0706914793637617,
       "learning_rate": 9.755282581475769e-06,
+      "loss": 0.4018,
       "step": 15
     },
     {
       "epoch": 0.5084745762711864,
+      "grad_norm": 0.06306250853537879,
       "learning_rate": 9.292243968009332e-06,
+      "loss": 0.4068,
       "step": 20
     },
     {
       "epoch": 0.635593220338983,
+      "grad_norm": 0.05396739437655817,
       "learning_rate": 8.613974319136959e-06,
+      "loss": 0.388,
       "step": 25
     },
     {
       "epoch": 0.7627118644067796,
+      "grad_norm": 0.055943979296443166,
       "learning_rate": 7.754484907260513e-06,
+      "loss": 0.3379,
       "step": 30
     },
     {
       "epoch": 0.8898305084745762,
+      "grad_norm": 0.06643011122771461,
       "learning_rate": 6.7568741204067145e-06,
+      "loss": 0.3801,
       "step": 35
     },
     {
       "epoch": 0.9915254237288136,
+      "eval_loss": 0.42687076330184937,
+      "eval_runtime": 29.2208,
+      "eval_samples_per_second": 18.788,
+      "eval_steps_per_second": 4.723,
       "step": 39
     },
     {
       "epoch": 1.0254237288135593,
+      "grad_norm": 0.1257204507458321,
       "learning_rate": 5.671166329088278e-06,
+      "loss": 0.4294,
       "step": 40
     },
     {
       "epoch": 1.152542372881356,
+      "grad_norm": 0.061247984812326635,
       "learning_rate": 4.551803455482833e-06,
+      "loss": 0.3162,
       "step": 45
     },
     {
       "epoch": 1.2796610169491525,
+      "grad_norm": 0.06297833414755911,
       "learning_rate": 3.4549150281252635e-06,
+      "loss": 0.3145,
       "step": 50
     },
     {
       "epoch": 1.4067796610169492,
+      "grad_norm": 0.06687382967843461,
       "learning_rate": 2.43550361297047e-06,
+      "loss": 0.2941,
       "step": 55
     },
     {
       "epoch": 1.5338983050847457,
+      "grad_norm": 0.06683369207674608,
       "learning_rate": 1.544686755065677e-06,
+      "loss": 0.3145,
       "step": 60
     },
     {
       "epoch": 1.6610169491525424,
+      "grad_norm": 0.0813495468013659,
       "learning_rate": 8.271337313934869e-07,
+      "loss": 0.2945,
       "step": 65
     },
     {
       "epoch": 1.788135593220339,
+      "grad_norm": 0.07371530295761193,
       "learning_rate": 3.18825646801314e-07,
+      "loss": 0.3056,
       "step": 70
     },
     {
       "epoch": 1.9152542372881356,
+      "grad_norm": 0.06581699726337101,
       "learning_rate": 4.52511911603265e-08,
+      "loss": 0.2775,
       "step": 75
     },
     {
       "epoch": 1.9915254237288136,
+      "eval_loss": 0.443694531917572,
+      "eval_runtime": 28.5624,
+      "eval_samples_per_second": 19.221,
+      "eval_steps_per_second": 4.832,
       "step": 78
     },
     {
       "epoch": 1.9915254237288136,
       "step": 78,
+      "total_flos": 1.99474976032555e+17,
+      "train_loss": 0.34869656616296524,
+      "train_runtime": 1209.7175,
+      "train_samples_per_second": 3.118,
+      "train_steps_per_second": 0.064
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.99474976032555e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc225b746e1882b49dcf5edd66225f1ecc9a54067aa2a93b6ed09a0bda7fe700
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:1506ee53478326afd61ccdceba54438180344163122931a3bb2d342d659bade0
 size 7352