Training in progress, step 1140

Browse files

Files changed (13) hide show

last-checkpoint/{global_step857 → global_step1143}/mp_rank_00_model_states.pt +1 -1
last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/trainer_state.json +345 -3
pytorch_model.bin +1 -1

last-checkpoint/{global_step857 → global_step1143}/mp_rank_00_model_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3a630eb85c546e2a07ac67c656eb0e589ff4107478d6b2543b9322f0fbe72b1
 size 5363072554

 version https://git-lfs.github.com/spec/v1
+oid sha256:b30eb2fb488eaec8a27bb0b26a171963d3112a31c76479ce8dfdd718e9567bf2
 size 5363072554

last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_0_mp_rank_00_optim_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b95e0c9296447f3b32cf983d2d32a532f3f8ca8faae670015e519c60d435217c
 size 3946735038

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3e6445cc536442d208833ad59863f984bc71140490a8cd3e18575006fcdd4e1
 size 3946735038

last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_1_mp_rank_00_optim_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4662a42a5837ec98df8be88d9356eb7a10489c8c460ae7e651b186a0b1f0cb4e
 size 3946736318

 version https://git-lfs.github.com/spec/v1
+oid sha256:11f87ca6a8d81d91ce9669ce0a0b132e16e31c589165b9dfc0f95bec607a1ce3
 size 3946736318

last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_2_mp_rank_00_optim_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a214156058270c73328399c945dc9c19b7da43012c26fa5049715b294e26fee8
 size 3946737086

 version https://git-lfs.github.com/spec/v1
+oid sha256:076063a2d14362bcc0562f87c7d5497798acb4d6078c32ba220db1ed473f33c8
 size 3946737086

last-checkpoint/{global_step857 → global_step1143}/zero_pp_rank_3_mp_rank_00_optim_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af259a1a8fa70e65efaa3a50e1cac3ec7dcea2ec7741117ac8635c6ebe92b5a2
 size 3946736574

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5e8189f9e1fe3d7e7bb628368a866880f0176b1f62f4c271d4ccf25c9e8e98a
 size 3946736574

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step857~~


1	+ global_step1143

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51a52db4c4e75a7734032ea56f6f10e21c679ce9cc10bf8afa9a21d755ad0786
 size 5363024236

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6d85bffffb2fe97ca10f0460ebc0b029a11e6d606ade9c54de58bcb6de72ec8
 size 5363024236

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a97da7e20ed21c52148b2c6483b85625b2f9a1548b88aab792c65e6bb4d559c
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f6bc3b332b1d7b34dd8e7d7ed0389c868155059ddb1d908e9ac3feb6672b23c
 size 14583

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9eb4a21668b5edfedcaeaf648657fd094bc648e6be668a28a363580b1df942e
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:8de5e0c7dadcd828a8d62fffc136e170202022509240a895985c7bc45cabbced
 size 14583

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0cb115f60f5dd227aeccffe5a14cb6955351d121ecfaafda0f2b7e3e864724da
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c420d12d8aa09a561480241f19154d4aedd8a866de54ed145d69f860bae6f94
 size 14583

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6db79cebd88fef28a9a7b5fe9a95e92b060fb78ee4e200f6d1d1fd8583e5e5e
 size 14583

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec873fd7c31f869e7956f098c0d1e17d2296924b3c55e4971a059dd097690b6f
 size 14583

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.747132714363736,
-  "global_step": 855,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1038,11 +1038,353 @@
       "learning_rate": 5e-05,
       "loss": 0.057,
       "step": 855
     }
   ],
   "max_steps": 1140,
   "num_train_epochs": 5,
-  "total_flos": 6.520473573302206e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.996176952484981,
+  "global_step": 1140,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 5e-05,
       "loss": 0.057,
       "step": 855
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 5e-05,
+      "loss": 0.0539,
+      "step": 860
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 5e-05,
+      "loss": 0.0529,
+      "step": 865
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 5e-05,
+      "loss": 0.0552,
+      "step": 870
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 5e-05,
+      "loss": 0.0547,
+      "step": 875
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 5e-05,
+      "loss": 0.0553,
+      "step": 880
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 5e-05,
+      "loss": 0.0558,
+      "step": 885
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 5e-05,
+      "loss": 0.054,
+      "step": 890
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 5e-05,
+      "loss": 0.0549,
+      "step": 895
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 5e-05,
+      "loss": 0.0544,
+      "step": 900
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 5e-05,
+      "loss": 0.0558,
+      "step": 905
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 5e-05,
+      "loss": 0.0545,
+      "step": 910
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 5e-05,
+      "loss": 0.0604,
+      "step": 915
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 5e-05,
+      "loss": 0.0497,
+      "step": 920
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 5e-05,
+      "loss": 0.049,
+      "step": 925
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 5e-05,
+      "loss": 0.0488,
+      "step": 930
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 5e-05,
+      "loss": 0.0495,
+      "step": 935
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 5e-05,
+      "loss": 0.049,
+      "step": 940
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 5e-05,
+      "loss": 0.0502,
+      "step": 945
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 5e-05,
+      "loss": 0.0493,
+      "step": 950
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 5e-05,
+      "loss": 0.0496,
+      "step": 955
+    },
+    {
+      "epoch": 4.21,
+      "learning_rate": 5e-05,
+      "loss": 0.0475,
+      "step": 960
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 5e-05,
+      "loss": 0.0486,
+      "step": 965
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 5e-05,
+      "loss": 0.0503,
+      "step": 970
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 5e-05,
+      "loss": 0.0508,
+      "step": 975
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 5e-05,
+      "loss": 0.0501,
+      "step": 980
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 5e-05,
+      "loss": 0.0499,
+      "step": 985
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 5e-05,
+      "loss": 0.0485,
+      "step": 990
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 5e-05,
+      "loss": 0.0494,
+      "step": 995
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 5e-05,
+      "loss": 0.0503,
+      "step": 1000
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 5e-05,
+      "loss": 0.0512,
+      "step": 1005
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 5e-05,
+      "loss": 0.0513,
+      "step": 1010
+    },
+    {
+      "epoch": 4.45,
+      "learning_rate": 5e-05,
+      "loss": 0.0496,
+      "step": 1015
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 5e-05,
+      "loss": 0.0493,
+      "step": 1020
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 5e-05,
+      "loss": 0.0516,
+      "step": 1025
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 5e-05,
+      "loss": 0.0498,
+      "step": 1030
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 5e-05,
+      "loss": 0.0498,
+      "step": 1035
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 5e-05,
+      "loss": 0.0491,
+      "step": 1040
+    },
+    {
+      "epoch": 4.58,
+      "learning_rate": 5e-05,
+      "loss": 0.047,
+      "step": 1045
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 5e-05,
+      "loss": 0.0493,
+      "step": 1050
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 5e-05,
+      "loss": 0.0488,
+      "step": 1055
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 5e-05,
+      "loss": 0.0502,
+      "step": 1060
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 5e-05,
+      "loss": 0.0511,
+      "step": 1065
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 5e-05,
+      "loss": 0.0498,
+      "step": 1070
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 5e-05,
+      "loss": 0.0511,
+      "step": 1075
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 5e-05,
+      "loss": 0.0498,
+      "step": 1080
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 5e-05,
+      "loss": 0.0521,
+      "step": 1085
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 5e-05,
+      "loss": 0.0503,
+      "step": 1090
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 5e-05,
+      "loss": 0.0509,
+      "step": 1095
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 5e-05,
+      "loss": 0.0523,
+      "step": 1100
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 5e-05,
+      "loss": 0.0465,
+      "step": 1105
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 5e-05,
+      "loss": 0.0521,
+      "step": 1110
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 5e-05,
+      "loss": 0.0488,
+      "step": 1115
+    },
+    {
+      "epoch": 4.91,
+      "learning_rate": 5e-05,
+      "loss": 0.0488,
+      "step": 1120
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 5e-05,
+      "loss": 0.0502,
+      "step": 1125
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 5e-05,
+      "loss": 0.048,
+      "step": 1130
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 5e-05,
+      "loss": 0.0497,
+      "step": 1135
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 5e-05,
+      "loss": 0.0484,
+      "step": 1140
     }
   ],
   "max_steps": 1140,
   "num_train_epochs": 5,
+  "total_flos": 8.693964764402942e+18,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51a52db4c4e75a7734032ea56f6f10e21c679ce9cc10bf8afa9a21d755ad0786
 size 5363024236

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6d85bffffb2fe97ca10f0460ebc0b029a11e6d606ade9c54de58bcb6de72ec8
 size 5363024236