Training in progress, step 800000

Browse files

Files changed (7) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +312 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12427d8cb55bc137001ab5c9a8222ed6a6f243dbb40efea27baa36c1640602ec
 size 885330713

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd4e9f97205769b9d327217534afeab7d15d8878377c4702248f6d8106176224
 size 885330713

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f7d237efb7293fe26e971dbe427368c6f6fbdef8f5d21e25a2265500a4e6fa4
 size 442678571

 version https://git-lfs.github.com/spec/v1
+oid sha256:9308899e7cf9b42f3d67f27af3fc47d5047d1474ee940ca97311078cf54325b8
 size 442678571

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc61d70c21a4fc2ed632e1ea3c73eebca5da0e8af02c14be9957f3a9c9d54348
 size 17563

 version https://git-lfs.github.com/spec/v1
+oid sha256:063012cc8e8259f90140aa24921bb350f0801958a91aea05b73d5ff385433a8e
 size 17563

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a4e406e7382112b0689f4693a38031e699bebf288b4ec12177f0b10ca11a3b6
 size 559

 version https://git-lfs.github.com/spec/v1
+oid sha256:5dfd958abf22782455e0945b592950503a89b2eff4aac0ecd4b072d0e9cd3f74
 size 559

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba18b7e75c348f39be1644097821a4dfa1ecd7782f3d73a5b96038989ffadeb2
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a782142f42cbef3421597d05870d8435f13392f6658de5fc017128ff2f53ff61
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.139467,
-  "global_step": 750000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4641,11 +4641,320 @@
       "eval_samples_per_second": 455.192,
       "eval_steps_per_second": 0.91,
       "step": 750000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 9223372036854775807,
-  "total_flos": 5.053617476072374e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.189467,
+  "global_step": 800000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 455.192,
       "eval_steps_per_second": 0.91,
       "step": 750000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.6050007694457925e-05,
+      "loss": 0.8906,
+      "step": 751000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.592892699662655e-05,
+      "loss": 0.7487,
+      "step": 752000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.5808097506834524e-05,
+      "loss": 0.7857,
+      "step": 753000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.5687641934210118e-05,
+      "loss": 0.7229,
+      "step": 754000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.556768148850735e-05,
+      "loss": 0.7239,
+      "step": 755000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.544797732076107e-05,
+      "loss": 0.923,
+      "step": 756000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.532877014553799e-05,
+      "loss": 0.9589,
+      "step": 757000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.5209822613682983e-05,
+      "loss": 0.9368,
+      "step": 758000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.5091255541633964e-05,
+      "loss": 0.9942,
+      "step": 759000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.4973188220219254e-05,
+      "loss": 0.996,
+      "step": 760000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.4855385569805891e-05,
+      "loss": 0.898,
+      "step": 761000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.4738084481176312e-05,
+      "loss": 0.8023,
+      "step": 762000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.4621051400316382e-05,
+      "loss": 0.7635,
+      "step": 763000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.4504405217970129e-05,
+      "loss": 0.7792,
+      "step": 764000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 1.4388263273453235e-05,
+      "loss": 0.8774,
+      "step": 765000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.4272509994685329e-05,
+      "loss": 1.0395,
+      "step": 766000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.4157031361942913e-05,
+      "loss": 1.0266,
+      "step": 767000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.4041944702162985e-05,
+      "loss": 1.0627,
+      "step": 768000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.3927251273914792e-05,
+      "loss": 1.083,
+      "step": 769000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.3813066432947708e-05,
+      "loss": 1.0811,
+      "step": 770000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.3699162829897188e-05,
+      "loss": 0.9505,
+      "step": 771000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.358576951490385e-05,
+      "loss": 0.9315,
+      "step": 772000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.3472660714582335e-05,
+      "loss": 0.9083,
+      "step": 773000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.3360063880794788e-05,
+      "loss": 0.8656,
+      "step": 774000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 1.3247754826001119e-05,
+      "loss": 0.9627,
+      "step": 775000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.3135847687872443e-05,
+      "loss": 0.9883,
+      "step": 776000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.3024454992430079e-05,
+      "loss": 0.9516,
+      "step": 777000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2913354949650841e-05,
+      "loss": 1.044,
+      "step": 778000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2802881463850613e-05,
+      "loss": 1.0429,
+      "step": 779000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2692592964051836e-05,
+      "loss": 0.9851,
+      "step": 780000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2582712452079226e-05,
+      "loss": 0.8493,
+      "step": 781000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2473241129568458e-05,
+      "loss": 0.7932,
+      "step": 782000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.236428904923082e-05,
+      "loss": 0.702,
+      "step": 783000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2255639280464832e-05,
+      "loss": 0.6618,
+      "step": 784000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.2147402277980474e-05,
+      "loss": 0.8469,
+      "step": 785000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.2039686841331998e-05,
+      "loss": 0.9126,
+      "step": 786000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1932278502155054e-05,
+      "loss": 0.8954,
+      "step": 787000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1825286465481434e-05,
+      "loss": 0.9188,
+      "step": 788000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1718818267007175e-05,
+      "loss": 0.9873,
+      "step": 789000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1612661921699398e-05,
+      "loss": 0.9544,
+      "step": 790000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.150703090064395e-05,
+      "loss": 0.801,
+      "step": 791000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1401714885682025e-05,
+      "loss": 0.8218,
+      "step": 792000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1296820975382121e-05,
+      "loss": 0.7743,
+      "step": 793000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1192454575710875e-05,
+      "loss": 0.7675,
+      "step": 794000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.1088407886452029e-05,
+      "loss": 0.9008,
+      "step": 795000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.0984890136358416e-05,
+      "loss": 0.8879,
+      "step": 796000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.0881695214929688e-05,
+      "loss": 0.9673,
+      "step": 797000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.0778928085014794e-05,
+      "loss": 1.0564,
+      "step": 798000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.0676691994057019e-05,
+      "loss": 1.0726,
+      "step": 799000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.0574783383421865e-05,
+      "loss": 0.9626,
+      "step": 800000
+    },
+    {
+      "epoch": 1.19,
+      "eval_accuracy": 0.8352768932764173,
+      "eval_loss": 0.7242327928543091,
+      "eval_runtime": 12.0402,
+      "eval_samples_per_second": 415.274,
+      "eval_steps_per_second": 0.831,
+      "step": 800000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 9223372036854775807,
+  "total_flos": 5.390525448188854e+19,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f7d237efb7293fe26e971dbe427368c6f6fbdef8f5d21e25a2265500a4e6fa4
 size 442678571

 version https://git-lfs.github.com/spec/v1
+oid sha256:9308899e7cf9b42f3d67f27af3fc47d5047d1474ee940ca97311078cf54325b8
 size 442678571