Training in progress, step 59000

Browse files

Files changed (12) hide show

adapter_model.bin +1 -1
{checkpoint-55000 → checkpoint-58000/adapter_model}/README.md +0 -0
{checkpoint-55000 → checkpoint-58000/adapter_model}/adapter_config.json +0 -0
{checkpoint-55000 → checkpoint-58000/adapter_model}/adapter_model.bin +1 -1
{checkpoint-55000/adapter_model → checkpoint-59000}/README.md +0 -0
{checkpoint-55000/adapter_model → checkpoint-59000}/adapter_config.json +0 -0
{checkpoint-55000/adapter_model → checkpoint-59000}/adapter_model.bin +1 -1
{checkpoint-55000 → checkpoint-59000}/optimizer.pt +1 -1
{checkpoint-55000 → checkpoint-59000}/rng_state.pth +1 -1
{checkpoint-55000 → checkpoint-59000}/scheduler.pt +1 -1
{checkpoint-55000 → checkpoint-59000}/trainer_state.json +277 -5
{checkpoint-55000 → checkpoint-59000}/training_args.bin +0 -0

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf9efdf73d7ecc9f45ca166bec5b70555182c38338e6de139c6203b8a009fc59
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:f56b8a333605f03b496496aac3531e5eb50e390d67be06083619275a78de77da
 size 500897101

{checkpoint-55000 → checkpoint-58000/adapter_model}/README.md RENAMED Viewed

File without changes

{checkpoint-55000 → checkpoint-58000/adapter_model}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-55000 → checkpoint-58000/adapter_model}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f8b0f0db95ea8131359795995cdc710c82f988052688d4cb6fe2ddae5cacce5
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf9efdf73d7ecc9f45ca166bec5b70555182c38338e6de139c6203b8a009fc59
 size 500897101

{checkpoint-55000/adapter_model → checkpoint-59000}/README.md RENAMED Viewed

File without changes

{checkpoint-55000/adapter_model → checkpoint-59000}/adapter_config.json RENAMED Viewed

File without changes

{checkpoint-55000/adapter_model → checkpoint-59000}/adapter_model.bin RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f8b0f0db95ea8131359795995cdc710c82f988052688d4cb6fe2ddae5cacce5
 size 500897101

 version https://git-lfs.github.com/spec/v1
+oid sha256:f56b8a333605f03b496496aac3531e5eb50e390d67be06083619275a78de77da
 size 500897101

{checkpoint-55000 → checkpoint-59000}/optimizer.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c88ae3cc26774425e6ffff0abb81ec12ed8fbe2579554a9bd2a67b2403b938e4
 size 1001723453

 version https://git-lfs.github.com/spec/v1
+oid sha256:b26d7da827461914ac19ca3bc7f168368f4015c2a5364188dfe94a4e3cfde0cb
 size 1001723453

{checkpoint-55000 → checkpoint-59000}/rng_state.pth RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39e3e89f36f4ba7d699b28f5be6babfa23dddbfd4b08c956d86503ec92a30841
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:8bd334de4d3525ea70c0977c8fe7956563ce9e7d3af12dc2b9fcbbc68894cb2d
 size 14575

{checkpoint-55000 → checkpoint-59000}/scheduler.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2af9a4ff5b725263882a083e2bae995d8efcb515dd0909ae5f27db346a1c684
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:67aad82a87c2a78c7bf3dfc2188cc16487d1a53a6ab0632026c89faf1cd6731c
 size 627

{checkpoint-55000 → checkpoint-59000}/trainer_state.json RENAMED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_metric": 0.49695634841918945,
-  "best_model_checkpoint": "./qlora-out/checkpoint-55000",
-  "epoch": 2.050631967488162,
-  "global_step": 55000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3746,11 +3746,283 @@
       "eval_samples_per_second": 0.444,
       "eval_steps_per_second": 0.444,
       "step": 55000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
-  "total_flos": 1.5420961039711519e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4893116354942322,
+  "best_model_checkpoint": "./qlora-out/checkpoint-59000",
+  "epoch": 2.1997688378509377,
+  "global_step": 59000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.444,
       "eval_steps_per_second": 0.444,
       "step": 55000
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 4.516400542719733e-05,
+      "loss": 0.3941,
+      "step": 55100
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 4.4837881748920594e-05,
+      "loss": 0.366,
+      "step": 55200
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 4.451259918615569e-05,
+      "loss": 0.4203,
+      "step": 55300
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 4.418816269883204e-05,
+      "loss": 0.3613,
+      "step": 55400
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 4.386457723397794e-05,
+      "loss": 0.3825,
+      "step": 55500
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 4.354184772564526e-05,
+      "loss": 0.4147,
+      "step": 55600
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 4.3219979094834275e-05,
+      "loss": 0.3812,
+      "step": 55700
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 4.289897624941841e-05,
+      "loss": 0.3926,
+      "step": 55800
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 4.257884408406968e-05,
+      "loss": 0.4103,
+      "step": 55900
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 4.225958748018381e-05,
+      "loss": 0.4009,
+      "step": 56000
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.49594032764434814,
+      "eval_runtime": 1218.3341,
+      "eval_samples_per_second": 0.445,
+      "eval_steps_per_second": 0.445,
+      "step": 56000
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 4.194121130580594e-05,
+      "loss": 0.3779,
+      "step": 56100
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 4.1623720415556336e-05,
+      "loss": 0.3651,
+      "step": 56200
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 4.1307119650556494e-05,
+      "loss": 0.3754,
+      "step": 56300
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 4.099141383835512e-05,
+      "loss": 0.3887,
+      "step": 56400
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 4.067660779285465e-05,
+      "loss": 0.3739,
+      "step": 56500
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 4.036270631423781e-05,
+      "loss": 0.3842,
+      "step": 56600
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 4.004971418889447e-05,
+      "loss": 0.3723,
+      "step": 56700
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 3.9737636189348634e-05,
+      "loss": 0.3889,
+      "step": 56800
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 3.942647707418561e-05,
+      "loss": 0.3897,
+      "step": 56900
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 3.9116241587979496e-05,
+      "loss": 0.3592,
+      "step": 57000
+    },
+    {
+      "epoch": 2.13,
+      "eval_loss": 0.49361398816108704,
+      "eval_runtime": 1208.1063,
+      "eval_samples_per_second": 0.449,
+      "eval_steps_per_second": 0.449,
+      "step": 57000
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 3.8806934461220826e-05,
+      "loss": 0.3512,
+      "step": 57100
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 3.8498560410244546e-05,
+      "loss": 0.3715,
+      "step": 57200
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.819112413715791e-05,
+      "loss": 0.3803,
+      "step": 57300
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.7884630329768875e-05,
+      "loss": 0.3785,
+      "step": 57400
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.757908366151463e-05,
+      "loss": 0.3626,
+      "step": 57500
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 3.72744887913904e-05,
+      "loss": 0.3981,
+      "step": 57600
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 3.697085036387822e-05,
+      "loss": 0.3918,
+      "step": 57700
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 3.6668173008876324e-05,
+      "loss": 0.3876,
+      "step": 57800
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 3.6366461341628396e-05,
+      "loss": 0.3878,
+      "step": 57900
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 3.606571996265321e-05,
+      "loss": 0.3674,
+      "step": 58000
+    },
+    {
+      "epoch": 2.16,
+      "eval_loss": 0.4916069805622101,
+      "eval_runtime": 1244.109,
+      "eval_samples_per_second": 0.436,
+      "eval_steps_per_second": 0.436,
+      "step": 58000
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 3.576595345767464e-05,
+      "loss": 0.3759,
+      "step": 58100
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 3.5467166397551524e-05,
+      "loss": 0.3987,
+      "step": 58200
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 3.5169363338208094e-05,
+      "loss": 0.3809,
+      "step": 58300
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.4872548820564455e-05,
+      "loss": 0.3851,
+      "step": 58400
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.457672737046737e-05,
+      "loss": 0.3832,
+      "step": 58500
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 3.42819034986213e-05,
+      "loss": 0.3923,
+      "step": 58600
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 3.398808170051951e-05,
+      "loss": 0.3609,
+      "step": 58700
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 3.369526645637556e-05,
+      "loss": 0.3538,
+      "step": 58800
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3.3403462231055107e-05,
+      "loss": 0.3941,
+      "step": 58900
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3.3112673474007584e-05,
+      "loss": 0.3984,
+      "step": 59000
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 0.4893116354942322,
+      "eval_runtime": 1243.7748,
+      "eval_samples_per_second": 0.436,
+      "eval_steps_per_second": 0.436,
+      "step": 59000
     }
   ],
   "max_steps": 80463,
   "num_train_epochs": 3,
+  "total_flos": 1.6542001385066742e+19,
   "trial_name": null,
   "trial_params": null
 }

{checkpoint-55000 → checkpoint-59000}/training_args.bin RENAMED Viewed

File without changes