Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.bin +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +603 -3

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e046c1919cad0f64302d7294360bde786b2a411cb221dc3d79d1a6165e50dcaa
 size 39409357

 version https://git-lfs.github.com/spec/v1
+oid sha256:d17f997023cf8f985a547661db8c0ff488c11f01eaeaca062f1c51fd98fd299d
 size 39409357

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0665767c6ed84f05466507056f238fbc2f706dd8ef6ec366321d200a817de30
 size 78844421

 version https://git-lfs.github.com/spec/v1
+oid sha256:1bf4520695940f7e95f944db6a71b14e3058601d156c2793f0f499326bbe7e61
 size 78844421

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e46ce4eb16240da9f3a8b3066acb6f59a234249ee2a3052f3323786da479838
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:9be2d54ebe54c824e6446e6978ff3aefa7199568ed49c03eaafa5cd13a62e8bf
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8aa41388cadb93f44f31b4d9e97ec0cd84ca41861dc64a10d5837079f6b0f78d
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:a56aa22161c776ca1cb5057f21bce0494ad7ac9991dfc63b7cac95a68c7f5148
 size 627

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.285714285714286,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3007,13 +3007,613 @@
       "learning_rate": 0.0007023809523809524,
       "loss": 0.1548,
       "step": 500
     }
   ],
   "logging_steps": 1,
   "max_steps": 1680,
   "num_train_epochs": 48,
   "save_steps": 100,
-  "total_flos": 2.884638740186112e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 17.142857142857142,
   "eval_steps": 500,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0007023809523809524,
       "loss": 0.1548,
       "step": 500
+    },
+    {
+      "epoch": 14.31,
+      "learning_rate": 0.0007017857142857143,
+      "loss": 0.1521,
+      "step": 501
+    },
+    {
+      "epoch": 14.34,
+      "learning_rate": 0.0007011904761904761,
+      "loss": 0.1644,
+      "step": 502
+    },
+    {
+      "epoch": 14.37,
+      "learning_rate": 0.0007005952380952381,
+      "loss": 0.155,
+      "step": 503
+    },
+    {
+      "epoch": 14.4,
+      "learning_rate": 0.0007,
+      "loss": 0.1674,
+      "step": 504
+    },
+    {
+      "epoch": 14.43,
+      "learning_rate": 0.0006994047619047619,
+      "loss": 0.1619,
+      "step": 505
+    },
+    {
+      "epoch": 14.46,
+      "learning_rate": 0.0006988095238095237,
+      "loss": 0.1644,
+      "step": 506
+    },
+    {
+      "epoch": 14.49,
+      "learning_rate": 0.0006982142857142857,
+      "loss": 0.1723,
+      "step": 507
+    },
+    {
+      "epoch": 14.51,
+      "learning_rate": 0.0006976190476190476,
+      "loss": 0.1621,
+      "step": 508
+    },
+    {
+      "epoch": 14.54,
+      "learning_rate": 0.0006970238095238095,
+      "loss": 0.1647,
+      "step": 509
+    },
+    {
+      "epoch": 14.57,
+      "learning_rate": 0.0006964285714285714,
+      "loss": 0.1741,
+      "step": 510
+    },
+    {
+      "epoch": 14.6,
+      "learning_rate": 0.0006958333333333334,
+      "loss": 0.1673,
+      "step": 511
+    },
+    {
+      "epoch": 14.63,
+      "learning_rate": 0.0006952380952380952,
+      "loss": 0.1752,
+      "step": 512
+    },
+    {
+      "epoch": 14.66,
+      "learning_rate": 0.0006946428571428571,
+      "loss": 0.167,
+      "step": 513
+    },
+    {
+      "epoch": 14.69,
+      "learning_rate": 0.0006940476190476191,
+      "loss": 0.1718,
+      "step": 514
+    },
+    {
+      "epoch": 14.71,
+      "learning_rate": 0.000693452380952381,
+      "loss": 0.1787,
+      "step": 515
+    },
+    {
+      "epoch": 14.74,
+      "learning_rate": 0.0006928571428571428,
+      "loss": 0.1747,
+      "step": 516
+    },
+    {
+      "epoch": 14.77,
+      "learning_rate": 0.0006922619047619047,
+      "loss": 0.1766,
+      "step": 517
+    },
+    {
+      "epoch": 14.8,
+      "learning_rate": 0.0006916666666666667,
+      "loss": 0.1782,
+      "step": 518
+    },
+    {
+      "epoch": 14.83,
+      "learning_rate": 0.0006910714285714286,
+      "loss": 0.1799,
+      "step": 519
+    },
+    {
+      "epoch": 14.86,
+      "learning_rate": 0.0006904761904761905,
+      "loss": 0.169,
+      "step": 520
+    },
+    {
+      "epoch": 14.89,
+      "learning_rate": 0.0006898809523809523,
+      "loss": 0.1802,
+      "step": 521
+    },
+    {
+      "epoch": 14.91,
+      "learning_rate": 0.0006892857142857143,
+      "loss": 0.18,
+      "step": 522
+    },
+    {
+      "epoch": 14.94,
+      "learning_rate": 0.0006886904761904762,
+      "loss": 0.1823,
+      "step": 523
+    },
+    {
+      "epoch": 14.97,
+      "learning_rate": 0.0006880952380952381,
+      "loss": 0.1829,
+      "step": 524
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 0.0006875,
+      "loss": 0.1885,
+      "step": 525
+    },
+    {
+      "epoch": 15.03,
+      "learning_rate": 0.000686904761904762,
+      "loss": 0.1171,
+      "step": 526
+    },
+    {
+      "epoch": 15.06,
+      "learning_rate": 0.0006863095238095238,
+      "loss": 0.1126,
+      "step": 527
+    },
+    {
+      "epoch": 15.09,
+      "learning_rate": 0.0006857142857142857,
+      "loss": 0.1186,
+      "step": 528
+    },
+    {
+      "epoch": 15.11,
+      "learning_rate": 0.0006851190476190477,
+      "loss": 0.1164,
+      "step": 529
+    },
+    {
+      "epoch": 15.14,
+      "learning_rate": 0.0006845238095238096,
+      "loss": 0.1163,
+      "step": 530
+    },
+    {
+      "epoch": 15.17,
+      "learning_rate": 0.0006839285714285714,
+      "loss": 0.1204,
+      "step": 531
+    },
+    {
+      "epoch": 15.2,
+      "learning_rate": 0.0006833333333333333,
+      "loss": 0.1212,
+      "step": 532
+    },
+    {
+      "epoch": 15.23,
+      "learning_rate": 0.0006827380952380953,
+      "loss": 0.1188,
+      "step": 533
+    },
+    {
+      "epoch": 15.26,
+      "learning_rate": 0.0006821428571428572,
+      "loss": 0.1154,
+      "step": 534
+    },
+    {
+      "epoch": 15.29,
+      "learning_rate": 0.0006815476190476191,
+      "loss": 0.1244,
+      "step": 535
+    },
+    {
+      "epoch": 15.31,
+      "learning_rate": 0.0006809523809523809,
+      "loss": 0.1214,
+      "step": 536
+    },
+    {
+      "epoch": 15.34,
+      "learning_rate": 0.0006803571428571429,
+      "loss": 0.1294,
+      "step": 537
+    },
+    {
+      "epoch": 15.37,
+      "learning_rate": 0.0006797619047619048,
+      "loss": 0.1232,
+      "step": 538
+    },
+    {
+      "epoch": 15.4,
+      "learning_rate": 0.0006791666666666667,
+      "loss": 0.1262,
+      "step": 539
+    },
+    {
+      "epoch": 15.43,
+      "learning_rate": 0.0006785714285714287,
+      "loss": 0.1195,
+      "step": 540
+    },
+    {
+      "epoch": 15.46,
+      "learning_rate": 0.0006779761904761905,
+      "loss": 0.123,
+      "step": 541
+    },
+    {
+      "epoch": 15.49,
+      "learning_rate": 0.0006773809523809524,
+      "loss": 0.1266,
+      "step": 542
+    },
+    {
+      "epoch": 15.51,
+      "learning_rate": 0.0006767857142857143,
+      "loss": 0.1345,
+      "step": 543
+    },
+    {
+      "epoch": 15.54,
+      "learning_rate": 0.0006761904761904763,
+      "loss": 0.1174,
+      "step": 544
+    },
+    {
+      "epoch": 15.57,
+      "learning_rate": 0.0006755952380952382,
+      "loss": 0.1293,
+      "step": 545
+    },
+    {
+      "epoch": 15.6,
+      "learning_rate": 0.000675,
+      "loss": 0.1293,
+      "step": 546
+    },
+    {
+      "epoch": 15.63,
+      "learning_rate": 0.0006744047619047619,
+      "loss": 0.1269,
+      "step": 547
+    },
+    {
+      "epoch": 15.66,
+      "learning_rate": 0.0006738095238095239,
+      "loss": 0.1321,
+      "step": 548
+    },
+    {
+      "epoch": 15.69,
+      "learning_rate": 0.0006732142857142858,
+      "loss": 0.1318,
+      "step": 549
+    },
+    {
+      "epoch": 15.71,
+      "learning_rate": 0.0006726190476190477,
+      "loss": 0.1283,
+      "step": 550
+    },
+    {
+      "epoch": 15.74,
+      "learning_rate": 0.0006720238095238096,
+      "loss": 0.128,
+      "step": 551
+    },
+    {
+      "epoch": 15.77,
+      "learning_rate": 0.0006714285714285714,
+      "loss": 0.1295,
+      "step": 552
+    },
+    {
+      "epoch": 15.8,
+      "learning_rate": 0.0006708333333333333,
+      "loss": 0.1323,
+      "step": 553
+    },
+    {
+      "epoch": 15.83,
+      "learning_rate": 0.0006702380952380952,
+      "loss": 0.1348,
+      "step": 554
+    },
+    {
+      "epoch": 15.86,
+      "learning_rate": 0.0006696428571428571,
+      "loss": 0.1276,
+      "step": 555
+    },
+    {
+      "epoch": 15.89,
+      "learning_rate": 0.000669047619047619,
+      "loss": 0.1356,
+      "step": 556
+    },
+    {
+      "epoch": 15.91,
+      "learning_rate": 0.0006684523809523809,
+      "loss": 0.1404,
+      "step": 557
+    },
+    {
+      "epoch": 15.94,
+      "learning_rate": 0.0006678571428571428,
+      "loss": 0.1311,
+      "step": 558
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 0.0006672619047619048,
+      "loss": 0.1401,
+      "step": 559
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 0.1411,
+      "step": 560
+    },
+    {
+      "epoch": 16.03,
+      "learning_rate": 0.0006660714285714285,
+      "loss": 0.0862,
+      "step": 561
+    },
+    {
+      "epoch": 16.06,
+      "learning_rate": 0.0006654761904761905,
+      "loss": 0.0902,
+      "step": 562
+    },
+    {
+      "epoch": 16.09,
+      "learning_rate": 0.0006648809523809524,
+      "loss": 0.0871,
+      "step": 563
+    },
+    {
+      "epoch": 16.11,
+      "learning_rate": 0.0006642857142857143,
+      "loss": 0.0906,
+      "step": 564
+    },
+    {
+      "epoch": 16.14,
+      "learning_rate": 0.0006636904761904761,
+      "loss": 0.0891,
+      "step": 565
+    },
+    {
+      "epoch": 16.17,
+      "learning_rate": 0.0006630952380952381,
+      "loss": 0.0917,
+      "step": 566
+    },
+    {
+      "epoch": 16.2,
+      "learning_rate": 0.0006625,
+      "loss": 0.0906,
+      "step": 567
+    },
+    {
+      "epoch": 16.23,
+      "learning_rate": 0.0006619047619047619,
+      "loss": 0.0927,
+      "step": 568
+    },
+    {
+      "epoch": 16.26,
+      "learning_rate": 0.0006613095238095238,
+      "loss": 0.0927,
+      "step": 569
+    },
+    {
+      "epoch": 16.29,
+      "learning_rate": 0.0006607142857142857,
+      "loss": 0.0934,
+      "step": 570
+    },
+    {
+      "epoch": 16.31,
+      "learning_rate": 0.0006601190476190476,
+      "loss": 0.0956,
+      "step": 571
+    },
+    {
+      "epoch": 16.34,
+      "learning_rate": 0.0006595238095238095,
+      "loss": 0.0933,
+      "step": 572
+    },
+    {
+      "epoch": 16.37,
+      "learning_rate": 0.0006589285714285715,
+      "loss": 0.0993,
+      "step": 573
+    },
+    {
+      "epoch": 16.4,
+      "learning_rate": 0.0006583333333333334,
+      "loss": 0.095,
+      "step": 574
+    },
+    {
+      "epoch": 16.43,
+      "learning_rate": 0.0006577380952380952,
+      "loss": 0.0963,
+      "step": 575
+    },
+    {
+      "epoch": 16.46,
+      "learning_rate": 0.0006571428571428571,
+      "loss": 0.0948,
+      "step": 576
+    },
+    {
+      "epoch": 16.49,
+      "learning_rate": 0.0006565476190476191,
+      "loss": 0.0952,
+      "step": 577
+    },
+    {
+      "epoch": 16.51,
+      "learning_rate": 0.000655952380952381,
+      "loss": 0.1001,
+      "step": 578
+    },
+    {
+      "epoch": 16.54,
+      "learning_rate": 0.0006553571428571429,
+      "loss": 0.0924,
+      "step": 579
+    },
+    {
+      "epoch": 16.57,
+      "learning_rate": 0.0006547619047619047,
+      "loss": 0.0962,
+      "step": 580
+    },
+    {
+      "epoch": 16.6,
+      "learning_rate": 0.0006541666666666667,
+      "loss": 0.0949,
+      "step": 581
+    },
+    {
+      "epoch": 16.63,
+      "learning_rate": 0.0006535714285714286,
+      "loss": 0.1,
+      "step": 582
+    },
+    {
+      "epoch": 16.66,
+      "learning_rate": 0.0006529761904761905,
+      "loss": 0.1009,
+      "step": 583
+    },
+    {
+      "epoch": 16.69,
+      "learning_rate": 0.0006523809523809525,
+      "loss": 0.1023,
+      "step": 584
+    },
+    {
+      "epoch": 16.71,
+      "learning_rate": 0.0006517857142857143,
+      "loss": 0.0995,
+      "step": 585
+    },
+    {
+      "epoch": 16.74,
+      "learning_rate": 0.0006511904761904762,
+      "loss": 0.1015,
+      "step": 586
+    },
+    {
+      "epoch": 16.77,
+      "learning_rate": 0.0006505952380952381,
+      "loss": 0.0966,
+      "step": 587
+    },
+    {
+      "epoch": 16.8,
+      "learning_rate": 0.0006500000000000001,
+      "loss": 0.1019,
+      "step": 588
+    },
+    {
+      "epoch": 16.83,
+      "learning_rate": 0.000649404761904762,
+      "loss": 0.0996,
+      "step": 589
+    },
+    {
+      "epoch": 16.86,
+      "learning_rate": 0.0006488095238095238,
+      "loss": 0.103,
+      "step": 590
+    },
+    {
+      "epoch": 16.89,
+      "learning_rate": 0.0006482142857142857,
+      "loss": 0.1042,
+      "step": 591
+    },
+    {
+      "epoch": 16.91,
+      "learning_rate": 0.0006476190476190477,
+      "loss": 0.1039,
+      "step": 592
+    },
+    {
+      "epoch": 16.94,
+      "learning_rate": 0.0006470238095238096,
+      "loss": 0.1058,
+      "step": 593
+    },
+    {
+      "epoch": 16.97,
+      "learning_rate": 0.0006464285714285715,
+      "loss": 0.0994,
+      "step": 594
+    },
+    {
+      "epoch": 17.0,
+      "learning_rate": 0.0006458333333333334,
+      "loss": 0.1062,
+      "step": 595
+    },
+    {
+      "epoch": 17.03,
+      "learning_rate": 0.0006452380952380953,
+      "loss": 0.0709,
+      "step": 596
+    },
+    {
+      "epoch": 17.06,
+      "learning_rate": 0.0006446428571428572,
+      "loss": 0.0733,
+      "step": 597
+    },
+    {
+      "epoch": 17.09,
+      "learning_rate": 0.0006440476190476191,
+      "loss": 0.0724,
+      "step": 598
+    },
+    {
+      "epoch": 17.11,
+      "learning_rate": 0.0006434523809523811,
+      "loss": 0.0733,
+      "step": 599
+    },
+    {
+      "epoch": 17.14,
+      "learning_rate": 0.0006428571428571429,
+      "loss": 0.0741,
+      "step": 600
     }
   ],
   "logging_steps": 1,
   "max_steps": 1680,
   "num_train_epochs": 48,
   "save_steps": 100,
+  "total_flos": 3.463615849187021e+17,
   "trial_name": null,
   "trial_params": null
 }