mlfoundations-dev
/

hp_ablations_mistral_scheduler_constant

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a2ccaedfdfe110d9410a154268ae6e02a1d74b57c467a8a9e8697143b6c3a53
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:952612b591e676ab709e3fcda22d7c18866357d5894aad8a5afca1322763c87c
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7d3e053b33baecc5a7aa8a832d8dcc32634af7572100bdb376ae65ffdf5661e
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:1348e8487d5b0078b702765780b7310d4732fe43b47436da3895e1f697f338af
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b314d31339f40c314c0429fc0dd9c3b0cc7275156f7fd23ddb56a6afaa638f0
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e1d17fbb1abf5c11f9e50e8d04ba97940051feffad68efa09356feddfb0b8c9
 size 4540516344

trainer_log.jsonl CHANGED Viewed

@@ -48,3 +48,53 @@
 {"current_steps": 480, "total_steps": 1479, "loss": 0.5513, "learning_rate": 5e-06, "epoch": 0.9721518987341772, "percentage": 32.45, "elapsed_time": "7:27:20", "remaining_time": "15:31:01"}
 {"current_steps": 490, "total_steps": 1479, "loss": 0.5483, "learning_rate": 5e-06, "epoch": 0.9924050632911392, "percentage": 33.13, "elapsed_time": "7:36:37", "remaining_time": "15:21:38"}
 {"current_steps": 493, "total_steps": 1479, "eval_loss": 0.06893002241849899, "epoch": 0.9984810126582279, "percentage": 33.33, "elapsed_time": "7:48:31", "remaining_time": "15:37:02"}

 {"current_steps": 480, "total_steps": 1479, "loss": 0.5513, "learning_rate": 5e-06, "epoch": 0.9721518987341772, "percentage": 32.45, "elapsed_time": "7:27:20", "remaining_time": "15:31:01"}
 {"current_steps": 490, "total_steps": 1479, "loss": 0.5483, "learning_rate": 5e-06, "epoch": 0.9924050632911392, "percentage": 33.13, "elapsed_time": "7:36:37", "remaining_time": "15:21:38"}
 {"current_steps": 493, "total_steps": 1479, "eval_loss": 0.06893002241849899, "epoch": 0.9984810126582279, "percentage": 33.33, "elapsed_time": "7:48:31", "remaining_time": "15:37:02"}
+{"current_steps": 500, "total_steps": 1479, "loss": 0.509, "learning_rate": 5e-06, "epoch": 1.0126582278481013, "percentage": 33.81, "elapsed_time": "7:55:28", "remaining_time": "15:30:59"}
+{"current_steps": 510, "total_steps": 1479, "loss": 0.4753, "learning_rate": 5e-06, "epoch": 1.0329113924050632, "percentage": 34.48, "elapsed_time": "8:04:48", "remaining_time": "15:21:08"}
+{"current_steps": 520, "total_steps": 1479, "loss": 0.471, "learning_rate": 5e-06, "epoch": 1.0531645569620254, "percentage": 35.16, "elapsed_time": "8:14:09", "remaining_time": "15:11:20"}
+{"current_steps": 530, "total_steps": 1479, "loss": 0.4729, "learning_rate": 5e-06, "epoch": 1.0734177215189873, "percentage": 35.84, "elapsed_time": "8:23:30", "remaining_time": "15:01:34"}
+{"current_steps": 540, "total_steps": 1479, "loss": 0.4701, "learning_rate": 5e-06, "epoch": 1.0936708860759494, "percentage": 36.51, "elapsed_time": "8:32:51", "remaining_time": "14:51:48"}
+{"current_steps": 550, "total_steps": 1479, "loss": 0.4708, "learning_rate": 5e-06, "epoch": 1.1139240506329113, "percentage": 37.19, "elapsed_time": "8:42:12", "remaining_time": "14:42:02"}
+{"current_steps": 560, "total_steps": 1479, "loss": 0.4676, "learning_rate": 5e-06, "epoch": 1.1341772151898735, "percentage": 37.86, "elapsed_time": "8:51:32", "remaining_time": "14:32:17"}
+{"current_steps": 570, "total_steps": 1479, "loss": 0.4754, "learning_rate": 5e-06, "epoch": 1.1544303797468354, "percentage": 38.54, "elapsed_time": "9:00:53", "remaining_time": "14:22:34"}
+{"current_steps": 580, "total_steps": 1479, "loss": 0.4753, "learning_rate": 5e-06, "epoch": 1.1746835443037975, "percentage": 39.22, "elapsed_time": "9:10:13", "remaining_time": "14:12:51"}
+{"current_steps": 590, "total_steps": 1479, "loss": 0.4698, "learning_rate": 5e-06, "epoch": 1.1949367088607594, "percentage": 39.89, "elapsed_time": "9:19:33", "remaining_time": "14:03:08"}
+{"current_steps": 600, "total_steps": 1479, "loss": 0.4768, "learning_rate": 5e-06, "epoch": 1.2151898734177216, "percentage": 40.57, "elapsed_time": "9:28:53", "remaining_time": "13:53:26"}
+{"current_steps": 610, "total_steps": 1479, "loss": 0.4732, "learning_rate": 5e-06, "epoch": 1.2354430379746835, "percentage": 41.24, "elapsed_time": "9:38:15", "remaining_time": "13:43:46"}
+{"current_steps": 620, "total_steps": 1479, "loss": 0.478, "learning_rate": 5e-06, "epoch": 1.2556962025316456, "percentage": 41.92, "elapsed_time": "9:47:36", "remaining_time": "13:34:06"}
+{"current_steps": 630, "total_steps": 1479, "loss": 0.477, "learning_rate": 5e-06, "epoch": 1.2759493670886077, "percentage": 42.6, "elapsed_time": "9:56:56", "remaining_time": "13:24:27"}
+{"current_steps": 640, "total_steps": 1479, "loss": 0.4772, "learning_rate": 5e-06, "epoch": 1.2962025316455696, "percentage": 43.27, "elapsed_time": "10:06:17", "remaining_time": "13:14:49"}
+{"current_steps": 650, "total_steps": 1479, "loss": 0.4802, "learning_rate": 5e-06, "epoch": 1.3164556962025316, "percentage": 43.95, "elapsed_time": "10:15:37", "remaining_time": "13:05:09"}
+{"current_steps": 660, "total_steps": 1479, "loss": 0.4695, "learning_rate": 5e-06, "epoch": 1.3367088607594937, "percentage": 44.62, "elapsed_time": "10:24:57", "remaining_time": "12:55:31"}
+{"current_steps": 670, "total_steps": 1479, "loss": 0.4833, "learning_rate": 5e-06, "epoch": 1.3569620253164558, "percentage": 45.3, "elapsed_time": "10:34:17", "remaining_time": "12:45:52"}
+{"current_steps": 680, "total_steps": 1479, "loss": 0.4785, "learning_rate": 5e-06, "epoch": 1.3772151898734177, "percentage": 45.98, "elapsed_time": "10:43:35", "remaining_time": "12:36:13"}
+{"current_steps": 690, "total_steps": 1479, "loss": 0.4786, "learning_rate": 5e-06, "epoch": 1.3974683544303796, "percentage": 46.65, "elapsed_time": "10:52:56", "remaining_time": "12:26:37"}
+{"current_steps": 700, "total_steps": 1479, "loss": 0.4759, "learning_rate": 5e-06, "epoch": 1.4177215189873418, "percentage": 47.33, "elapsed_time": "11:02:17", "remaining_time": "12:17:02"}
+{"current_steps": 710, "total_steps": 1479, "loss": 0.4818, "learning_rate": 5e-06, "epoch": 1.437974683544304, "percentage": 48.01, "elapsed_time": "11:11:37", "remaining_time": "12:07:26"}
+{"current_steps": 720, "total_steps": 1479, "loss": 0.4825, "learning_rate": 5e-06, "epoch": 1.4582278481012658, "percentage": 48.68, "elapsed_time": "11:20:58", "remaining_time": "11:57:51"}
+{"current_steps": 730, "total_steps": 1479, "loss": 0.4852, "learning_rate": 5e-06, "epoch": 1.4784810126582277, "percentage": 49.36, "elapsed_time": "11:30:19", "remaining_time": "11:48:17"}
+{"current_steps": 740, "total_steps": 1479, "loss": 0.478, "learning_rate": 5e-06, "epoch": 1.4987341772151899, "percentage": 50.03, "elapsed_time": "11:39:39", "remaining_time": "11:38:42"}
+{"current_steps": 750, "total_steps": 1479, "loss": 0.4808, "learning_rate": 5e-06, "epoch": 1.518987341772152, "percentage": 50.71, "elapsed_time": "11:48:59", "remaining_time": "11:29:08"}
+{"current_steps": 760, "total_steps": 1479, "loss": 0.4816, "learning_rate": 5e-06, "epoch": 1.539240506329114, "percentage": 51.39, "elapsed_time": "11:58:19", "remaining_time": "11:19:34"}
+{"current_steps": 770, "total_steps": 1479, "loss": 0.4802, "learning_rate": 5e-06, "epoch": 1.5594936708860758, "percentage": 52.06, "elapsed_time": "12:07:39", "remaining_time": "11:10:00"}
+{"current_steps": 780, "total_steps": 1479, "loss": 0.4809, "learning_rate": 5e-06, "epoch": 1.579746835443038, "percentage": 52.74, "elapsed_time": "12:16:59", "remaining_time": "11:00:27"}
+{"current_steps": 790, "total_steps": 1479, "loss": 0.4837, "learning_rate": 5e-06, "epoch": 1.6, "percentage": 53.41, "elapsed_time": "12:26:19", "remaining_time": "10:50:54"}
+{"current_steps": 800, "total_steps": 1479, "loss": 0.4778, "learning_rate": 5e-06, "epoch": 1.620253164556962, "percentage": 54.09, "elapsed_time": "12:35:39", "remaining_time": "10:41:21"}
+{"current_steps": 810, "total_steps": 1479, "loss": 0.4699, "learning_rate": 5e-06, "epoch": 1.640506329113924, "percentage": 54.77, "elapsed_time": "12:44:58", "remaining_time": "10:31:49"}
+{"current_steps": 820, "total_steps": 1479, "loss": 0.4787, "learning_rate": 5e-06, "epoch": 1.660759493670886, "percentage": 55.44, "elapsed_time": "12:54:19", "remaining_time": "10:22:17"}
+{"current_steps": 830, "total_steps": 1479, "loss": 0.4739, "learning_rate": 5e-06, "epoch": 1.6810126582278482, "percentage": 56.12, "elapsed_time": "13:03:39", "remaining_time": "10:12:46"}
+{"current_steps": 840, "total_steps": 1479, "loss": 0.4752, "learning_rate": 5e-06, "epoch": 1.70126582278481, "percentage": 56.8, "elapsed_time": "13:13:00", "remaining_time": "10:03:14"}
+{"current_steps": 850, "total_steps": 1479, "loss": 0.4774, "learning_rate": 5e-06, "epoch": 1.721518987341772, "percentage": 57.47, "elapsed_time": "13:22:21", "remaining_time": "9:53:44"}
+{"current_steps": 860, "total_steps": 1479, "loss": 0.4777, "learning_rate": 5e-06, "epoch": 1.7417721518987341, "percentage": 58.15, "elapsed_time": "13:31:40", "remaining_time": "9:44:13"}
+{"current_steps": 870, "total_steps": 1479, "loss": 0.4807, "learning_rate": 5e-06, "epoch": 1.7620253164556963, "percentage": 58.82, "elapsed_time": "13:41:00", "remaining_time": "9:34:42"}
+{"current_steps": 880, "total_steps": 1479, "loss": 0.4813, "learning_rate": 5e-06, "epoch": 1.7822784810126582, "percentage": 59.5, "elapsed_time": "13:50:21", "remaining_time": "9:25:12"}
+{"current_steps": 890, "total_steps": 1479, "loss": 0.4785, "learning_rate": 5e-06, "epoch": 1.80253164556962, "percentage": 60.18, "elapsed_time": "13:59:40", "remaining_time": "9:15:41"}
+{"current_steps": 900, "total_steps": 1479, "loss": 0.4787, "learning_rate": 5e-06, "epoch": 1.8227848101265822, "percentage": 60.85, "elapsed_time": "14:09:01", "remaining_time": "9:06:12"}
+{"current_steps": 910, "total_steps": 1479, "loss": 0.4814, "learning_rate": 5e-06, "epoch": 1.8430379746835444, "percentage": 61.53, "elapsed_time": "14:18:20", "remaining_time": "8:56:42"}
+{"current_steps": 920, "total_steps": 1479, "loss": 0.4803, "learning_rate": 5e-06, "epoch": 1.8632911392405065, "percentage": 62.2, "elapsed_time": "14:27:39", "remaining_time": "8:47:12"}
+{"current_steps": 930, "total_steps": 1479, "loss": 0.4769, "learning_rate": 5e-06, "epoch": 1.8835443037974684, "percentage": 62.88, "elapsed_time": "14:37:00", "remaining_time": "8:37:42"}
+{"current_steps": 940, "total_steps": 1479, "loss": 0.4811, "learning_rate": 5e-06, "epoch": 1.9037974683544303, "percentage": 63.56, "elapsed_time": "14:46:20", "remaining_time": "8:28:14"}
+{"current_steps": 950, "total_steps": 1479, "loss": 0.4824, "learning_rate": 5e-06, "epoch": 1.9240506329113924, "percentage": 64.23, "elapsed_time": "14:55:41", "remaining_time": "8:18:45"}
+{"current_steps": 960, "total_steps": 1479, "loss": 0.4867, "learning_rate": 5e-06, "epoch": 1.9443037974683546, "percentage": 64.91, "elapsed_time": "15:05:01", "remaining_time": "8:09:16"}
+{"current_steps": 970, "total_steps": 1479, "loss": 0.4849, "learning_rate": 5e-06, "epoch": 1.9645569620253165, "percentage": 65.58, "elapsed_time": "15:14:21", "remaining_time": "7:59:48"}
+{"current_steps": 980, "total_steps": 1479, "loss": 0.485, "learning_rate": 5e-06, "epoch": 1.9848101265822784, "percentage": 66.26, "elapsed_time": "15:23:42", "remaining_time": "7:50:20"}
+{"current_steps": 987, "total_steps": 1479, "eval_loss": 0.0688759982585907, "epoch": 1.998987341772152, "percentage": 66.73, "elapsed_time": "15:39:06", "remaining_time": "7:48:07"}