Uploaded model

Developed by: Logility
License: apache-2.0
Finetuned from model : unsloth/mistral-7b-v0.3-bnb-4bit

This mistral model was trained 2x faster with Unsloth and Huggingface's TRL library.

{'log_norm': 1.0021590756525223, 'alpha': 6.52196242299936, 'alpha_weighted': -0.9030561351473247, 'log_alpha_norm': -0.6886720165558158, 'log_spectral_norm': -0.32073407911538593, 'stable_rank': 51.74766592300856}

[{'loss': 0.94, 'grad_norm': 9.82707691192627, 'learning_rate': 4e-05, 'epoch': 0.004081632653061225, 'step': 1}, {'loss': 0.9731, 'grad_norm': 10.015027046203613, 'learning_rate': 8e-05, 'epoch': 0.00816326530612245, 'step': 2}, {'loss': 1.3536, 'grad_norm': 77.73849487304688, 'learning_rate': 0.00012, 'epoch': 0.012244897959183673, 'step': 3}, {'loss': 1.4077, 'grad_norm': 167.9237823486328, 'learning_rate': 0.00016, 'epoch': 0.0163265306122449, 'step': 4}, {'loss': 8.6986, 'grad_norm': 903.1066284179688, 'learning_rate': 0.0002, 'epoch': 0.02040816326530612, 'step': 5}, {'loss': 7.6063, 'grad_norm': 473.2113952636719, 'learning_rate': 0.0001991666666666667, 'epoch': 0.024489795918367346, 'step': 6}, {'loss': 10.1312, 'grad_norm': 2321.77001953125, 'learning_rate': 0.00019833333333333335, 'epoch': 0.02857142857142857, 'step': 7}, {'loss': 7.1669, 'grad_norm': 496.91961669921875, 'learning_rate': 0.00019750000000000003, 'epoch': 0.0326530612244898, 'step': 8}, {'loss': 11.8632, 'grad_norm': 334.7265930175781, 'learning_rate': 0.00019666666666666666, 'epoch': 0.036734693877551024, 'step': 9}, {'loss': 10.878, 'grad_norm': 250.96115112304688, 'learning_rate': 0.00019583333333333334, 'epoch': 0.04081632653061224, 'step': 10}, {'loss': 8.6482, 'grad_norm': 239.5128631591797, 'learning_rate': 0.000195, 'epoch': 0.044897959183673466, 'step': 11}, {'loss': 8.8144, 'grad_norm': 211.11239624023438, 'learning_rate': 0.00019416666666666668, 'epoch': 0.04897959183673469, 'step': 12}, {'loss': 6.913, 'grad_norm': 47.793392181396484, 'learning_rate': 0.00019333333333333333, 'epoch': 0.053061224489795916, 'step': 13}, {'loss': 8.4979, 'grad_norm': 193.9714813232422, 'learning_rate': 0.00019250000000000002, 'epoch': 0.05714285714285714, 'step': 14}, {'loss': 7.2484, 'grad_norm': 110.04898071289062, 'learning_rate': 0.00019166666666666667, 'epoch': 0.061224489795918366, 'step': 15}, {'loss': 7.4236, 'grad_norm': 124.42842102050781, 'learning_rate': 0.00019083333333333336, 'epoch': 0.0653061224489796, 'step': 16}, {'loss': 6.9333, 'grad_norm': 52.9755973815918, 'learning_rate': 0.00019, 'epoch': 0.06938775510204082, 'step': 17}, {'loss': 6.9542, 'grad_norm': 71.5013198852539, 'learning_rate': 0.00018916666666666667, 'epoch': 0.07346938775510205, 'step': 18}, {'loss': 6.8179, 'grad_norm': 111.14539337158203, 'learning_rate': 0.00018833333333333335, 'epoch': 0.07755102040816327, 'step': 19}, {'loss': 6.5053, 'grad_norm': 63.56768035888672, 'learning_rate': 0.0001875, 'epoch': 0.08163265306122448, 'step': 20}, {'loss': 6.9413, 'grad_norm': 113.17524719238281, 'learning_rate': 0.0001866666666666667, 'epoch': 0.08571428571428572, 'step': 21}, {'loss': 6.2838, 'grad_norm': 69.91699981689453, 'learning_rate': 0.00018583333333333334, 'epoch': 0.08979591836734693, 'step': 22}, {'loss': 6.5586, 'grad_norm': 120.36927032470703, 'learning_rate': 0.00018500000000000002, 'epoch': 0.09387755102040816, 'step': 23}, {'loss': 6.8344, 'grad_norm': 104.10891723632812, 'learning_rate': 0.00018416666666666665, 'epoch': 0.09795918367346938, 'step': 24}, {'loss': 6.2038, 'grad_norm': 51.60176467895508, 'learning_rate': 0.00018333333333333334, 'epoch': 0.10204081632653061, 'step': 25}, {'loss': 6.2675, 'grad_norm': 68.19688415527344, 'learning_rate': 0.0001825, 'epoch': 0.10612244897959183, 'step': 26}, {'loss': 5.8591, 'grad_norm': 40.526241302490234, 'learning_rate': 0.00018166666666666667, 'epoch': 0.11020408163265306, 'step': 27}, {'loss': 5.5357, 'grad_norm': 34.63728332519531, 'learning_rate': 0.00018083333333333336, 'epoch': 0.11428571428571428, 'step': 28}, {'loss': 5.7903, 'grad_norm': 45.41417694091797, 'learning_rate': 0.00018, 'epoch': 0.11836734693877551, 'step': 29}, {'loss': 5.617, 'grad_norm': 24.180809020996094, 'learning_rate': 0.0001791666666666667, 'epoch': 0.12244897959183673, 'step': 30}, {'loss': 5.45, 'grad_norm': 17.967777252197266, 'learning_rate': 0.00017833333333333335, 'epoch': 0.12653061224489795, 'step': 31}, {'loss': 5.484, 'grad_norm': 17.725311279296875, 'learning_rate': 0.0001775, 'epoch': 0.1306122448979592, 'step': 32}, {'loss': 5.2563, 'grad_norm': 11.31914234161377, 'learning_rate': 0.00017666666666666666, 'epoch': 0.1346938775510204, 'step': 33}, {'loss': 5.438, 'grad_norm': 39.393516540527344, 'learning_rate': 0.00017583333333333334, 'epoch': 0.13877551020408163, 'step': 34}, {'loss': 5.513, 'grad_norm': 14.878222465515137, 'learning_rate': 0.000175, 'epoch': 0.14285714285714285, 'step': 35}, {'loss': 5.3752, 'grad_norm': 18.7418155670166, 'learning_rate': 0.00017416666666666668, 'epoch': 0.1469387755102041, 'step': 36}, {'loss': 5.2133, 'grad_norm': 22.258224487304688, 'learning_rate': 0.00017333333333333334, 'epoch': 0.1510204081632653, 'step': 37}, {'loss': 5.1181, 'grad_norm': 13.609662055969238, 'learning_rate': 0.00017250000000000002, 'epoch': 0.15510204081632653, 'step': 38}, {'loss': 5.5739, 'grad_norm': 22.147647857666016, 'learning_rate': 0.00017166666666666667, 'epoch': 0.15918367346938775, 'step': 39}, {'loss': 5.133, 'grad_norm': 12.03540325164795, 'learning_rate': 0.00017083333333333333, 'epoch': 0.16326530612244897, 'step': 40}, {'loss': 4.9204, 'grad_norm': 23.34113311767578, 'learning_rate': 0.00017, 'epoch': 0.1673469387755102, 'step': 41}, {'loss': 5.4768, 'grad_norm': 19.388202667236328, 'learning_rate': 0.00016916666666666667, 'epoch': 0.17142857142857143, 'step': 42}, {'loss': 4.9487, 'grad_norm': 14.294272422790527, 'learning_rate': 0.00016833333333333335, 'epoch': 0.17551020408163265, 'step': 43}, {'loss': 5.0152, 'grad_norm': 13.597038269042969, 'learning_rate': 0.0001675, 'epoch': 0.17959183673469387, 'step': 44}, {'loss': 4.9043, 'grad_norm': 11.164856910705566, 'learning_rate': 0.0001666666666666667, 'epoch': 0.1836734693877551, 'step': 45}, {'loss': 4.8242, 'grad_norm': 11.64010238647461, 'learning_rate': 0.00016583333333333334, 'epoch': 0.18775510204081633, 'step': 46}, {'loss': 4.9687, 'grad_norm': 14.82890796661377, 'learning_rate': 0.000165, 'epoch': 0.19183673469387755, 'step': 47}, {'loss': 5.0619, 'grad_norm': 9.569353103637695, 'learning_rate': 0.00016416666666666668, 'epoch': 0.19591836734693877, 'step': 48}, {'loss': 4.8847, 'grad_norm': 9.3414888381958, 'learning_rate': 0.00016333333333333334, 'epoch': 0.2, 'step': 49}, {'loss': 4.987, 'grad_norm': 9.034139633178711, 'learning_rate': 0.00016250000000000002, 'epoch': 0.20408163265306123, 'step': 50}, {'loss': 4.922, 'grad_norm': 5.496913433074951, 'learning_rate': 0.00016166666666666668, 'epoch': 0.20816326530612245, 'step': 51}, {'loss': 5.1124, 'grad_norm': 7.376640319824219, 'learning_rate': 0.00016083333333333336, 'epoch': 0.21224489795918366, 'step': 52}, {'loss': 5.1453, 'grad_norm': 6.422497272491455, 'learning_rate': 0.00016, 'epoch': 0.2163265306122449, 'step': 53}, {'loss': 4.8933, 'grad_norm': 5.7602338790893555, 'learning_rate': 0.00015916666666666667, 'epoch': 0.22040816326530613, 'step': 54}, {'loss': 5.011, 'grad_norm': 6.552632808685303, 'learning_rate': 0.00015833333333333332, 'epoch': 0.22448979591836735, 'step': 55}, {'loss': 5.0052, 'grad_norm': 4.785076141357422, 'learning_rate': 0.0001575, 'epoch': 0.22857142857142856, 'step': 56}, {'loss': 5.0859, 'grad_norm': 4.4920477867126465, 'learning_rate': 0.00015666666666666666, 'epoch': 0.23265306122448978, 'step': 57}, {'loss': 5.2096, 'grad_norm': 5.427203178405762, 'learning_rate': 0.00015583333333333334, 'epoch': 0.23673469387755103, 'step': 58}, {'loss': 5.0423, 'grad_norm': 5.045539855957031, 'learning_rate': 0.000155, 'epoch': 0.24081632653061225, 'step': 59}, {'loss': 4.7461, 'grad_norm': 5.154489517211914, 'learning_rate': 0.00015416666666666668, 'epoch': 0.24489795918367346, 'step': 60}, {'loss': 5.0681, 'grad_norm': 6.564776420593262, 'learning_rate': 0.00015333333333333334, 'epoch': 0.24897959183673468, 'step': 61}, {'loss': 5.1368, 'grad_norm': 5.746917724609375, 'learning_rate': 0.0001525, 'epoch': 0.2530612244897959, 'step': 62}, {'loss': 5.2659, 'grad_norm': 4.8098626136779785, 'learning_rate': 0.00015166666666666668, 'epoch': 0.2571428571428571, 'step': 63}, {'loss': 5.1307, 'grad_norm': 5.734555721282959, 'learning_rate': 0.00015083333333333333, 'epoch': 0.2612244897959184, 'step': 64}, {'loss': 5.0838, 'grad_norm': 6.380870819091797, 'learning_rate': 0.00015000000000000001, 'epoch': 0.2653061224489796, 'step': 65}, {'loss': 5.1175, 'grad_norm': 4.694203853607178, 'learning_rate': 0.00014916666666666667, 'epoch': 0.2693877551020408, 'step': 66}, {'loss': 5.1263, 'grad_norm': 5.081640720367432, 'learning_rate': 0.00014833333333333335, 'epoch': 0.27346938775510204, 'step': 67}, {'loss': 4.9358, 'grad_norm': 4.963438034057617, 'learning_rate': 0.0001475, 'epoch': 0.27755102040816326, 'step': 68}, {'loss': 5.154, 'grad_norm': 3.5895683765411377, 'learning_rate': 0.00014666666666666666, 'epoch': 0.2816326530612245, 'step': 69}, {'loss': 4.9023, 'grad_norm': 4.520132064819336, 'learning_rate': 0.00014583333333333335, 'epoch': 0.2857142857142857, 'step': 70}, {'loss': 5.2524, 'grad_norm': 4.384284496307373, 'learning_rate': 0.000145, 'epoch': 0.2897959183673469, 'step': 71}, {'loss': 5.1246, 'grad_norm': 2.4980995655059814, 'learning_rate': 0.00014416666666666668, 'epoch': 0.2938775510204082, 'step': 72}, {'loss': 4.9407, 'grad_norm': 3.9091572761535645, 'learning_rate': 0.00014333333333333334, 'epoch': 0.2979591836734694, 'step': 73}, {'loss': 4.8673, 'grad_norm': 5.237277984619141, 'learning_rate': 0.00014250000000000002, 'epoch': 0.3020408163265306, 'step': 74}, {'loss': 5.2385, 'grad_norm': 4.773839950561523, 'learning_rate': 0.00014166666666666668, 'epoch': 0.30612244897959184, 'step': 75}, {'loss': 5.0301, 'grad_norm': 4.22836971282959, 'learning_rate': 0.00014083333333333336, 'epoch': 0.31020408163265306, 'step': 76}, {'loss': 4.8872, 'grad_norm': 3.5358805656433105, 'learning_rate': 0.00014, 'epoch': 0.3142857142857143, 'step': 77}, {'loss': 4.9039, 'grad_norm': 4.816868305206299, 'learning_rate': 0.00013916666666666667, 'epoch': 0.3183673469387755, 'step': 78}, {'loss': 5.0752, 'grad_norm': 3.6362133026123047, 'learning_rate': 0.00013833333333333333, 'epoch': 0.3224489795918367, 'step': 79}, {'loss': 4.8186, 'grad_norm': 4.358532428741455, 'learning_rate': 0.0001375, 'epoch': 0.32653061224489793, 'step': 80}, {'loss': 5.0796, 'grad_norm': 3.9653539657592773, 'learning_rate': 0.00013666666666666666, 'epoch': 0.3306122448979592, 'step': 81}, {'loss': 5.2562, 'grad_norm': 4.814465045928955, 'learning_rate': 0.00013583333333333335, 'epoch': 0.3346938775510204, 'step': 82}, {'loss': 4.9127, 'grad_norm': 4.324984550476074, 'learning_rate': 0.00013500000000000003, 'epoch': 0.33877551020408164, 'step': 83}, {'loss': 4.8163, 'grad_norm': 3.9188549518585205, 'learning_rate': 0.00013416666666666666, 'epoch': 0.34285714285714286, 'step': 84}, {'loss': 4.7867, 'grad_norm': 5.028443336486816, 'learning_rate': 0.00013333333333333334, 'epoch': 0.3469387755102041, 'step': 85}, {'loss': 4.9071, 'grad_norm': 4.497257232666016, 'learning_rate': 0.0001325, 'epoch': 0.3510204081632653, 'step': 86}, {'loss': 5.2301, 'grad_norm': 4.7178826332092285, 'learning_rate': 0.00013166666666666668, 'epoch': 0.3551020408163265, 'step': 87}, {'loss': 5.1635, 'grad_norm': 5.209588527679443, 'learning_rate': 0.00013083333333333333, 'epoch': 0.35918367346938773, 'step': 88}, {'loss': 4.9257, 'grad_norm': 4.2199506759643555, 'learning_rate': 0.00013000000000000002, 'epoch': 0.363265306122449, 'step': 89}, {'loss': 5.0582, 'grad_norm': 3.2253360748291016, 'learning_rate': 0.00012916666666666667, 'epoch': 0.3673469387755102, 'step': 90}, {'loss': 4.7871, 'grad_norm': 4.041942596435547, 'learning_rate': 0.00012833333333333335, 'epoch': 0.37142857142857144, 'step': 91}, {'loss': 5.2504, 'grad_norm': 4.344993591308594, 'learning_rate': 0.0001275, 'epoch': 0.37551020408163266, 'step': 92}, {'loss': 5.1143, 'grad_norm': 3.752645492553711, 'learning_rate': 0.00012666666666666666, 'epoch': 0.3795918367346939, 'step': 93}, {'loss': 5.1168, 'grad_norm': 2.9692516326904297, 'learning_rate': 0.00012583333333333335, 'epoch': 0.3836734693877551, 'step': 94}, {'loss': 5.0315, 'grad_norm': 2.120283365249634, 'learning_rate': 0.000125, 'epoch': 0.3877551020408163, 'step': 95}, {'loss': 5.2849, 'grad_norm': 3.307062864303589, 'learning_rate': 0.00012416666666666669, 'epoch': 0.39183673469387753, 'step': 96}, {'loss': 4.9012, 'grad_norm': 3.153261184692383, 'learning_rate': 0.00012333333333333334, 'epoch': 0.39591836734693875, 'step': 97}, {'loss': 5.1909, 'grad_norm': 2.6914443969726562, 'learning_rate': 0.00012250000000000002, 'epoch': 0.4, 'step': 98}, {'loss': 4.9731, 'grad_norm': 3.3419318199157715, 'learning_rate': 0.00012166666666666667, 'epoch': 0.40408163265306124, 'step': 99}, {'loss': 5.0257, 'grad_norm': 1.8360190391540527, 'learning_rate': 0.00012083333333333333, 'epoch': 0.40816326530612246, 'step': 100}, {'loss': 4.8324, 'grad_norm': 2.7172935009002686, 'learning_rate': 0.00012, 'epoch': 0.4122448979591837, 'step': 101}, {'loss': 5.1269, 'grad_norm': 3.6549811363220215, 'learning_rate': 0.00011916666666666667, 'epoch': 0.4163265306122449, 'step': 102}, {'loss': 5.0399, 'grad_norm': 3.985809087753296, 'learning_rate': 0.00011833333333333334, 'epoch': 0.4204081632653061, 'step': 103}, {'loss': 4.8807, 'grad_norm': 2.6693382263183594, 'learning_rate': 0.00011750000000000001, 'epoch': 0.42448979591836733, 'step': 104}, {'loss': 4.9552, 'grad_norm': 2.993189573287964, 'learning_rate': 0.00011666666666666668, 'epoch': 0.42857142857142855, 'step': 105}, {'loss': 5.1273, 'grad_norm': 3.108787775039673, 'learning_rate': 0.00011583333333333335, 'epoch': 0.4326530612244898, 'step': 106}, {'loss': 5.1788, 'grad_norm': 2.685326099395752, 'learning_rate': 0.00011499999999999999, 'epoch': 0.43673469387755104, 'step': 107}, {'loss': 4.985, 'grad_norm': 4.46956729888916, 'learning_rate': 0.00011416666666666667, 'epoch': 0.44081632653061226, 'step': 108}, {'loss': 5.22, 'grad_norm': 2.7819221019744873, 'learning_rate': 0.00011333333333333334, 'epoch': 0.4448979591836735, 'step': 109}, {'loss': 5.0223, 'grad_norm': 3.13875412940979, 'learning_rate': 0.00011250000000000001, 'epoch': 0.4489795918367347, 'step': 110}, {'loss': 4.8917, 'grad_norm': 3.235720634460449, 'learning_rate': 0.00011166666666666668, 'epoch': 0.4530612244897959, 'step': 111}, {'loss': 4.8581, 'grad_norm': 3.5191190242767334, 'learning_rate': 0.00011083333333333335, 'epoch': 0.45714285714285713, 'step': 112}, {'loss': 5.217, 'grad_norm': 5.028131484985352, 'learning_rate': 0.00011000000000000002, 'epoch': 0.46122448979591835, 'step': 113}, {'loss': 5.0922, 'grad_norm': 3.0052785873413086, 'learning_rate': 0.00010916666666666666, 'epoch': 0.46530612244897956, 'step': 114}, {'loss': 4.8468, 'grad_norm': 3.416623115539551, 'learning_rate': 0.00010833333333333333, 'epoch': 0.46938775510204084, 'step': 115}, {'loss': 4.6285, 'grad_norm': 3.176628828048706, 'learning_rate': 0.0001075, 'epoch': 0.47346938775510206, 'step': 116}, {'loss': 5.2873, 'grad_norm': 4.59677791595459, 'learning_rate': 0.00010666666666666667, 'epoch': 0.4775510204081633, 'step': 117}, {'loss': 5.1166, 'grad_norm': 3.498530149459839, 'learning_rate': 0.00010583333333333334, 'epoch': 0.4816326530612245, 'step': 118}, {'loss': 5.1172, 'grad_norm': 2.4243879318237305, 'learning_rate': 0.000105, 'epoch': 0.4857142857142857, 'step': 119}, {'loss': 5.0311, 'grad_norm': 2.4803452491760254, 'learning_rate': 0.00010416666666666667, 'epoch': 0.4897959183673469, 'step': 120}, {'loss': 4.9939, 'grad_norm': 3.096665620803833, 'learning_rate': 0.00010333333333333334, 'epoch': 0.49387755102040815, 'step': 121}, {'loss': 4.7546, 'grad_norm': 4.103656768798828, 'learning_rate': 0.0001025, 'epoch': 0.49795918367346936, 'step': 122}, {'loss': 5.0831, 'grad_norm': 2.746527910232544, 'learning_rate': 0.00010166666666666667, 'epoch': 0.5020408163265306, 'step': 123}, {'loss': 4.9738, 'grad_norm': 2.641122579574585, 'learning_rate': 0.00010083333333333334, 'epoch': 0.5061224489795918, 'step': 124}, {'loss': 4.965, 'grad_norm': 3.1513943672180176, 'learning_rate': 0.0001, 'epoch': 0.5102040816326531, 'step': 125}, {'loss': 5.0403, 'grad_norm': 2.216710090637207, 'learning_rate': 9.916666666666667e-05, 'epoch': 0.5142857142857142, 'step': 126}, {'loss': 5.2364, 'grad_norm': 3.445953130722046, 'learning_rate': 9.833333333333333e-05, 'epoch': 0.5183673469387755, 'step': 127}, {'loss': 5.0531, 'grad_norm': 2.7439723014831543, 'learning_rate': 9.75e-05, 'epoch': 0.5224489795918368, 'step': 128}, {'loss': 5.0166, 'grad_norm': 3.694974184036255, 'learning_rate': 9.666666666666667e-05, 'epoch': 0.5265306122448979, 'step': 129}, {'loss': 5.2517, 'grad_norm': 3.39235258102417, 'learning_rate': 9.583333333333334e-05, 'epoch': 0.5306122448979592, 'step': 130}, {'loss': 5.0516, 'grad_norm': 2.8796896934509277, 'learning_rate': 9.5e-05, 'epoch': 0.5346938775510204, 'step': 131}, {'loss': 5.1163, 'grad_norm': 2.953486680984497, 'learning_rate': 9.416666666666667e-05, 'epoch': 0.5387755102040817, 'step': 132}, {'loss': 4.8688, 'grad_norm': 3.721147298812866, 'learning_rate': 9.333333333333334e-05, 'epoch': 0.5428571428571428, 'step': 133}, {'loss': 5.0999, 'grad_norm': 3.528071880340576, 'learning_rate': 9.250000000000001e-05, 'epoch': 0.5469387755102041, 'step': 134}, {'loss': 5.0325, 'grad_norm': 2.986921787261963, 'learning_rate': 9.166666666666667e-05, 'epoch': 0.5510204081632653, 'step': 135}, {'loss': 5.0429, 'grad_norm': 2.4661502838134766, 'learning_rate': 9.083333333333334e-05, 'epoch': 0.5551020408163265, 'step': 136}, {'loss': 4.8368, 'grad_norm': 2.382871389389038, 'learning_rate': 9e-05, 'epoch': 0.5591836734693878, 'step': 137}, {'loss': 4.7664, 'grad_norm': 3.6668102741241455, 'learning_rate': 8.916666666666667e-05, 'epoch': 0.563265306122449, 'step': 138}, {'loss': 5.1398, 'grad_norm': 3.769418716430664, 'learning_rate': 8.833333333333333e-05, 'epoch': 0.5673469387755102, 'step': 139}, {'loss': 5.428, 'grad_norm': 5.4299492835998535, 'learning_rate': 8.75e-05, 'epoch': 0.5714285714285714, 'step': 140}, {'loss': 4.9721, 'grad_norm': 2.7278330326080322, 'learning_rate': 8.666666666666667e-05, 'epoch': 0.5755102040816327, 'step': 141}, {'loss': 4.8833, 'grad_norm': 2.6388535499572754, 'learning_rate': 8.583333333333334e-05, 'epoch': 0.5795918367346938, 'step': 142}, {'loss': 5.0551, 'grad_norm': 3.322495698928833, 'learning_rate': 8.5e-05, 'epoch': 0.5836734693877551, 'step': 143}, {'loss': 4.7726, 'grad_norm': 2.947268486022949, 'learning_rate': 8.416666666666668e-05, 'epoch': 0.5877551020408164, 'step': 144}, {'loss': 4.92, 'grad_norm': 1.791508436203003, 'learning_rate': 8.333333333333334e-05, 'epoch': 0.5918367346938775, 'step': 145}, {'loss': 4.9726, 'grad_norm': 1.904532790184021, 'learning_rate': 8.25e-05, 'epoch': 0.5959183673469388, 'step': 146}, {'loss': 5.0949, 'grad_norm': 2.7350287437438965, 'learning_rate': 8.166666666666667e-05, 'epoch': 0.6, 'step': 147}, {'loss': 4.8871, 'grad_norm': 2.5561423301696777, 'learning_rate': 8.083333333333334e-05, 'epoch': 0.6040816326530613, 'step': 148}, {'loss': 4.7562, 'grad_norm': 4.362176895141602, 'learning_rate': 8e-05, 'epoch': 0.6081632653061224, 'step': 149}, {'loss': 5.0848, 'grad_norm': 1.6392525434494019, 'learning_rate': 7.916666666666666e-05, 'epoch': 0.6122448979591837, 'step': 150}, {'loss': 4.9462, 'grad_norm': 2.154808282852173, 'learning_rate': 7.833333333333333e-05, 'epoch': 0.6163265306122448, 'step': 151}, {'loss': 5.0456, 'grad_norm': 2.4697787761688232, 'learning_rate': 7.75e-05, 'epoch': 0.6204081632653061, 'step': 152}, {'loss': 5.1635, 'grad_norm': 1.8287113904953003, 'learning_rate': 7.666666666666667e-05, 'epoch': 0.6244897959183674, 'step': 153}, {'loss': 5.0037, 'grad_norm': 2.1513831615448, 'learning_rate': 7.583333333333334e-05, 'epoch': 0.6285714285714286, 'step': 154}, {'loss': 5.0689, 'grad_norm': 2.06913423538208, 'learning_rate': 7.500000000000001e-05, 'epoch': 0.6326530612244898, 'step': 155}, {'loss': 4.9584, 'grad_norm': 2.177246332168579, 'learning_rate': 7.416666666666668e-05, 'epoch': 0.636734693877551, 'step': 156}, {'loss': 4.9919, 'grad_norm': 1.4309300184249878, 'learning_rate': 7.333333333333333e-05, 'epoch': 0.6408163265306123, 'step': 157}, {'loss': 5.0881, 'grad_norm': 1.80264413356781, 'learning_rate': 7.25e-05, 'epoch': 0.6448979591836734, 'step': 158}, {'loss': 4.9613, 'grad_norm': 2.3021087646484375, 'learning_rate': 7.166666666666667e-05, 'epoch': 0.6489795918367347, 'step': 159}, {'loss': 5.0471, 'grad_norm': 1.9276466369628906, 'learning_rate': 7.083333333333334e-05, 'epoch': 0.6530612244897959, 'step': 160}, {'loss': 4.9113, 'grad_norm': 1.9347567558288574, 'learning_rate': 7e-05, 'epoch': 0.6571428571428571, 'step': 161}, {'loss': 4.7266, 'grad_norm': 2.863849639892578, 'learning_rate': 6.916666666666666e-05, 'epoch': 0.6612244897959184, 'step': 162}, {'loss': 4.865, 'grad_norm': 1.9142236709594727, 'learning_rate': 6.833333333333333e-05, 'epoch': 0.6653061224489796, 'step': 163}, {'loss': 5.0547, 'grad_norm': 2.0998735427856445, 'learning_rate': 6.750000000000001e-05, 'epoch': 0.6693877551020408, 'step': 164}, {'loss': 5.0326, 'grad_norm': 1.6803522109985352, 'learning_rate': 6.666666666666667e-05, 'epoch': 0.673469387755102, 'step': 165}, {'loss': 5.006, 'grad_norm': 1.8898109197616577, 'learning_rate': 6.583333333333334e-05, 'epoch': 0.6775510204081633, 'step': 166}, {'loss': 4.9014, 'grad_norm': 2.697577476501465, 'learning_rate': 6.500000000000001e-05, 'epoch': 0.6816326530612244, 'step': 167}, {'loss': 5.1743, 'grad_norm': 2.2666845321655273, 'learning_rate': 6.416666666666668e-05, 'epoch': 0.6857142857142857, 'step': 168}, {'loss': 5.1622, 'grad_norm': 1.8010385036468506, 'learning_rate': 6.333333333333333e-05, 'epoch': 0.689795918367347, 'step': 169}, {'loss': 5.0595, 'grad_norm': 2.32025408744812, 'learning_rate': 6.25e-05, 'epoch': 0.6938775510204082, 'step': 170}, {'loss': 4.9734, 'grad_norm': 2.8858771324157715, 'learning_rate': 6.166666666666667e-05, 'epoch': 0.6979591836734694, 'step': 171}, {'loss': 5.119, 'grad_norm': 2.5294241905212402, 'learning_rate': 6.083333333333333e-05, 'epoch': 0.7020408163265306, 'step': 172}, {'loss': 4.9833, 'grad_norm': 2.2631137371063232, 'learning_rate': 6e-05, 'epoch': 0.7061224489795919, 'step': 173}, {'loss': 4.9509, 'grad_norm': 2.3238325119018555, 'learning_rate': 5.916666666666667e-05, 'epoch': 0.710204081632653, 'step': 174}, {'loss': 5.0142, 'grad_norm': 2.411897897720337, 'learning_rate': 5.833333333333334e-05, 'epoch': 0.7142857142857143, 'step': 175}, {'loss': 5.1089, 'grad_norm': 2.6644067764282227, 'learning_rate': 5.7499999999999995e-05, 'epoch': 0.7183673469387755, 'step': 176}, {'loss': 5.1667, 'grad_norm': 2.7580180168151855, 'learning_rate': 5.666666666666667e-05, 'epoch': 0.7224489795918367, 'step': 177}, {'loss': 4.9174, 'grad_norm': 2.6302332878112793, 'learning_rate': 5.583333333333334e-05, 'epoch': 0.726530612244898, 'step': 178}, {'loss': 5.0033, 'grad_norm': 2.1562931537628174, 'learning_rate': 5.500000000000001e-05, 'epoch': 0.7306122448979592, 'step': 179}, {'loss': 5.0496, 'grad_norm': 1.8650166988372803, 'learning_rate': 5.4166666666666664e-05, 'epoch': 0.7346938775510204, 'step': 180}, {'loss': 4.8996, 'grad_norm': 2.2657082080841064, 'learning_rate': 5.333333333333333e-05, 'epoch': 0.7387755102040816, 'step': 181}, {'loss': 4.9609, 'grad_norm': 1.7565655708312988, 'learning_rate': 5.25e-05, 'epoch': 0.7428571428571429, 'step': 182}, {'loss': 4.8493, 'grad_norm': 1.6332372426986694, 'learning_rate': 5.166666666666667e-05, 'epoch': 0.746938775510204, 'step': 183}, {'loss': 5.2272, 'grad_norm': 3.4585049152374268, 'learning_rate': 5.0833333333333333e-05, 'epoch': 0.7510204081632653, 'step': 184}, {'loss': 5.1276, 'grad_norm': 2.2939298152923584, 'learning_rate': 5e-05, 'epoch': 0.7551020408163265, 'step': 185}, {'loss': 4.9704, 'grad_norm': 2.1112210750579834, 'learning_rate': 4.9166666666666665e-05, 'epoch': 0.7591836734693878, 'step': 186}, {'loss': 5.0032, 'grad_norm': 2.074594497680664, 'learning_rate': 4.8333333333333334e-05, 'epoch': 0.763265306122449, 'step': 187}, {'loss': 4.9306, 'grad_norm': 2.02882981300354, 'learning_rate': 4.75e-05, 'epoch': 0.7673469387755102, 'step': 188}, {'loss': 5.3039, 'grad_norm': 3.113471508026123, 'learning_rate': 4.666666666666667e-05, 'epoch': 0.7714285714285715, 'step': 189}, {'loss': 4.9344, 'grad_norm': 2.43953800201416, 'learning_rate': 4.5833333333333334e-05, 'epoch': 0.7755102040816326, 'step': 190}, {'loss': 5.3463, 'grad_norm': 3.3886358737945557, 'learning_rate': 4.5e-05, 'epoch': 0.7795918367346939, 'step': 191}, {'loss': 5.0857, 'grad_norm': 1.7668874263763428, 'learning_rate': 4.4166666666666665e-05, 'epoch': 0.7836734693877551, 'step': 192}, {'loss': 4.9362, 'grad_norm': 2.1475751399993896, 'learning_rate': 4.3333333333333334e-05, 'epoch': 0.7877551020408163, 'step': 193}, {'loss': 4.7998, 'grad_norm': 3.0470454692840576, 'learning_rate': 4.25e-05, 'epoch': 0.7918367346938775, 'step': 194}, {'loss': 5.0479, 'grad_norm': 1.74006986618042, 'learning_rate': 4.166666666666667e-05, 'epoch': 0.7959183673469388, 'step': 195}, {'loss': 4.7089, 'grad_norm': 3.070465087890625, 'learning_rate': 4.0833333333333334e-05, 'epoch': 0.8, 'step': 196}, {'loss': 5.0566, 'grad_norm': 2.4515650272369385, 'learning_rate': 4e-05, 'epoch': 0.8040816326530612, 'step': 197}, {'loss': 4.9514, 'grad_norm': 1.6914273500442505, 'learning_rate': 3.9166666666666665e-05, 'epoch': 0.8081632653061225, 'step': 198}, {'loss': 4.7485, 'grad_norm': 2.392242431640625, 'learning_rate': 3.8333333333333334e-05, 'epoch': 0.8122448979591836, 'step': 199}, {'loss': 4.9781, 'grad_norm': 2.439588785171509, 'learning_rate': 3.7500000000000003e-05, 'epoch': 0.8163265306122449, 'step': 200}, {'loss': 5.1204, 'grad_norm': 2.2715108394622803, 'learning_rate': 3.6666666666666666e-05, 'epoch': 0.8204081632653061, 'step': 201}, {'loss': 5.35, 'grad_norm': 3.9811854362487793, 'learning_rate': 3.5833333333333335e-05, 'epoch': 0.8244897959183674, 'step': 202}, {'loss': 4.9143, 'grad_norm': 1.3668158054351807, 'learning_rate': 3.5e-05, 'epoch': 0.8285714285714286, 'step': 203}, {'loss': 5.111, 'grad_norm': 2.8999288082122803, 'learning_rate': 3.4166666666666666e-05, 'epoch': 0.8326530612244898, 'step': 204}, {'loss': 4.7733, 'grad_norm': 3.455735921859741, 'learning_rate': 3.3333333333333335e-05, 'epoch': 0.8367346938775511, 'step': 205}, {'loss': 4.8134, 'grad_norm': 2.9502878189086914, 'learning_rate': 3.2500000000000004e-05, 'epoch': 0.8408163265306122, 'step': 206}, {'loss': 4.797, 'grad_norm': 2.0698089599609375, 'learning_rate': 3.1666666666666666e-05, 'epoch': 0.8448979591836735, 'step': 207}, {'loss': 4.8328, 'grad_norm': 1.5776410102844238, 'learning_rate': 3.0833333333333335e-05, 'epoch': 0.8489795918367347, 'step': 208}, {'loss': 4.9226, 'grad_norm': 2.432849884033203, 'learning_rate': 3e-05, 'epoch': 0.8530612244897959, 'step': 209}, {'loss': 4.9248, 'grad_norm': 1.7120193243026733, 'learning_rate': 2.916666666666667e-05, 'epoch': 0.8571428571428571, 'step': 210}, {'loss': 4.8521, 'grad_norm': 1.572007179260254, 'learning_rate': 2.8333333333333335e-05, 'epoch': 0.8612244897959184, 'step': 211}, {'loss': 4.9962, 'grad_norm': 1.8875885009765625, 'learning_rate': 2.7500000000000004e-05, 'epoch': 0.8653061224489796, 'step': 212}, {'loss': 4.9649, 'grad_norm': 1.9337579011917114, 'learning_rate': 2.6666666666666667e-05, 'epoch': 0.8693877551020408, 'step': 213}, {'loss': 4.8061, 'grad_norm': 1.9187709093093872, 'learning_rate': 2.5833333333333336e-05, 'epoch': 0.8734693877551021, 'step': 214}, {'loss': 4.9214, 'grad_norm': 1.4283447265625, 'learning_rate': 2.5e-05, 'epoch': 0.8775510204081632, 'step': 215}, {'loss': 5.1087, 'grad_norm': 2.2134926319122314, 'learning_rate': 2.4166666666666667e-05, 'epoch': 0.8816326530612245, 'step': 216}, {'loss': 4.8143, 'grad_norm': 1.5690053701400757, 'learning_rate': 2.3333333333333336e-05, 'epoch': 0.8857142857142857, 'step': 217}, {'loss': 5.014, 'grad_norm': 1.8189350366592407, 'learning_rate': 2.25e-05, 'epoch': 0.889795918367347, 'step': 218}, {'loss': 4.9803, 'grad_norm': 1.1040631532669067, 'learning_rate': 2.1666666666666667e-05, 'epoch': 0.8938775510204081, 'step': 219}, {'loss': 4.9312, 'grad_norm': 1.5205578804016113, 'learning_rate': 2.0833333333333336e-05, 'epoch': 0.8979591836734694, 'step': 220}, {'loss': 4.9462, 'grad_norm': 0.9134802222251892, 'learning_rate': 2e-05, 'epoch': 0.9020408163265307, 'step': 221}, {'loss': 4.8705, 'grad_norm': 2.018275499343872, 'learning_rate': 1.9166666666666667e-05, 'epoch': 0.9061224489795918, 'step': 222}, {'loss': 5.1041, 'grad_norm': 1.7607687711715698, 'learning_rate': 1.8333333333333333e-05, 'epoch': 0.9102040816326531, 'step': 223}, {'loss': 4.9947, 'grad_norm': 2.0383362770080566, 'learning_rate': 1.75e-05, 'epoch': 0.9142857142857143, 'step': 224}, {'loss': 5.1005, 'grad_norm': 1.6753973960876465, 'learning_rate': 1.6666666666666667e-05, 'epoch': 0.9183673469387755, 'step': 225}, {'loss': 4.8567, 'grad_norm': 1.5080275535583496, 'learning_rate': 1.5833333333333333e-05, 'epoch': 0.9224489795918367, 'step': 226}, {'loss': 5.0568, 'grad_norm': 1.2807979583740234, 'learning_rate': 1.5e-05, 'epoch': 0.926530612244898, 'step': 227}, {'loss': 5.1011, 'grad_norm': 1.6065547466278076, 'learning_rate': 1.4166666666666668e-05, 'epoch': 0.9306122448979591, 'step': 228}, {'loss': 4.7893, 'grad_norm': 2.2500686645507812, 'learning_rate': 1.3333333333333333e-05, 'epoch': 0.9346938775510204, 'step': 229}, {'loss': 5.0887, 'grad_norm': 1.5099562406539917, 'learning_rate': 1.25e-05, 'epoch': 0.9387755102040817, 'step': 230}, {'loss': 4.9764, 'grad_norm': 1.182661771774292, 'learning_rate': 1.1666666666666668e-05, 'epoch': 0.9428571428571428, 'step': 231}, {'loss': 5.0491, 'grad_norm': 1.2623615264892578, 'learning_rate': 1.0833333333333334e-05, 'epoch': 0.9469387755102041, 'step': 232}, {'loss': 5.01, 'grad_norm': 1.8481285572052002, 'learning_rate': 1e-05, 'epoch': 0.9510204081632653, 'step': 233}, {'loss': 4.7308, 'grad_norm': 2.3601067066192627, 'learning_rate': 9.166666666666666e-06, 'epoch': 0.9551020408163265, 'step': 234}, {'loss': 4.904, 'grad_norm': 1.1724603176116943, 'learning_rate': 8.333333333333334e-06, 'epoch': 0.9591836734693877, 'step': 235}, {'loss': 4.9668, 'grad_norm': 0.8103837966918945, 'learning_rate': 7.5e-06, 'epoch': 0.963265306122449, 'step': 236}, {'loss': 4.7563, 'grad_norm': 2.3229141235351562, 'learning_rate': 6.666666666666667e-06, 'epoch': 0.9673469387755103, 'step': 237}, {'loss': 4.9438, 'grad_norm': 1.529670000076294, 'learning_rate': 5.833333333333334e-06, 'epoch': 0.9714285714285714, 'step': 238}, {'loss': 5.0396, 'grad_norm': 1.1857177019119263, 'learning_rate': 5e-06, 'epoch': 0.9755102040816327, 'step': 239}, {'loss': 5.1013, 'grad_norm': 1.4571279287338257, 'learning_rate': 4.166666666666667e-06, 'epoch': 0.9795918367346939, 'step': 240}, {'loss': 4.8357, 'grad_norm': 1.417481780052185, 'learning_rate': 3.3333333333333333e-06, 'epoch': 0.9836734693877551, 'step': 241}, {'loss': 4.8797, 'grad_norm': 1.3460421562194824, 'learning_rate': 2.5e-06, 'epoch': 0.9877551020408163, 'step': 242}, {'loss': 5.2392, 'grad_norm': 2.2825357913970947, 'learning_rate': 1.6666666666666667e-06, 'epoch': 0.9918367346938776, 'step': 243}, {'loss': 5.1916, 'grad_norm': 2.511971950531006, 'learning_rate': 8.333333333333333e-07, 'epoch': 0.9959183673469387, 'step': 244}, {'loss': 4.7297, 'grad_norm': 2.170353412628174, 'learning_rate': 0.0, 'epoch': 1.0, 'step': 245}, {'train_runtime': 8403.8154, 'train_samples_per_second': 0.466, 'train_steps_per_second': 0.029, 'total_flos': 3.811634682601144e+17, 'train_loss': 5.213865178701829, 'epoch': 1.0, 'step': 245}]

Uploaded model

Finetuned from unsloth/mistral-7b-v0.3-bnb-4bit

Finetuned from