Uploaded model

Developed by: Logility
License: apache-2.0
Finetuned from model : unsloth/mistral-7b-instruct-v0.3-bnb-4bit

This mistral model was trained 2x faster with Unsloth and Huggingface's TRL library.

{'log_norm': 1.0130549645104734, 'alpha': 5.849469539247565, 'alpha_weighted': -0.48021389143394483, 'log_alpha_norm': -0.31026939435482453, 'log_spectral_norm': -0.252437548635975, 'stable_rank': 45.326932081170966}

[{'loss': 0.9935, 'grad_norm': 16.933504104614258, 'learning_rate': 4e-05, 'epoch': 0.004081632653061225, 'step': 1}, {'loss': 1.0301, 'grad_norm': 19.214229583740234, 'learning_rate': 8e-05, 'epoch': 0.00816326530612245, 'step': 2}, {'loss': 1.6459, 'grad_norm': 77.54351806640625, 'learning_rate': 0.00012, 'epoch': 0.012244897959183673, 'step': 3}, {'loss': 4.0999, 'grad_norm': 2453.039794921875, 'learning_rate': 0.00016, 'epoch': 0.0163265306122449, 'step': 4}, {'loss': 5.3864, 'grad_norm': 535.163330078125, 'learning_rate': 0.0002, 'epoch': 0.02040816326530612, 'step': 5}, {'loss': 6.4114, 'grad_norm': 112.87977600097656, 'learning_rate': 0.0001991666666666667, 'epoch': 0.024489795918367346, 'step': 6}, {'loss': 8.0365, 'grad_norm': 171.9907684326172, 'learning_rate': 0.00019833333333333335, 'epoch': 0.02857142857142857, 'step': 7}, {'loss': 12.3158, 'grad_norm': 323.0989685058594, 'learning_rate': 0.00019750000000000003, 'epoch': 0.0326530612244898, 'step': 8}, {'loss': 10.3446, 'grad_norm': 788.1015014648438, 'learning_rate': 0.00019666666666666666, 'epoch': 0.036734693877551024, 'step': 9}, {'loss': 13.9889, 'grad_norm': 534.1563720703125, 'learning_rate': 0.00019583333333333334, 'epoch': 0.04081632653061224, 'step': 10}, {'loss': 8.9905, 'grad_norm': 139.66580200195312, 'learning_rate': 0.000195, 'epoch': 0.044897959183673466, 'step': 11}, {'loss': 8.2418, 'grad_norm': 203.14662170410156, 'learning_rate': 0.00019416666666666668, 'epoch': 0.04897959183673469, 'step': 12}, {'loss': 8.3146, 'grad_norm': 107.92992401123047, 'learning_rate': 0.00019333333333333333, 'epoch': 0.053061224489795916, 'step': 13}, {'loss': 7.419, 'grad_norm': 124.42079162597656, 'learning_rate': 0.00019250000000000002, 'epoch': 0.05714285714285714, 'step': 14}, {'loss': 7.3944, 'grad_norm': 86.32051086425781, 'learning_rate': 0.00019166666666666667, 'epoch': 0.061224489795918366, 'step': 15}, {'loss': 7.173, 'grad_norm': 71.15567779541016, 'learning_rate': 0.00019083333333333336, 'epoch': 0.0653061224489796, 'step': 16}, {'loss': 6.8624, 'grad_norm': 96.53276824951172, 'learning_rate': 0.00019, 'epoch': 0.06938775510204082, 'step': 17}, {'loss': 7.0185, 'grad_norm': 66.38220977783203, 'learning_rate': 0.00018916666666666667, 'epoch': 0.07346938775510205, 'step': 18}, {'loss': 6.3008, 'grad_norm': 54.87129211425781, 'learning_rate': 0.00018833333333333335, 'epoch': 0.07755102040816327, 'step': 19}, {'loss': 7.0189, 'grad_norm': 233.58094787597656, 'learning_rate': 0.0001875, 'epoch': 0.08163265306122448, 'step': 20}, {'loss': 6.7563, 'grad_norm': 110.16864013671875, 'learning_rate': 0.0001866666666666667, 'epoch': 0.08571428571428572, 'step': 21}, {'loss': 6.732, 'grad_norm': 60.16447067260742, 'learning_rate': 0.00018583333333333334, 'epoch': 0.08979591836734693, 'step': 22}, {'loss': 6.2032, 'grad_norm': 53.2939338684082, 'learning_rate': 0.00018500000000000002, 'epoch': 0.09387755102040816, 'step': 23}, {'loss': 6.0697, 'grad_norm': 75.56983184814453, 'learning_rate': 0.00018416666666666665, 'epoch': 0.09795918367346938, 'step': 24}, {'loss': 5.8656, 'grad_norm': 55.37406921386719, 'learning_rate': 0.00018333333333333334, 'epoch': 0.10204081632653061, 'step': 25}, {'loss': 5.9147, 'grad_norm': 46.06873321533203, 'learning_rate': 0.0001825, 'epoch': 0.10612244897959183, 'step': 26}, {'loss': 5.7371, 'grad_norm': 40.14793395996094, 'learning_rate': 0.00018166666666666667, 'epoch': 0.11020408163265306, 'step': 27}, {'loss': 5.3639, 'grad_norm': 34.78794479370117, 'learning_rate': 0.00018083333333333336, 'epoch': 0.11428571428571428, 'step': 28}, {'loss': 5.8927, 'grad_norm': 50.41286087036133, 'learning_rate': 0.00018, 'epoch': 0.11836734693877551, 'step': 29}, {'loss': 5.7433, 'grad_norm': 34.42357635498047, 'learning_rate': 0.0001791666666666667, 'epoch': 0.12244897959183673, 'step': 30}, {'loss': 5.487, 'grad_norm': 26.41768455505371, 'learning_rate': 0.00017833333333333335, 'epoch': 0.12653061224489795, 'step': 31}, {'loss': 5.5537, 'grad_norm': 43.567195892333984, 'learning_rate': 0.0001775, 'epoch': 0.1306122448979592, 'step': 32}, {'loss': 5.4468, 'grad_norm': 32.26188278198242, 'learning_rate': 0.00017666666666666666, 'epoch': 0.1346938775510204, 'step': 33}, {'loss': 5.4015, 'grad_norm': 27.204647064208984, 'learning_rate': 0.00017583333333333334, 'epoch': 0.13877551020408163, 'step': 34}, {'loss': 5.5258, 'grad_norm': 19.19283103942871, 'learning_rate': 0.000175, 'epoch': 0.14285714285714285, 'step': 35}, {'loss': 5.4068, 'grad_norm': 20.959196090698242, 'learning_rate': 0.00017416666666666668, 'epoch': 0.1469387755102041, 'step': 36}, {'loss': 5.1233, 'grad_norm': 21.326190948486328, 'learning_rate': 0.00017333333333333334, 'epoch': 0.1510204081632653, 'step': 37}, {'loss': 5.1318, 'grad_norm': 23.618078231811523, 'learning_rate': 0.00017250000000000002, 'epoch': 0.15510204081632653, 'step': 38}, {'loss': 5.6065, 'grad_norm': 28.388357162475586, 'learning_rate': 0.00017166666666666667, 'epoch': 0.15918367346938775, 'step': 39}, {'loss': 5.1321, 'grad_norm': 18.65485954284668, 'learning_rate': 0.00017083333333333333, 'epoch': 0.16326530612244897, 'step': 40}, {'loss': 4.8308, 'grad_norm': 24.029691696166992, 'learning_rate': 0.00017, 'epoch': 0.1673469387755102, 'step': 41}, {'loss': 5.4733, 'grad_norm': 18.86829376220703, 'learning_rate': 0.00016916666666666667, 'epoch': 0.17142857142857143, 'step': 42}, {'loss': 4.9171, 'grad_norm': 17.708545684814453, 'learning_rate': 0.00016833333333333335, 'epoch': 0.17551020408163265, 'step': 43}, {'loss': 4.9807, 'grad_norm': 19.03410530090332, 'learning_rate': 0.0001675, 'epoch': 0.17959183673469387, 'step': 44}, {'loss': 4.8966, 'grad_norm': 23.08717155456543, 'learning_rate': 0.0001666666666666667, 'epoch': 0.1836734693877551, 'step': 45}, {'loss': 4.8739, 'grad_norm': 16.11260414123535, 'learning_rate': 0.00016583333333333334, 'epoch': 0.18775510204081633, 'step': 46}, {'loss': 4.9994, 'grad_norm': 16.200807571411133, 'learning_rate': 0.000165, 'epoch': 0.19183673469387755, 'step': 47}, {'loss': 5.082, 'grad_norm': 12.496517181396484, 'learning_rate': 0.00016416666666666668, 'epoch': 0.19591836734693877, 'step': 48}, {'loss': 4.9342, 'grad_norm': 19.824913024902344, 'learning_rate': 0.00016333333333333334, 'epoch': 0.2, 'step': 49}, {'loss': 5.0913, 'grad_norm': 15.762531280517578, 'learning_rate': 0.00016250000000000002, 'epoch': 0.20408163265306123, 'step': 50}, {'loss': 4.9959, 'grad_norm': 15.703360557556152, 'learning_rate': 0.00016166666666666668, 'epoch': 0.20816326530612245, 'step': 51}, {'loss': 5.1855, 'grad_norm': 17.94782066345215, 'learning_rate': 0.00016083333333333336, 'epoch': 0.21224489795918366, 'step': 52}, {'loss': 5.2078, 'grad_norm': 17.82746124267578, 'learning_rate': 0.00016, 'epoch': 0.2163265306122449, 'step': 53}, {'loss': 4.9545, 'grad_norm': 14.60933780670166, 'learning_rate': 0.00015916666666666667, 'epoch': 0.22040816326530613, 'step': 54}, {'loss': 5.0627, 'grad_norm': 21.75824737548828, 'learning_rate': 0.00015833333333333332, 'epoch': 0.22448979591836735, 'step': 55}, {'loss': 5.0761, 'grad_norm': 16.396991729736328, 'learning_rate': 0.0001575, 'epoch': 0.22857142857142856, 'step': 56}, {'loss': 5.1481, 'grad_norm': 14.319938659667969, 'learning_rate': 0.00015666666666666666, 'epoch': 0.23265306122448978, 'step': 57}, {'loss': 5.2609, 'grad_norm': 13.76372241973877, 'learning_rate': 0.00015583333333333334, 'epoch': 0.23673469387755103, 'step': 58}, {'loss': 5.0887, 'grad_norm': 14.439352989196777, 'learning_rate': 0.000155, 'epoch': 0.24081632653061225, 'step': 59}, {'loss': 4.8165, 'grad_norm': 19.415664672851562, 'learning_rate': 0.00015416666666666668, 'epoch': 0.24489795918367346, 'step': 60}, {'loss': 5.1225, 'grad_norm': 18.518611907958984, 'learning_rate': 0.00015333333333333334, 'epoch': 0.24897959183673468, 'step': 61}, {'loss': 5.2169, 'grad_norm': 20.2432804107666, 'learning_rate': 0.0001525, 'epoch': 0.2530612244897959, 'step': 62}, {'loss': 5.3587, 'grad_norm': 15.608875274658203, 'learning_rate': 0.00015166666666666668, 'epoch': 0.2571428571428571, 'step': 63}, {'loss': 5.1882, 'grad_norm': 19.266681671142578, 'learning_rate': 0.00015083333333333333, 'epoch': 0.2612244897959184, 'step': 64}, {'loss': 5.1153, 'grad_norm': 15.072821617126465, 'learning_rate': 0.00015000000000000001, 'epoch': 0.2653061224489796, 'step': 65}, {'loss': 5.1909, 'grad_norm': 14.490310668945312, 'learning_rate': 0.00014916666666666667, 'epoch': 0.2693877551020408, 'step': 66}, {'loss': 5.1803, 'grad_norm': 22.893457412719727, 'learning_rate': 0.00014833333333333335, 'epoch': 0.27346938775510204, 'step': 67}, {'loss': 4.988, 'grad_norm': 18.318763732910156, 'learning_rate': 0.0001475, 'epoch': 0.27755102040816326, 'step': 68}, {'loss': 5.212, 'grad_norm': 10.592023849487305, 'learning_rate': 0.00014666666666666666, 'epoch': 0.2816326530612245, 'step': 69}, {'loss': 4.9567, 'grad_norm': 14.947299003601074, 'learning_rate': 0.00014583333333333335, 'epoch': 0.2857142857142857, 'step': 70}, {'loss': 5.3015, 'grad_norm': 13.753852844238281, 'learning_rate': 0.000145, 'epoch': 0.2897959183673469, 'step': 71}, {'loss': 5.1695, 'grad_norm': 11.044635772705078, 'learning_rate': 0.00014416666666666668, 'epoch': 0.2938775510204082, 'step': 72}, {'loss': 4.985, 'grad_norm': 11.600317001342773, 'learning_rate': 0.00014333333333333334, 'epoch': 0.2979591836734694, 'step': 73}, {'loss': 4.9011, 'grad_norm': 10.331744194030762, 'learning_rate': 0.00014250000000000002, 'epoch': 0.3020408163265306, 'step': 74}, {'loss': 5.319, 'grad_norm': 14.726689338684082, 'learning_rate': 0.00014166666666666668, 'epoch': 0.30612244897959184, 'step': 75}, {'loss': 5.0683, 'grad_norm': 10.508565902709961, 'learning_rate': 0.00014083333333333336, 'epoch': 0.31020408163265306, 'step': 76}, {'loss': 4.962, 'grad_norm': 20.57769203186035, 'learning_rate': 0.00014, 'epoch': 0.3142857142857143, 'step': 77}, {'loss': 5.0208, 'grad_norm': 18.46752166748047, 'learning_rate': 0.00013916666666666667, 'epoch': 0.3183673469387755, 'step': 78}, {'loss': 5.2743, 'grad_norm': 13.959145545959473, 'learning_rate': 0.00013833333333333333, 'epoch': 0.3224489795918367, 'step': 79}, {'loss': 4.8887, 'grad_norm': 12.1384916305542, 'learning_rate': 0.0001375, 'epoch': 0.32653061224489793, 'step': 80}, {'loss': 5.2003, 'grad_norm': 13.527809143066406, 'learning_rate': 0.00013666666666666666, 'epoch': 0.3306122448979592, 'step': 81}, {'loss': 5.4128, 'grad_norm': 13.778468132019043, 'learning_rate': 0.00013583333333333335, 'epoch': 0.3346938775510204, 'step': 82}, {'loss': 5.0777, 'grad_norm': 19.06171417236328, 'learning_rate': 0.00013500000000000003, 'epoch': 0.33877551020408164, 'step': 83}, {'loss': 4.8925, 'grad_norm': 13.654967308044434, 'learning_rate': 0.00013416666666666666, 'epoch': 0.34285714285714286, 'step': 84}, {'loss': 4.8602, 'grad_norm': 15.900649070739746, 'learning_rate': 0.00013333333333333334, 'epoch': 0.3469387755102041, 'step': 85}, {'loss': 4.9906, 'grad_norm': 16.296884536743164, 'learning_rate': 0.0001325, 'epoch': 0.3510204081632653, 'step': 86}, {'loss': 5.36, 'grad_norm': 15.51528263092041, 'learning_rate': 0.00013166666666666668, 'epoch': 0.3551020408163265, 'step': 87}, {'loss': 5.2849, 'grad_norm': 13.061979293823242, 'learning_rate': 0.00013083333333333333, 'epoch': 0.35918367346938773, 'step': 88}, {'loss': 4.9932, 'grad_norm': 20.918432235717773, 'learning_rate': 0.00013000000000000002, 'epoch': 0.363265306122449, 'step': 89}, {'loss': 5.1476, 'grad_norm': 12.926546096801758, 'learning_rate': 0.00012916666666666667, 'epoch': 0.3673469387755102, 'step': 90}, {'loss': 4.8555, 'grad_norm': 14.962422370910645, 'learning_rate': 0.00012833333333333335, 'epoch': 0.37142857142857144, 'step': 91}, {'loss': 5.3422, 'grad_norm': 19.380950927734375, 'learning_rate': 0.0001275, 'epoch': 0.37551020408163266, 'step': 92}, {'loss': 5.1886, 'grad_norm': 13.870136260986328, 'learning_rate': 0.00012666666666666666, 'epoch': 0.3795918367346939, 'step': 93}, {'loss': 5.2208, 'grad_norm': 10.062579154968262, 'learning_rate': 0.00012583333333333335, 'epoch': 0.3836734693877551, 'step': 94}, {'loss': 5.095, 'grad_norm': 11.70234489440918, 'learning_rate': 0.000125, 'epoch': 0.3877551020408163, 'step': 95}, {'loss': 5.3457, 'grad_norm': 9.468823432922363, 'learning_rate': 0.00012416666666666669, 'epoch': 0.39183673469387753, 'step': 96}, {'loss': 4.9584, 'grad_norm': 10.272806167602539, 'learning_rate': 0.00012333333333333334, 'epoch': 0.39591836734693875, 'step': 97}, {'loss': 5.2395, 'grad_norm': 11.41337776184082, 'learning_rate': 0.00012250000000000002, 'epoch': 0.4, 'step': 98}, {'loss': 5.0673, 'grad_norm': 14.818157196044922, 'learning_rate': 0.00012166666666666667, 'epoch': 0.40408163265306124, 'step': 99}, {'loss': 5.0896, 'grad_norm': 10.9734525680542, 'learning_rate': 0.00012083333333333333, 'epoch': 0.40816326530612246, 'step': 100}, {'loss': 4.8579, 'grad_norm': 13.551868438720703, 'learning_rate': 0.00012, 'epoch': 0.4122448979591837, 'step': 101}, {'loss': 5.1515, 'grad_norm': 10.467961311340332, 'learning_rate': 0.00011916666666666667, 'epoch': 0.4163265306122449, 'step': 102}, {'loss': 5.0895, 'grad_norm': 14.4990873336792, 'learning_rate': 0.00011833333333333334, 'epoch': 0.4204081632653061, 'step': 103}, {'loss': 4.9199, 'grad_norm': 8.8491849899292, 'learning_rate': 0.00011750000000000001, 'epoch': 0.42448979591836733, 'step': 104}, {'loss': 4.9962, 'grad_norm': 10.529449462890625, 'learning_rate': 0.00011666666666666668, 'epoch': 0.42857142857142855, 'step': 105}, {'loss': 5.1801, 'grad_norm': 11.302645683288574, 'learning_rate': 0.00011583333333333335, 'epoch': 0.4326530612244898, 'step': 106}, {'loss': 5.2521, 'grad_norm': 9.312164306640625, 'learning_rate': 0.00011499999999999999, 'epoch': 0.43673469387755104, 'step': 107}, {'loss': 5.0455, 'grad_norm': 15.932278633117676, 'learning_rate': 0.00011416666666666667, 'epoch': 0.44081632653061226, 'step': 108}, {'loss': 5.2998, 'grad_norm': 12.608111381530762, 'learning_rate': 0.00011333333333333334, 'epoch': 0.4448979591836735, 'step': 109}, {'loss': 5.0749, 'grad_norm': 10.018389701843262, 'learning_rate': 0.00011250000000000001, 'epoch': 0.4489795918367347, 'step': 110}, {'loss': 4.9472, 'grad_norm': 10.45630931854248, 'learning_rate': 0.00011166666666666668, 'epoch': 0.4530612244897959, 'step': 111}, {'loss': 4.8853, 'grad_norm': 10.524084091186523, 'learning_rate': 0.00011083333333333335, 'epoch': 0.45714285714285713, 'step': 112}, {'loss': 5.2864, 'grad_norm': 16.784208297729492, 'learning_rate': 0.00011000000000000002, 'epoch': 0.46122448979591835, 'step': 113}, {'loss': 5.1491, 'grad_norm': 9.865246772766113, 'learning_rate': 0.00010916666666666666, 'epoch': 0.46530612244897956, 'step': 114}, {'loss': 4.8889, 'grad_norm': 11.318000793457031, 'learning_rate': 0.00010833333333333333, 'epoch': 0.46938775510204084, 'step': 115}, {'loss': 4.6223, 'grad_norm': 10.08846378326416, 'learning_rate': 0.0001075, 'epoch': 0.47346938775510206, 'step': 116}, {'loss': 5.3312, 'grad_norm': 16.001983642578125, 'learning_rate': 0.00010666666666666667, 'epoch': 0.4775510204081633, 'step': 117}, {'loss': 5.1874, 'grad_norm': 13.513648986816406, 'learning_rate': 0.00010583333333333334, 'epoch': 0.4816326530612245, 'step': 118}, {'loss': 5.1821, 'grad_norm': 8.573174476623535, 'learning_rate': 0.000105, 'epoch': 0.4857142857142857, 'step': 119}, {'loss': 5.0761, 'grad_norm': 7.236639976501465, 'learning_rate': 0.00010416666666666667, 'epoch': 0.4897959183673469, 'step': 120}, {'loss': 5.0118, 'grad_norm': 10.670299530029297, 'learning_rate': 0.00010333333333333334, 'epoch': 0.49387755102040815, 'step': 121}, {'loss': 4.7755, 'grad_norm': 10.408452987670898, 'learning_rate': 0.0001025, 'epoch': 0.49795918367346936, 'step': 122}, {'loss': 5.0923, 'grad_norm': 14.175971984863281, 'learning_rate': 0.00010166666666666667, 'epoch': 0.5020408163265306, 'step': 123}, {'loss': 5.0195, 'grad_norm': 14.700153350830078, 'learning_rate': 0.00010083333333333334, 'epoch': 0.5061224489795918, 'step': 124}, {'loss': 5.0097, 'grad_norm': 7.853456020355225, 'learning_rate': 0.0001, 'epoch': 0.5102040816326531, 'step': 125}, {'loss': 5.0533, 'grad_norm': 7.426161289215088, 'learning_rate': 9.916666666666667e-05, 'epoch': 0.5142857142857142, 'step': 126}, {'loss': 5.2661, 'grad_norm': 7.780272960662842, 'learning_rate': 9.833333333333333e-05, 'epoch': 0.5183673469387755, 'step': 127}, {'loss': 5.0658, 'grad_norm': 10.231606483459473, 'learning_rate': 9.75e-05, 'epoch': 0.5224489795918368, 'step': 128}, {'loss': 5.0469, 'grad_norm': 9.081989288330078, 'learning_rate': 9.666666666666667e-05, 'epoch': 0.5265306122448979, 'step': 129}, {'loss': 5.2675, 'grad_norm': 10.113052368164062, 'learning_rate': 9.583333333333334e-05, 'epoch': 0.5306122448979592, 'step': 130}, {'loss': 5.0575, 'grad_norm': 8.969263076782227, 'learning_rate': 9.5e-05, 'epoch': 0.5346938775510204, 'step': 131}, {'loss': 5.1914, 'grad_norm': 13.744361877441406, 'learning_rate': 9.416666666666667e-05, 'epoch': 0.5387755102040817, 'step': 132}, {'loss': 4.8914, 'grad_norm': 11.140192985534668, 'learning_rate': 9.333333333333334e-05, 'epoch': 0.5428571428571428, 'step': 133}, {'loss': 5.1396, 'grad_norm': 9.872641563415527, 'learning_rate': 9.250000000000001e-05, 'epoch': 0.5469387755102041, 'step': 134}, {'loss': 5.1094, 'grad_norm': 9.4326810836792, 'learning_rate': 9.166666666666667e-05, 'epoch': 0.5510204081632653, 'step': 135}, {'loss': 5.0614, 'grad_norm': 9.623810768127441, 'learning_rate': 9.083333333333334e-05, 'epoch': 0.5551020408163265, 'step': 136}, {'loss': 4.8491, 'grad_norm': 9.76761245727539, 'learning_rate': 9e-05, 'epoch': 0.5591836734693878, 'step': 137}, {'loss': 4.7648, 'grad_norm': 10.983702659606934, 'learning_rate': 8.916666666666667e-05, 'epoch': 0.563265306122449, 'step': 138}, {'loss': 5.1868, 'grad_norm': 9.685722351074219, 'learning_rate': 8.833333333333333e-05, 'epoch': 0.5673469387755102, 'step': 139}, {'loss': 5.4956, 'grad_norm': 10.699894905090332, 'learning_rate': 8.75e-05, 'epoch': 0.5714285714285714, 'step': 140}, {'loss': 4.9994, 'grad_norm': 13.469390869140625, 'learning_rate': 8.666666666666667e-05, 'epoch': 0.5755102040816327, 'step': 141}, {'loss': 4.9389, 'grad_norm': 13.161657333374023, 'learning_rate': 8.583333333333334e-05, 'epoch': 0.5795918367346938, 'step': 142}, {'loss': 5.0849, 'grad_norm': 7.934944152832031, 'learning_rate': 8.5e-05, 'epoch': 0.5836734693877551, 'step': 143}, {'loss': 4.8055, 'grad_norm': 8.258415222167969, 'learning_rate': 8.416666666666668e-05, 'epoch': 0.5877551020408164, 'step': 144}, {'loss': 4.9527, 'grad_norm': 11.638571739196777, 'learning_rate': 8.333333333333334e-05, 'epoch': 0.5918367346938775, 'step': 145}, {'loss': 5.0247, 'grad_norm': 10.308349609375, 'learning_rate': 8.25e-05, 'epoch': 0.5959183673469388, 'step': 146}, {'loss': 5.1228, 'grad_norm': 7.507357120513916, 'learning_rate': 8.166666666666667e-05, 'epoch': 0.6, 'step': 147}, {'loss': 4.9109, 'grad_norm': 12.483440399169922, 'learning_rate': 8.083333333333334e-05, 'epoch': 0.6040816326530613, 'step': 148}, {'loss': 4.8022, 'grad_norm': 14.09574031829834, 'learning_rate': 8e-05, 'epoch': 0.6081632653061224, 'step': 149}, {'loss': 5.1208, 'grad_norm': 8.298612594604492, 'learning_rate': 7.916666666666666e-05, 'epoch': 0.6122448979591837, 'step': 150}, {'loss': 4.9677, 'grad_norm': 9.324103355407715, 'learning_rate': 7.833333333333333e-05, 'epoch': 0.6163265306122448, 'step': 151}, {'loss': 5.0596, 'grad_norm': 6.532403945922852, 'learning_rate': 7.75e-05, 'epoch': 0.6204081632653061, 'step': 152}, {'loss': 5.1831, 'grad_norm': 11.151485443115234, 'learning_rate': 7.666666666666667e-05, 'epoch': 0.6244897959183674, 'step': 153}, {'loss': 5.014, 'grad_norm': 8.509276390075684, 'learning_rate': 7.583333333333334e-05, 'epoch': 0.6285714285714286, 'step': 154}, {'loss': 5.0856, 'grad_norm': 7.570611000061035, 'learning_rate': 7.500000000000001e-05, 'epoch': 0.6326530612244898, 'step': 155}, {'loss': 4.9072, 'grad_norm': 14.143633842468262, 'learning_rate': 7.416666666666668e-05, 'epoch': 0.636734693877551, 'step': 156}, {'loss': 4.9975, 'grad_norm': 16.32980728149414, 'learning_rate': 7.333333333333333e-05, 'epoch': 0.6408163265306123, 'step': 157}, {'loss': 5.0714, 'grad_norm': 16.61168670654297, 'learning_rate': 7.25e-05, 'epoch': 0.6448979591836734, 'step': 158}, {'loss': 4.8723, 'grad_norm': 12.86776351928711, 'learning_rate': 7.166666666666667e-05, 'epoch': 0.6489795918367347, 'step': 159}, {'loss': 4.9953, 'grad_norm': 31.816598892211914, 'learning_rate': 7.083333333333334e-05, 'epoch': 0.6530612244897959, 'step': 160}, {'loss': 4.7319, 'grad_norm': 25.96819496154785, 'learning_rate': 7e-05, 'epoch': 0.6571428571428571, 'step': 161}, {'loss': 4.5738, 'grad_norm': 19.483152389526367, 'learning_rate': 6.916666666666666e-05, 'epoch': 0.6612244897959184, 'step': 162}, {'loss': 4.6635, 'grad_norm': 16.93235969543457, 'learning_rate': 6.833333333333333e-05, 'epoch': 0.6653061224489796, 'step': 163}, {'loss': 4.8444, 'grad_norm': 26.584470748901367, 'learning_rate': 6.750000000000001e-05, 'epoch': 0.6693877551020408, 'step': 164}, {'loss': 4.772, 'grad_norm': 20.502887725830078, 'learning_rate': 6.666666666666667e-05, 'epoch': 0.673469387755102, 'step': 165}, {'loss': 4.717, 'grad_norm': 13.672632217407227, 'learning_rate': 6.583333333333334e-05, 'epoch': 0.6775510204081633, 'step': 166}, {'loss': 4.4768, 'grad_norm': 15.374190330505371, 'learning_rate': 6.500000000000001e-05, 'epoch': 0.6816326530612244, 'step': 167}, {'loss': 4.8608, 'grad_norm': 28.68584632873535, 'learning_rate': 6.416666666666668e-05, 'epoch': 0.6857142857142857, 'step': 168}, {'loss': 4.7831, 'grad_norm': 23.2034854888916, 'learning_rate': 6.333333333333333e-05, 'epoch': 0.689795918367347, 'step': 169}, {'loss': 4.6147, 'grad_norm': 13.363978385925293, 'learning_rate': 6.25e-05, 'epoch': 0.6938775510204082, 'step': 170}, {'loss': 4.463, 'grad_norm': 12.592402458190918, 'learning_rate': 6.166666666666667e-05, 'epoch': 0.6979591836734694, 'step': 171}, {'loss': 4.6334, 'grad_norm': 15.40442180633545, 'learning_rate': 6.083333333333333e-05, 'epoch': 0.7020408163265306, 'step': 172}, {'loss': 4.4075, 'grad_norm': 13.347667694091797, 'learning_rate': 6e-05, 'epoch': 0.7061224489795919, 'step': 173}, {'loss': 4.3679, 'grad_norm': 11.362393379211426, 'learning_rate': 5.916666666666667e-05, 'epoch': 0.710204081632653, 'step': 174}, {'loss': 4.4042, 'grad_norm': 9.195353507995605, 'learning_rate': 5.833333333333334e-05, 'epoch': 0.7142857142857143, 'step': 175}, {'loss': 4.5043, 'grad_norm': 15.042961120605469, 'learning_rate': 5.7499999999999995e-05, 'epoch': 0.7183673469387755, 'step': 176}, {'loss': 4.5124, 'grad_norm': 10.036393165588379, 'learning_rate': 5.666666666666667e-05, 'epoch': 0.7224489795918367, 'step': 177}, {'loss': 4.2268, 'grad_norm': 13.716962814331055, 'learning_rate': 5.583333333333334e-05, 'epoch': 0.726530612244898, 'step': 178}, {'loss': 4.305, 'grad_norm': 16.565013885498047, 'learning_rate': 5.500000000000001e-05, 'epoch': 0.7306122448979592, 'step': 179}, {'loss': 4.3416, 'grad_norm': 12.026135444641113, 'learning_rate': 5.4166666666666664e-05, 'epoch': 0.7346938775510204, 'step': 180}, {'loss': 4.1397, 'grad_norm': 12.067873001098633, 'learning_rate': 5.333333333333333e-05, 'epoch': 0.7387755102040816, 'step': 181}, {'loss': 4.1926, 'grad_norm': 6.305116653442383, 'learning_rate': 5.25e-05, 'epoch': 0.7428571428571429, 'step': 182}, {'loss': 4.0884, 'grad_norm': 16.757238388061523, 'learning_rate': 5.166666666666667e-05, 'epoch': 0.746938775510204, 'step': 183}, {'loss': 4.4998, 'grad_norm': 12.565753936767578, 'learning_rate': 5.0833333333333333e-05, 'epoch': 0.7510204081632653, 'step': 184}, {'loss': 4.3905, 'grad_norm': 17.17159080505371, 'learning_rate': 5e-05, 'epoch': 0.7551020408163265, 'step': 185}, {'loss': 4.1587, 'grad_norm': 8.870366096496582, 'learning_rate': 4.9166666666666665e-05, 'epoch': 0.7591836734693878, 'step': 186}, {'loss': 4.2318, 'grad_norm': 19.48809051513672, 'learning_rate': 4.8333333333333334e-05, 'epoch': 0.763265306122449, 'step': 187}, {'loss': 4.0913, 'grad_norm': 13.585243225097656, 'learning_rate': 4.75e-05, 'epoch': 0.7673469387755102, 'step': 188}, {'loss': 4.519, 'grad_norm': 16.79153823852539, 'learning_rate': 4.666666666666667e-05, 'epoch': 0.7714285714285715, 'step': 189}, {'loss': 4.1403, 'grad_norm': 14.908987045288086, 'learning_rate': 4.5833333333333334e-05, 'epoch': 0.7755102040816326, 'step': 190}, {'loss': 4.4897, 'grad_norm': 12.978514671325684, 'learning_rate': 4.5e-05, 'epoch': 0.7795918367346939, 'step': 191}, {'loss': 4.2761, 'grad_norm': 17.68129539489746, 'learning_rate': 4.4166666666666665e-05, 'epoch': 0.7836734693877551, 'step': 192}, {'loss': 4.0807, 'grad_norm': 14.096195220947266, 'learning_rate': 4.3333333333333334e-05, 'epoch': 0.7877551020408163, 'step': 193}, {'loss': 3.9137, 'grad_norm': 12.81741714477539, 'learning_rate': 4.25e-05, 'epoch': 0.7918367346938775, 'step': 194}, {'loss': 4.131, 'grad_norm': 11.633601188659668, 'learning_rate': 4.166666666666667e-05, 'epoch': 0.7959183673469388, 'step': 195}, {'loss': 3.7313, 'grad_norm': 9.273770332336426, 'learning_rate': 4.0833333333333334e-05, 'epoch': 0.8, 'step': 196}, {'loss': 4.1578, 'grad_norm': 14.913328170776367, 'learning_rate': 4e-05, 'epoch': 0.8040816326530612, 'step': 197}, {'loss': 3.9945, 'grad_norm': 10.176965713500977, 'learning_rate': 3.9166666666666665e-05, 'epoch': 0.8081632653061225, 'step': 198}, {'loss': 3.7446, 'grad_norm': 11.347241401672363, 'learning_rate': 3.8333333333333334e-05, 'epoch': 0.8122448979591836, 'step': 199}, {'loss': 4.0093, 'grad_norm': 10.576323509216309, 'learning_rate': 3.7500000000000003e-05, 'epoch': 0.8163265306122449, 'step': 200}, {'loss': 4.1743, 'grad_norm': 13.532492637634277, 'learning_rate': 3.6666666666666666e-05, 'epoch': 0.8204081632653061, 'step': 201}, {'loss': 4.3927, 'grad_norm': 12.50634765625, 'learning_rate': 3.5833333333333335e-05, 'epoch': 0.8244897959183674, 'step': 202}, {'loss': 3.8866, 'grad_norm': 11.381866455078125, 'learning_rate': 3.5e-05, 'epoch': 0.8285714285714286, 'step': 203}, {'loss': 4.0397, 'grad_norm': 9.009366989135742, 'learning_rate': 3.4166666666666666e-05, 'epoch': 0.8326530612244898, 'step': 204}, {'loss': 3.7196, 'grad_norm': 18.7972354888916, 'learning_rate': 3.3333333333333335e-05, 'epoch': 0.8367346938775511, 'step': 205}, {'loss': 3.6936, 'grad_norm': 39.397071838378906, 'learning_rate': 3.2500000000000004e-05, 'epoch': 0.8408163265306122, 'step': 206}, {'loss': 3.7208, 'grad_norm': 21.093812942504883, 'learning_rate': 3.1666666666666666e-05, 'epoch': 0.8448979591836735, 'step': 207}, {'loss': 3.7089, 'grad_norm': 10.084877014160156, 'learning_rate': 3.0833333333333335e-05, 'epoch': 0.8489795918367347, 'step': 208}, {'loss': 3.7612, 'grad_norm': 12.712324142456055, 'learning_rate': 3e-05, 'epoch': 0.8530612244897959, 'step': 209}, {'loss': 3.7254, 'grad_norm': 9.706113815307617, 'learning_rate': 2.916666666666667e-05, 'epoch': 0.8571428571428571, 'step': 210}, {'loss': 3.6579, 'grad_norm': 11.968121528625488, 'learning_rate': 2.8333333333333335e-05, 'epoch': 0.8612244897959184, 'step': 211}, {'loss': 3.8265, 'grad_norm': 24.954389572143555, 'learning_rate': 2.7500000000000004e-05, 'epoch': 0.8653061224489796, 'step': 212}, {'loss': 3.7771, 'grad_norm': 14.558687210083008, 'learning_rate': 2.6666666666666667e-05, 'epoch': 0.8693877551020408, 'step': 213}, {'loss': 3.5725, 'grad_norm': 50.68262481689453, 'learning_rate': 2.5833333333333336e-05, 'epoch': 0.8734693877551021, 'step': 214}, {'loss': 3.726, 'grad_norm': 25.513704299926758, 'learning_rate': 2.5e-05, 'epoch': 0.8775510204081632, 'step': 215}, {'loss': 3.9554, 'grad_norm': 14.109066009521484, 'learning_rate': 2.4166666666666667e-05, 'epoch': 0.8816326530612245, 'step': 216}, {'loss': 3.5624, 'grad_norm': 13.675121307373047, 'learning_rate': 2.3333333333333336e-05, 'epoch': 0.8857142857142857, 'step': 217}, {'loss': 3.7915, 'grad_norm': 12.340482711791992, 'learning_rate': 2.25e-05, 'epoch': 0.889795918367347, 'step': 218}, {'loss': 3.7331, 'grad_norm': 11.195368766784668, 'learning_rate': 2.1666666666666667e-05, 'epoch': 0.8938775510204081, 'step': 219}, {'loss': 3.6953, 'grad_norm': 18.31477928161621, 'learning_rate': 2.0833333333333336e-05, 'epoch': 0.8979591836734694, 'step': 220}, {'loss': 3.6602, 'grad_norm': 12.247737884521484, 'learning_rate': 2e-05, 'epoch': 0.9020408163265307, 'step': 221}, {'loss': 3.5949, 'grad_norm': 14.604862213134766, 'learning_rate': 1.9166666666666667e-05, 'epoch': 0.9061224489795918, 'step': 222}, {'loss': 3.7984, 'grad_norm': 15.054015159606934, 'learning_rate': 1.8333333333333333e-05, 'epoch': 0.9102040816326531, 'step': 223}, {'loss': 3.7042, 'grad_norm': 8.872373580932617, 'learning_rate': 1.75e-05, 'epoch': 0.9142857142857143, 'step': 224}, {'loss': 3.8209, 'grad_norm': 13.451347351074219, 'learning_rate': 1.6666666666666667e-05, 'epoch': 0.9183673469387755, 'step': 225}, {'loss': 3.5174, 'grad_norm': 10.190789222717285, 'learning_rate': 1.5833333333333333e-05, 'epoch': 0.9224489795918367, 'step': 226}, {'loss': 3.7508, 'grad_norm': 9.565589904785156, 'learning_rate': 1.5e-05, 'epoch': 0.926530612244898, 'step': 227}, {'loss': 3.7969, 'grad_norm': 10.207167625427246, 'learning_rate': 1.4166666666666668e-05, 'epoch': 0.9306122448979591, 'step': 228}, {'loss': 3.4082, 'grad_norm': 10.472813606262207, 'learning_rate': 1.3333333333333333e-05, 'epoch': 0.9346938775510204, 'step': 229}, {'loss': 3.7677, 'grad_norm': 9.696172714233398, 'learning_rate': 1.25e-05, 'epoch': 0.9387755102040817, 'step': 230}, {'loss': 3.6134, 'grad_norm': 9.433625221252441, 'learning_rate': 1.1666666666666668e-05, 'epoch': 0.9428571428571428, 'step': 231}, {'loss': 3.6741, 'grad_norm': 7.274040222167969, 'learning_rate': 1.0833333333333334e-05, 'epoch': 0.9469387755102041, 'step': 232}, {'loss': 3.6248, 'grad_norm': 6.180346965789795, 'learning_rate': 1e-05, 'epoch': 0.9510204081632653, 'step': 233}, {'loss': 3.3105, 'grad_norm': 8.72468090057373, 'learning_rate': 9.166666666666666e-06, 'epoch': 0.9551020408163265, 'step': 234}, {'loss': 3.4905, 'grad_norm': 6.191732883453369, 'learning_rate': 8.333333333333334e-06, 'epoch': 0.9591836734693877, 'step': 235}, {'loss': 3.5718, 'grad_norm': 6.710607528686523, 'learning_rate': 7.5e-06, 'epoch': 0.963265306122449, 'step': 236}, {'loss': 3.3237, 'grad_norm': 6.869891166687012, 'learning_rate': 6.666666666666667e-06, 'epoch': 0.9673469387755103, 'step': 237}, {'loss': 3.5589, 'grad_norm': 7.153923988342285, 'learning_rate': 5.833333333333334e-06, 'epoch': 0.9714285714285714, 'step': 238}, {'loss': 3.6812, 'grad_norm': 7.675642490386963, 'learning_rate': 5e-06, 'epoch': 0.9755102040816327, 'step': 239}, {'loss': 3.7277, 'grad_norm': 7.485744476318359, 'learning_rate': 4.166666666666667e-06, 'epoch': 0.9795918367346939, 'step': 240}, {'loss': 3.4121, 'grad_norm': 4.551795482635498, 'learning_rate': 3.3333333333333333e-06, 'epoch': 0.9836734693877551, 'step': 241}, {'loss': 3.4481, 'grad_norm': 6.929440975189209, 'learning_rate': 2.5e-06, 'epoch': 0.9877551020408163, 'step': 242}, {'loss': 3.905, 'grad_norm': 8.032909393310547, 'learning_rate': 1.6666666666666667e-06, 'epoch': 0.9918367346938776, 'step': 243}, {'loss': 3.8312, 'grad_norm': 7.248155117034912, 'learning_rate': 8.333333333333333e-07, 'epoch': 0.9959183673469387, 'step': 244}, {'loss': 3.249, 'grad_norm': 7.144558906555176, 'learning_rate': 0.0, 'epoch': 1.0, 'step': 245}, {'train_runtime': 8432.0313, 'train_samples_per_second': 0.465, 'train_steps_per_second': 0.029, 'total_flos': 3.811634682601144e+17, 'train_loss': 4.907106985364641, 'epoch': 1.0, 'step': 245}]

Uploaded model

Finetuned from unsloth/mistral-7b-instruct-v0.3-bnb-4bit

Finetuned from