mistral-7b-cy-epoch-3 / training_evals.txt
rhysjones's picture
Upload training_evals.txt
44af4eb verified
{'eval_loss': 2.2260003089904785, 'eval_runtime': 150.3176, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 0.0}
{'eval_loss': 1.2592370510101318, 'eval_runtime': 150.3936, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 0.03}
{'eval_loss': 1.1892958879470825, 'eval_runtime': 150.5404, 'eval_samples_per_second': 3.169, 'eval_steps_per_second': 0.399, 'epoch': 0.06}
{'eval_loss': 1.1596440076828003, 'eval_runtime': 150.2149, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 0.09}
{'eval_loss': 1.139888882637024, 'eval_runtime': 150.348, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 0.12}
{'eval_loss': 1.1273984909057617, 'eval_runtime': 150.1877, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.15}
{'eval_loss': 1.1132432222366333, 'eval_runtime': 150.1483, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.18}
{'eval_loss': 1.1027272939682007, 'eval_runtime': 150.231, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 0.21}
{'eval_loss': 1.0935686826705933, 'eval_runtime': 150.1882, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 0.24}
{'eval_loss': 1.0842406749725342, 'eval_runtime': 150.149, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.27}
{'eval_loss': 1.0797858238220215, 'eval_runtime': 150.1574, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.3}
{'eval_loss': 1.0743279457092285, 'eval_runtime': 150.1527, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.33}
{'eval_loss': 1.0684388875961304, 'eval_runtime': 150.1596, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.36}
{'eval_loss': 1.0624574422836304, 'eval_runtime': 150.2212, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 0.39}
{'eval_loss': 1.0560593605041504, 'eval_runtime': 150.2116, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 0.42}
{'eval_loss': 1.0518683195114136, 'eval_runtime': 150.1347, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.45}
{'eval_loss': 1.0462754964828491, 'eval_runtime': 150.1725, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.48}
{'eval_loss': 1.0436967611312866, 'eval_runtime': 150.1168, 'eval_samples_per_second': 3.178, 'eval_steps_per_second': 0.4, 'epoch': 0.51}
{'eval_loss': 1.0403618812561035, 'eval_runtime': 150.1124, 'eval_samples_per_second': 3.178, 'eval_steps_per_second': 0.4, 'epoch': 0.54}
{'eval_loss': 1.037323236465454, 'eval_runtime': 150.1376, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.57}
{'eval_loss': 1.029509425163269, 'eval_runtime': 150.2637, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 0.6}
{'eval_loss': 1.0270969867706299, 'eval_runtime': 150.1688, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.63}
{'eval_loss': 1.0219224691390991, 'eval_runtime': 150.1644, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.66}
{'eval_loss': 1.0193912982940674, 'eval_runtime': 150.2387, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 0.69}
{'eval_loss': 1.015297532081604, 'eval_runtime': 150.1703, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.72}
{'eval_loss': 1.0096923112869263, 'eval_runtime': 150.148, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.75}
{'eval_loss': 1.0069936513900757, 'eval_runtime': 150.1718, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.78}
{'eval_loss': 1.0039759874343872, 'eval_runtime': 150.1716, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.81}
{'eval_loss': 1.000032663345337, 'eval_runtime': 150.1453, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.84}
{'eval_loss': 0.9977497458457947, 'eval_runtime': 150.186, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.87}
{'eval_loss': 0.9946133494377136, 'eval_runtime': 150.1769, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 0.9}
{'eval_loss': 0.9919686913490295, 'eval_runtime': 150.1377, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 0.93}
{'eval_loss': 0.9893234968185425, 'eval_runtime': 150.2419, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 0.96}
{'eval_loss': 0.9862492680549622, 'eval_runtime': 150.2058, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 0.99}
{'eval_loss': 0.987989068031311, 'eval_runtime': 150.1963, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 1.0}
{'eval_loss': 0.9866997599601746, 'eval_runtime': 150.3714, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 1.03}
{'eval_loss': 0.9825169444084167, 'eval_runtime': 150.2503, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 1.06}
{'eval_loss': 0.9800065755844116, 'eval_runtime': 150.2016, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 1.09}
{'eval_loss': 0.9812092185020447, 'eval_runtime': 150.1848, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 1.12}
{'eval_loss': 0.9798622727394104, 'eval_runtime': 150.2462, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 1.15}
{'eval_loss': 0.9766051769256592, 'eval_runtime': 150.2522, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 1.18}
{'eval_loss': 0.971818208694458, 'eval_runtime': 150.1943, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 1.21}
{'eval_loss': 0.9717552065849304, 'eval_runtime': 150.1293, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 1.24}
{'eval_loss': 0.9692884683609009, 'eval_runtime': 150.385, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 1.27}
{'eval_loss': 0.9660636782646179, 'eval_runtime': 150.3856, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 1.3}
{'eval_loss': 0.9639666676521301, 'eval_runtime': 150.4707, 'eval_samples_per_second': 3.17, 'eval_steps_per_second': 0.399, 'epoch': 1.33}
{'eval_loss': 0.9630131125450134, 'eval_runtime': 150.3635, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 1.36}
{'eval_loss': 0.9612893462181091, 'eval_runtime': 150.4291, 'eval_samples_per_second': 3.171, 'eval_steps_per_second': 0.399, 'epoch': 1.39}
{'eval_loss': 0.959020733833313, 'eval_runtime': 150.3358, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 1.42}
{'eval_loss': 0.9539810419082642, 'eval_runtime': 150.3623, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 1.45}
{'eval_loss': 0.9529104828834534, 'eval_runtime': 150.3424, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 1.48}
{'eval_loss': 0.9509503841400146, 'eval_runtime': 150.2805, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 1.51}
{'eval_loss': 0.9489216804504395, 'eval_runtime': 150.1703, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.4, 'epoch': 1.54}
{'eval_loss': 0.9477846026420593, 'eval_runtime': 150.1936, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 1.57}
{'eval_loss': 0.9459198713302612, 'eval_runtime': 150.4558, 'eval_samples_per_second': 3.17, 'eval_steps_per_second': 0.399, 'epoch': 1.6}
{'eval_loss': 0.9438548684120178, 'eval_runtime': 150.3717, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 1.63}
{'eval_loss': 0.9423307776451111, 'eval_runtime': 150.2334, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 1.66}
{'eval_loss': 0.9412068724632263, 'eval_runtime': 150.3078, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 1.69}
{'eval_loss': 0.9392552971839905, 'eval_runtime': 150.3293, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 1.72}
{'eval_loss': 0.9379308819770813, 'eval_runtime': 150.2965, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 1.75}
{'eval_loss': 0.9379382133483887, 'eval_runtime': 150.3086, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 1.78}
{'eval_loss': 0.9353558421134949, 'eval_runtime': 150.3191, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 1.81}
{'eval_loss': 0.9350724220275879, 'eval_runtime': 150.3453, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 1.84}
{'eval_loss': 0.9341053366661072, 'eval_runtime': 150.2047, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 1.87}
{'eval_loss': 0.9323883652687073, 'eval_runtime': 150.4644, 'eval_samples_per_second': 3.17, 'eval_steps_per_second': 0.399, 'epoch': 1.9}
{'eval_loss': 0.932006299495697, 'eval_runtime': 150.4322, 'eval_samples_per_second': 3.171, 'eval_steps_per_second': 0.399, 'epoch': 1.93}
{'eval_loss': 0.9314481019973755, 'eval_runtime': 150.2567, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 1.96}
{'eval_loss': 0.930461049079895, 'eval_runtime': 150.165, 'eval_samples_per_second': 3.177, 'eval_steps_per_second': 0.4, 'epoch': 1.99}
{'eval_loss': 0.9474654197692871, 'eval_runtime': 150.3118, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 2.01}
{'eval_loss': 0.9522636532783508, 'eval_runtime': 150.4223, 'eval_samples_per_second': 3.171, 'eval_steps_per_second': 0.399, 'epoch': 2.04}
{'eval_loss': 0.9514690041542053, 'eval_runtime': 150.3061, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 2.07}
{'eval_loss': 0.9515687227249146, 'eval_runtime': 150.3111, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 2.1}
{'eval_loss': 0.9538202881813049, 'eval_runtime': 150.3439, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 2.13}
{'eval_loss': 0.9525159597396851, 'eval_runtime': 150.2167, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 2.16}
{'eval_loss': 0.9528338313102722, 'eval_runtime': 150.1901, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 2.19}
{'eval_loss': 0.9521958827972412, 'eval_runtime': 150.2718, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 2.22}
{'eval_loss': 0.952122688293457, 'eval_runtime': 150.2676, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 2.25}
{'eval_loss': 0.9520538449287415, 'eval_runtime': 150.2279, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 2.28}
{'eval_loss': 0.9521791934967041, 'eval_runtime': 150.2666, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 2.31}
{'eval_loss': 0.9524235129356384, 'eval_runtime': 150.2382, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 2.34}
{'eval_loss': 0.9522437453269958, 'eval_runtime': 150.3594, 'eval_samples_per_second': 3.172, 'eval_steps_per_second': 0.399, 'epoch': 2.37}
{'eval_loss': 0.9521009922027588, 'eval_runtime': 150.2126, 'eval_samples_per_second': 3.176, 'eval_steps_per_second': 0.399, 'epoch': 2.4}
{'eval_loss': 0.9522040486335754, 'eval_runtime': 150.2641, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 2.43}
{'eval_loss': 0.9513848423957825, 'eval_runtime': 150.3245, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 2.46}
{'eval_loss': 0.9517989158630371, 'eval_runtime': 150.3222, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 2.49}
{'eval_loss': 0.9518244862556458, 'eval_runtime': 150.321, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 2.52}
{'eval_loss': 0.9517050385475159, 'eval_runtime': 150.2787, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 2.55}
{'eval_loss': 0.9516962766647339, 'eval_runtime': 150.2225, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 2.58}
{'eval_loss': 0.9518368244171143, 'eval_runtime': 150.2542, 'eval_samples_per_second': 3.175, 'eval_steps_per_second': 0.399, 'epoch': 2.61}
{'eval_loss': 0.9516659379005432, 'eval_runtime': 150.2894, 'eval_samples_per_second': 3.174, 'eval_steps_per_second': 0.399, 'epoch': 2.64}
{'eval_loss': 0.9517300128936768, 'eval_runtime': 150.7805, 'eval_samples_per_second': 3.164, 'eval_steps_per_second': 0.398, 'epoch': 2.67}
{'eval_loss': 0.9516835808753967, 'eval_runtime': 150.3336, 'eval_samples_per_second': 3.173, 'eval_steps_per_second': 0.399, 'epoch': 2.7}
{'eval_loss': 0.9517827033996582, 'eval_runtime': 150.6229, 'eval_samples_per_second': 3.167, 'eval_steps_per_second': 0.398, 'epoch': 2.73}
{'eval_loss': 0.9517173171043396, 'eval_runtime': 150.5688, 'eval_samples_per_second': 3.168, 'eval_steps_per_second': 0.398, 'epoch': 2.76}
{'eval_loss': 0.9517095685005188, 'eval_runtime': 150.5431, 'eval_samples_per_second': 3.169, 'eval_steps_per_second': 0.399, 'epoch': 2.79}
{'eval_loss': 0.9517271518707275, 'eval_runtime': 150.5595, 'eval_samples_per_second': 3.168, 'eval_steps_per_second': 0.399, 'epoch': 2.82}
{'eval_loss': 0.9517178535461426, 'eval_runtime': 150.6766, 'eval_samples_per_second': 3.166, 'eval_steps_per_second': 0.398, 'epoch': 2.85}
{'eval_loss': 0.9516977071762085, 'eval_runtime': 150.5742, 'eval_samples_per_second': 3.168, 'eval_steps_per_second': 0.398, 'epoch': 2.88}
{'eval_loss': 0.9517183303833008, 'eval_runtime': 150.5951, 'eval_samples_per_second': 3.167, 'eval_steps_per_second': 0.398, 'epoch': 2.91}
{'eval_loss': 0.9517306685447693, 'eval_runtime': 150.6502, 'eval_samples_per_second': 3.166, 'eval_steps_per_second': 0.398, 'epoch': 2.94}