LlaMa 2 7b 4-bit Python Coder π©βπ»
LlaMa-2 7b fine-tuned on the python_code_instructions_18k_alpaca Code instructions dataset by using the method QLoRA in 4-bit with PEFT library.
Pretrained description
Meta developed and publicly released the Llama 2 family of large language models (LLMs), a collection of pretrained and fine-tuned generative text models ranging in scale from 7 billion to 70 billion parameters.
Model Architecture Llama 2 is an auto-regressive language model that uses an optimized transformer architecture. The tuned versions use supervised fine-tuning (SFT) and reinforcement learning with human feedback (RLHF) to align to human preferences for helpfulness and safety
Training data
python_code_instructions_18k_alpaca
The dataset contains problem descriptions and code in python language. This dataset is taken from sahil2801/code_instructions_120k, which adds a prompt column in alpaca style.
Training hyperparameters
The following bitsandbytes
quantization config was used during training:
- load_in_8bit: False
- load_in_4bit: True
- llm_int8_threshold: 6.0
- llm_int8_skip_modules: None
- llm_int8_enable_fp32_cpu_offload: False
- llm_int8_has_fp16_weight: False
- bnb_4bit_quant_type: nf4
- bnb_4bit_use_double_quant: False
- bnb_4bit_compute_dtype: float16
SFTTrainer arguments
# Number of training epochs
num_train_epochs = 1
# Enable fp16/bf16 training (set bf16 to True with an A100)
fp16 = False
bf16 = True
# Batch size per GPU for training
per_device_train_batch_size = 4
# Number of update steps to accumulate the gradients for
gradient_accumulation_steps = 1
# Enable gradient checkpointing
gradient_checkpointing = True
# Maximum gradient normal (gradient clipping)
max_grad_norm = 0.3
# Initial learning rate (AdamW optimizer)
learning_rate = 2e-4
# Weight decay to apply to all layers except bias/LayerNorm weights
weight_decay = 0.001
# Optimizer to use
optim = "paged_adamw_32bit"
# Learning rate schedule
lr_scheduler_type = "cosine" #"constant"
# Ratio of steps for a linear warmup (from 0 to learning rate)
warmup_ratio = 0.03
Framework versions
- PEFT 0.4.0
Training metrics
You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
{'loss': 1.4155, 'learning_rate': 4.7619047619047615e-06, 'epoch': 0.0}
{'loss': 1.3751, 'learning_rate': 9.523809523809523e-06, 'epoch': 0.0}
{'loss': 1.3622, 'learning_rate': 1.4285714285714285e-05, 'epoch': 0.01}
{'loss': 1.3462, 'learning_rate': 1.9047619047619046e-05, 'epoch': 0.01}
{'loss': 1.3906, 'learning_rate': 2.380952380952381e-05, 'epoch': 0.01}
{'loss': 1.2145, 'learning_rate': 2.857142857142857e-05, 'epoch': 0.01}
{'loss': 1.2611, 'learning_rate': 3.3333333333333335e-05, 'epoch': 0.02}
{'loss': 1.198, 'learning_rate': 3.809523809523809e-05, 'epoch': 0.02}
{'loss': 1.153, 'learning_rate': 4.2857142857142856e-05, 'epoch': 0.02}
{'loss': 1.0707, 'learning_rate': 4.761904761904762e-05, 'epoch': 0.02}
{'loss': 1.009, 'learning_rate': 5.2380952380952384e-05, 'epoch': 0.02}
{'loss': 0.8185, 'learning_rate': 5.714285714285714e-05, 'epoch': 0.03}
{'loss': 0.8033, 'learning_rate': 6.19047619047619e-05, 'epoch': 0.03}
{'loss': 0.7798, 'learning_rate': 6.666666666666667e-05, 'epoch': 0.03}
{'loss': 0.6867, 'learning_rate': 7.142857142857143e-05, 'epoch': 0.03}
{'loss': 0.6576, 'learning_rate': 7.619047619047618e-05, 'epoch': 0.03}
{'loss': 0.7038, 'learning_rate': 8.095238095238096e-05, 'epoch': 0.04}
{'loss': 0.5725, 'learning_rate': 8.571428571428571e-05, 'epoch': 0.04}
{'loss': 0.5858, 'learning_rate': 9.047619047619048e-05, 'epoch': 0.04}
{'loss': 0.5702, 'learning_rate': 9.523809523809524e-05, 'epoch': 0.04}
{'loss': 0.558, 'learning_rate': 0.0001, 'epoch': 0.05}
{'loss': 0.5101, 'learning_rate': 0.00010476190476190477, 'epoch': 0.05}
{'loss': 0.5139, 'learning_rate': 0.00010952380952380953, 'epoch': 0.05}
{'loss': 0.4967, 'learning_rate': 0.00011428571428571428, 'epoch': 0.05}
{'loss': 0.5098, 'learning_rate': 0.00011904761904761905, 'epoch': 0.05}
{'loss': 0.4554, 'learning_rate': 0.0001238095238095238, 'epoch': 0.06}
{'loss': 0.4655, 'learning_rate': 0.00012857142857142858, 'epoch': 0.06}
{'loss': 0.4857, 'learning_rate': 0.00013333333333333334, 'epoch': 0.06}
{'loss': 0.4885, 'learning_rate': 0.0001380952380952381, 'epoch': 0.06}
{'loss': 0.4935, 'learning_rate': 0.00014285714285714287, 'epoch': 0.06}
{'loss': 0.436, 'learning_rate': 0.00014761904761904763, 'epoch': 0.07}
{'loss': 0.4954, 'learning_rate': 0.00015238095238095237, 'epoch': 0.07}
{'loss': 0.4798, 'learning_rate': 0.00015714285714285716, 'epoch': 0.07}
{'loss': 0.4523, 'learning_rate': 0.00016190476190476192, 'epoch': 0.07}
{'loss': 0.5031, 'learning_rate': 0.0001666666666666667, 'epoch': 0.08}
{'loss': 0.4841, 'learning_rate': 0.00017142857142857143, 'epoch': 0.08}
{'loss': 0.4787, 'learning_rate': 0.0001761904761904762, 'epoch': 0.08}
{'loss': 0.4457, 'learning_rate': 0.00018095238095238095, 'epoch': 0.08}
{'loss': 0.4425, 'learning_rate': 0.00018571428571428572, 'epoch': 0.08}
{'loss': 0.4986, 'learning_rate': 0.00019047619047619048, 'epoch': 0.09}
{'loss': 0.5055, 'learning_rate': 0.00019523809523809525, 'epoch': 0.09}
{'loss': 0.4393, 'learning_rate': 0.0002, 'epoch': 0.09}
{'loss': 0.4725, 'learning_rate': 0.00019999973066743733, 'epoch': 0.09}
{'loss': 0.4885, 'learning_rate': 0.0001999989226712001, 'epoch': 0.09}
{'loss': 0.5367, 'learning_rate': 0.00019999757601564072, 'epoch': 0.1}
{'loss': 0.4613, 'learning_rate': 0.00019999569070801315, 'epoch': 0.1}
{'loss': 0.4286, 'learning_rate': 0.00019999326675847285, 'epoch': 0.1}
{'loss': 0.489, 'learning_rate': 0.00019999030418007684, 'epoch': 0.1}
{'loss': 0.4658, 'learning_rate': 0.00019998680298878346, 'epoch': 0.11}
{'loss': 0.473, 'learning_rate': 0.00019998276320345247, 'epoch': 0.11}
{'loss': 0.5387, 'learning_rate': 0.0001999781848458447, 'epoch': 0.11}
{'loss': 0.4522, 'learning_rate': 0.0001999730679406222, 'epoch': 0.11}
{'loss': 0.5675, 'learning_rate': 0.00019996741251534798, 'epoch': 0.11}
{'loss': 0.4507, 'learning_rate': 0.00019996121860048582, 'epoch': 0.12}
{'loss': 0.5041, 'learning_rate': 0.00019995448622940016, 'epoch': 0.12}
{'loss': 0.463, 'learning_rate': 0.00019994721543835597, 'epoch': 0.12}
{'loss': 0.448, 'learning_rate': 0.00019993940626651847, 'epoch': 0.12}
{'loss': 0.556, 'learning_rate': 0.0001999310587559529, 'epoch': 0.12}
{'loss': 0.4327, 'learning_rate': 0.00019992217295162443, 'epoch': 0.13}
{'loss': 0.4549, 'learning_rate': 0.00019991274890139774, 'epoch': 0.13}
{'loss': 0.4106, 'learning_rate': 0.00019990278665603698, 'epoch': 0.13}
{'loss': 0.4493, 'learning_rate': 0.00019989228626920524, 'epoch': 0.13}
{'loss': 0.5259, 'learning_rate': 0.00019988124779746444, 'epoch': 0.14}
{'loss': 0.5123, 'learning_rate': 0.000199869671300275, 'epoch': 0.14}
{'loss': 0.4126, 'learning_rate': 0.00019985755683999545, 'epoch': 0.14}
{'loss': 0.4835, 'learning_rate': 0.00019984490448188218, 'epoch': 0.14}
{'loss': 0.5001, 'learning_rate': 0.000199831714294089, 'epoch': 0.14}
{'loss': 0.5137, 'learning_rate': 0.0001998179863476669, 'epoch': 0.15}
{'loss': 0.4913, 'learning_rate': 0.00019980372071656352, 'epoch': 0.15}
{'loss': 0.4614, 'learning_rate': 0.00019978891747762282, 'epoch': 0.15}
{'loss': 0.4675, 'learning_rate': 0.0001997735767105847, 'epoch': 0.15}
{'loss': 0.4978, 'learning_rate': 0.00019975769849808455, 'epoch': 0.15}
{'loss': 0.4408, 'learning_rate': 0.0001997412829256527, 'epoch': 0.16}
{'loss': 0.456, 'learning_rate': 0.00019972433008171416, 'epoch': 0.16}
{'loss': 0.4297, 'learning_rate': 0.000199706840057588, 'epoch': 0.16}
{'loss': 0.4639, 'learning_rate': 0.00019968881294748684, 'epoch': 0.16}
{'loss': 0.5316, 'learning_rate': 0.00019967024884851644, 'epoch': 0.17}
{'loss': 0.5665, 'learning_rate': 0.00019965114786067516, 'epoch': 0.17}
{'loss': 0.4501, 'learning_rate': 0.00019963151008685332, 'epoch': 0.17}
{'loss': 0.4909, 'learning_rate': 0.00019961133563283282, 'epoch': 0.17}
{'loss': 0.4637, 'learning_rate': 0.00019959062460728633, 'epoch': 0.17}
{'loss': 0.4397, 'learning_rate': 0.000199569377121777, 'epoch': 0.18}
{'loss': 0.461, 'learning_rate': 0.0001995475932907575, 'epoch': 0.18}
{'loss': 0.4523, 'learning_rate': 0.00019952527323156992, 'epoch': 0.18}
{'loss': 0.4159, 'learning_rate': 0.00019950241706444445, 'epoch': 0.18}
{'loss': 0.429, 'learning_rate': 0.0001994790249124994, 'epoch': 0.18}
{'loss': 0.3752, 'learning_rate': 0.00019945509690174012, 'epoch': 0.19}
{'loss': 0.4571, 'learning_rate': 0.00019943063316105842, 'epoch': 0.19}
{'loss': 0.4665, 'learning_rate': 0.00019940563382223197, 'epoch': 0.19}
{'loss': 0.49, 'learning_rate': 0.0001993800990199235, 'epoch': 0.19}
{'loss': 0.4132, 'learning_rate': 0.00019935402889168, 'epoch': 0.2}
{'loss': 0.4482, 'learning_rate': 0.00019932742357793232, 'epoch': 0.2}
{'loss': 0.4644, 'learning_rate': 0.00019930028322199386, 'epoch': 0.2}
{'loss': 0.4729, 'learning_rate': 0.00019927260797006032, 'epoch': 0.2}
{'loss': 0.4457, 'learning_rate': 0.00019924439797120865, 'epoch': 0.2}
{'loss': 0.4259, 'learning_rate': 0.0001992156533773962, 'epoch': 0.21}
{'loss': 0.4505, 'learning_rate': 0.0001991863743434601, 'epoch': 0.21}
{'loss': 0.4338, 'learning_rate': 0.00019915656102711634, 'epoch': 0.21}
{'loss': 0.4617, 'learning_rate': 0.00019912621358895885, 'epoch': 0.21}
{'loss': 0.4812, 'learning_rate': 0.00019909533219245864, 'epoch': 0.21}
{'loss': 0.4559, 'learning_rate': 0.00019906391700396305, 'epoch': 0.22}
{'loss': 0.4533, 'learning_rate': 0.00019903196819269476, 'epoch': 0.22}
{'loss': 0.474, 'learning_rate': 0.00019899948593075088, 'epoch': 0.22}
{'loss': 0.5801, 'learning_rate': 0.00019896647039310198, 'epoch': 0.22}
{'loss': 0.4345, 'learning_rate': 0.00019893292175759131, 'epoch': 0.23}
{'loss': 0.4249, 'learning_rate': 0.0001988988402049336, 'epoch': 0.23}
{'loss': 0.4276, 'learning_rate': 0.00019886422591871439, 'epoch': 0.23}
{'loss': 0.5364, 'learning_rate': 0.00019882907908538866, 'epoch': 0.23}
{'loss': 0.4519, 'learning_rate': 0.00019879339989428018, 'epoch': 0.23}
{'loss': 0.5207, 'learning_rate': 0.00019875718853758033, 'epoch': 0.24}
{'loss': 0.4761, 'learning_rate': 0.0001987204452103471, 'epoch': 0.24}
{'loss': 0.4222, 'learning_rate': 0.00019868317011050387, 'epoch': 0.24}
{'loss': 0.425, 'learning_rate': 0.00019864536343883868, 'epoch': 0.24}
{'loss': 0.449, 'learning_rate': 0.00019860702539900287, 'epoch': 0.25}
{'loss': 0.4448, 'learning_rate': 0.00019856815619751007, 'epoch': 0.25}
{'loss': 0.4807, 'learning_rate': 0.00019852875604373517, 'epoch': 0.25}
{'loss': 0.4683, 'learning_rate': 0.00019848882514991297, 'epoch': 0.25}
{'loss': 0.4914, 'learning_rate': 0.00019844836373113735, 'epoch': 0.25}
{'loss': 0.4037, 'learning_rate': 0.0001984073720053598, 'epoch': 0.26}
{'loss': 0.5157, 'learning_rate': 0.0001983658501933885, 'epoch': 0.26}
{'loss': 0.4273, 'learning_rate': 0.00019832379851888695, 'epoch': 0.26}
{'loss': 0.5166, 'learning_rate': 0.00019828121720837286, 'epoch': 0.26}
{'loss': 0.4472, 'learning_rate': 0.00019823810649121688, 'epoch': 0.26}
{'loss': 0.4217, 'learning_rate': 0.00019819446659964145, 'epoch': 0.27}
{'loss': 0.4246, 'learning_rate': 0.0001981502977687194, 'epoch': 0.27}
{'loss': 0.4771, 'learning_rate': 0.00019810560023637285, 'epoch': 0.27}
{'loss': 0.4232, 'learning_rate': 0.00019806037424337182, 'epoch': 0.27}
{'loss': 0.4483, 'learning_rate': 0.00019801462003333294, 'epoch': 0.28}
{'loss': 0.4784, 'learning_rate': 0.00019796833785271819, 'epoch': 0.28}
{'loss': 0.4253, 'learning_rate': 0.00019792152795083351, 'epoch': 0.28}
{'loss': 0.4205, 'learning_rate': 0.0001978741905798276, 'epoch': 0.28}
{'loss': 0.4158, 'learning_rate': 0.0001978263259946903, 'epoch': 0.28}
{'loss': 0.4356, 'learning_rate': 0.0001977779344532514, 'epoch': 0.29}
{'loss': 0.4276, 'learning_rate': 0.0001977290162161794, 'epoch': 0.29}
{'loss': 0.428, 'learning_rate': 0.00019767957154697961, 'epoch': 0.29}
{'loss': 0.4235, 'learning_rate': 0.00019762960071199333, 'epoch': 0.29}
{'loss': 0.5242, 'learning_rate': 0.00019757910398039602, 'epoch': 0.29}
{'loss': 0.4303, 'learning_rate': 0.0001975280816241959, 'epoch': 0.3}
{'loss': 0.4586, 'learning_rate': 0.00019747653391823266, 'epoch': 0.3}
{'loss': 0.4822, 'learning_rate': 0.00019742446114017582, 'epoch': 0.3}
{'loss': 0.498, 'learning_rate': 0.00019737186357052323, 'epoch': 0.3}
{'loss': 0.4828, 'learning_rate': 0.00019731874149259967, 'epoch': 0.31}
{'loss': 0.4378, 'learning_rate': 0.00019726509519255527, 'epoch': 0.31}
{'loss': 0.4455, 'learning_rate': 0.00019721092495936392, 'epoch': 0.31}
{'loss': 0.4051, 'learning_rate': 0.0001971562310848218, 'epoch': 0.31}
{'loss': 0.4513, 'learning_rate': 0.0001971010138635457, 'epoch': 0.31}
{'loss': 0.4472, 'learning_rate': 0.00019704527359297157, 'epoch': 0.32}
{'loss': 0.4841, 'learning_rate': 0.00019698901057335277, 'epoch': 0.32}
{'loss': 0.5008, 'learning_rate': 0.00019693222510775858, 'epoch': 0.32}
{'loss': 0.4954, 'learning_rate': 0.00019687491750207254, 'epoch': 0.32}
{'loss': 0.4316, 'learning_rate': 0.00019681708806499067, 'epoch': 0.32}
{'loss': 0.4651, 'learning_rate': 0.00019675873710802005, 'epoch': 0.33}
{'loss': 0.4797, 'learning_rate': 0.00019669986494547686, 'epoch': 0.33}
{'loss': 0.4574, 'learning_rate': 0.00019664047189448493, 'epoch': 0.33}
{'loss': 0.4417, 'learning_rate': 0.00019658055827497396, 'epoch': 0.33}
{'loss': 0.4524, 'learning_rate': 0.0001965201244096777, 'epoch': 0.34}
{'loss': 0.4876, 'learning_rate': 0.0001964591706241323, 'epoch': 0.34}
{'loss': 0.5157, 'learning_rate': 0.00019639769724667452, 'epoch': 0.34}
{'loss': 0.4383, 'learning_rate': 0.00019633570460844002, 'epoch': 0.34}
{'loss': 0.4573, 'learning_rate': 0.00019627319304336152, 'epoch': 0.34}
{'loss': 0.4571, 'learning_rate': 0.00019621016288816709, 'epoch': 0.35}
{'loss': 0.5033, 'learning_rate': 0.0001961466144823781, 'epoch': 0.35}
{'loss': 0.4621, 'learning_rate': 0.00019608254816830769, 'epoch': 0.35}
{'loss': 0.4277, 'learning_rate': 0.00019601796429105875, 'epoch': 0.35}
{'loss': 0.5039, 'learning_rate': 0.0001959528631985221, 'epoch': 0.35}
{'loss': 0.4043, 'learning_rate': 0.0001958872452413746, 'epoch': 0.36}
{'loss': 0.4492, 'learning_rate': 0.00019582111077307734, 'epoch': 0.36}
{'loss': 0.5207, 'learning_rate': 0.00019575446014987363, 'epoch': 0.36}
{'loss': 0.4512, 'learning_rate': 0.00019568729373078711, 'epoch': 0.36}
{'loss': 0.4887, 'learning_rate': 0.00019561961187761985, 'epoch': 0.37}
{'loss': 0.5676, 'learning_rate': 0.00019555141495495044, 'epoch': 0.37}
{'loss': 0.4811, 'learning_rate': 0.00019548270333013187, 'epoch': 0.37}
{'loss': 0.4348, 'learning_rate': 0.0001954134773732897, 'epoch': 0.37}
{'loss': 0.4005, 'learning_rate': 0.0001953437374573201, 'epoch': 0.37}
{'loss': 0.4738, 'learning_rate': 0.00019527348395788753, 'epoch': 0.38}
{'loss': 0.4968, 'learning_rate': 0.00019520271725342322, 'epoch': 0.38}
{'loss': 0.4376, 'learning_rate': 0.00019513143772512267, 'epoch': 0.38}
{'loss': 0.4361, 'learning_rate': 0.00019505964575694385, 'epoch': 0.38}
{'loss': 0.4925, 'learning_rate': 0.00019498734173560502, 'epoch': 0.38}
{'loss': 0.4549, 'learning_rate': 0.00019491452605058278, 'epoch': 0.39}
{'loss': 0.4409, 'learning_rate': 0.00019484119909410984, 'epoch': 0.39}
{'loss': 0.5103, 'learning_rate': 0.00019476736126117285, 'epoch': 0.39}
{'loss': 0.4335, 'learning_rate': 0.0001946930129495106, 'epoch': 0.39}
{'loss': 0.4405, 'learning_rate': 0.0001946181545596114, 'epoch': 0.4}
{'loss': 0.4209, 'learning_rate': 0.0001945427864947113, 'epoch': 0.4}
{'loss': 0.4407, 'learning_rate': 0.0001944669091607919, 'epoch': 0.4}
{'loss': 0.4788, 'learning_rate': 0.0001943905229665778, 'epoch': 0.4}
{'loss': 0.4326, 'learning_rate': 0.00019431362832353485, 'epoch': 0.4}
{'loss': 0.4565, 'learning_rate': 0.0001942362256458677, 'epoch': 0.41}
{'loss': 0.502, 'learning_rate': 0.0001941583153505175, 'epoch': 0.41}
{'loss': 0.4562, 'learning_rate': 0.0001940798978571599, 'epoch': 0.41}
{'loss': 0.502, 'learning_rate': 0.00019400097358820257, 'epoch': 0.41}
{'loss': 0.4783, 'learning_rate': 0.00019392154296878303, 'epoch': 0.41}
{'loss': 0.4337, 'learning_rate': 0.00019384160642676635, 'epoch': 0.42}
{'loss': 0.4761, 'learning_rate': 0.00019376116439274275, 'epoch': 0.42}
{'loss': 0.4296, 'learning_rate': 0.00019368021730002544, 'epoch': 0.42}
{'loss': 0.4607, 'learning_rate': 0.00019359876558464818, 'epoch': 0.42}
{'loss': 0.4681, 'learning_rate': 0.00019351680968536297, 'epoch': 0.43}
{'loss': 0.4442, 'learning_rate': 0.00019343435004363764, 'epoch': 0.43}
{'loss': 0.4502, 'learning_rate': 0.0001933513871036535, 'epoch': 0.43}
{'loss': 0.5581, 'learning_rate': 0.00019326792131230304, 'epoch': 0.43}
{'loss': 0.4553, 'learning_rate': 0.0001931839531191873, 'epoch': 0.43}
{'loss': 0.4351, 'learning_rate': 0.0001930994829766137, 'epoch': 0.44}
{'loss': 0.454, 'learning_rate': 0.0001930145113395934, 'epoch': 0.44}
{'loss': 0.4762, 'learning_rate': 0.000192929038665839, 'epoch': 0.44}
{'loss': 0.4655, 'learning_rate': 0.00019284306541576197, 'epoch': 0.44}
{'loss': 0.438, 'learning_rate': 0.00019275659205247026, 'epoch': 0.44}
{'loss': 0.4751, 'learning_rate': 0.0001926696190417657, 'epoch': 0.45}
{'loss': 0.4812, 'learning_rate': 0.00019258214685214157, 'epoch': 0.45}
{'loss': 0.4407, 'learning_rate': 0.00019249417595478002, 'epoch': 0.45}
{'loss': 0.4733, 'learning_rate': 0.00019240570682354963, 'epoch': 0.45}
{'loss': 0.466, 'learning_rate': 0.00019231673993500275, 'epoch': 0.46}
{'loss': 0.4577, 'learning_rate': 0.00019222727576837295, 'epoch': 0.46}
{'loss': 0.457, 'learning_rate': 0.00019213731480557255, 'epoch': 0.46}
{'loss': 0.4131, 'learning_rate': 0.00019204685753118985, 'epoch': 0.46}
{'loss': 0.5377, 'learning_rate': 0.00019195590443248667, 'epoch': 0.46}
{'loss': 0.4064, 'learning_rate': 0.00019186445599939558, 'epoch': 0.47}
{'loss': 0.4432, 'learning_rate': 0.0001917725127245174, 'epoch': 0.47}
{'loss': 0.4847, 'learning_rate': 0.00019168007510311856, 'epoch': 0.47}
{'loss': 0.4448, 'learning_rate': 0.0001915871436331282, 'epoch': 0.47}
{'loss': 0.4672, 'learning_rate': 0.00019149371881513582, 'epoch': 0.47}
{'loss': 0.4748, 'learning_rate': 0.00019139980115238827, 'epoch': 0.48}
{'loss': 0.4595, 'learning_rate': 0.00019130539115078728, 'epoch': 0.48}
{'loss': 0.4482, 'learning_rate': 0.0001912104893188866, 'epoch': 0.48}
{'loss': 0.4926, 'learning_rate': 0.0001911150961678893, 'epoch': 0.48}
{'loss': 0.4035, 'learning_rate': 0.000191019212211645, 'epoch': 0.49}
{'loss': 0.4226, 'learning_rate': 0.00019092283796664713, 'epoch': 0.49}
{'loss': 0.4648, 'learning_rate': 0.00019082597395203018, 'epoch': 0.49}
{'loss': 0.4286, 'learning_rate': 0.00019072862068956678, 'epoch': 0.49}
{'loss': 0.4352, 'learning_rate': 0.000190630778703665, 'epoch': 0.49}
{'loss': 0.4597, 'learning_rate': 0.00019053244852136554, 'epoch': 0.5}
{'loss': 0.4105, 'learning_rate': 0.00019043363067233873, 'epoch': 0.5}
{'loss': 0.4394, 'learning_rate': 0.0001903343256888819, 'epoch': 0.5}
{'loss': 0.4132, 'learning_rate': 0.00019023453410591635, 'epoch': 0.5}
{'loss': 0.392, 'learning_rate': 0.0001901342564609846, 'epoch': 0.51}
{'loss': 0.5495, 'learning_rate': 0.00019003349329424726, 'epoch': 0.51}
{'loss': 0.4403, 'learning_rate': 0.0001899322451484804, 'epoch': 0.51}
{'loss': 0.4703, 'learning_rate': 0.0001898305125690725, 'epoch': 0.51}
{'loss': 0.4518, 'learning_rate': 0.00018972829610402144, 'epoch': 0.51}
{'loss': 0.5012, 'learning_rate': 0.00018962559630393173, 'epoch': 0.52}
{'loss': 0.4538, 'learning_rate': 0.00018952241372201129, 'epoch': 0.52}
{'loss': 0.3945, 'learning_rate': 0.00018941874891406882, 'epoch': 0.52}
{'loss': 0.3939, 'learning_rate': 0.00018931460243851037, 'epoch': 0.52}
{'loss': 0.4905, 'learning_rate': 0.00018920997485633677, 'epoch': 0.52}
{'loss': 0.4411, 'learning_rate': 0.00018910486673114025, 'epoch': 0.53}
{'loss': 0.4623, 'learning_rate': 0.00018899927862910167, 'epoch': 0.53}
{'loss': 0.4489, 'learning_rate': 0.0001888932111189873, 'epoch': 0.53}
{'loss': 0.5009, 'learning_rate': 0.00018878666477214584, 'epoch': 0.53}
{'loss': 0.4779, 'learning_rate': 0.00018867964016250528, 'epoch': 0.54}
{'loss': 0.4487, 'learning_rate': 0.00018857213786656985, 'epoch': 0.54}
{'loss': 0.5274, 'learning_rate': 0.00018846415846341698, 'epoch': 0.54}
{'loss': 0.4404, 'learning_rate': 0.00018835570253469404, 'epoch': 0.54}
{'loss': 0.4622, 'learning_rate': 0.00018824677066461528, 'epoch': 0.54}
{'loss': 0.5271, 'learning_rate': 0.00018813736343995866, 'epoch': 0.55}
{'loss': 0.416, 'learning_rate': 0.00018802748145006285, 'epoch': 0.55}
{'loss': 0.4844, 'learning_rate': 0.00018791712528682368, 'epoch': 0.55}
{'loss': 0.4027, 'learning_rate': 0.0001878062955446914, 'epoch': 0.55}
{'loss': 0.4354, 'learning_rate': 0.00018769499282066717, 'epoch': 0.55}
{'loss': 0.4317, 'learning_rate': 0.0001875832177142999, 'epoch': 0.56}
{'loss': 0.4824, 'learning_rate': 0.00018747097082768316, 'epoch': 0.56}
{'loss': 0.4371, 'learning_rate': 0.0001873582527654518, 'epoch': 0.56}
{'loss': 0.5147, 'learning_rate': 0.00018724506413477862, 'epoch': 0.56}
{'loss': 0.4183, 'learning_rate': 0.00018713140554537137, 'epoch': 0.57}
{'loss': 0.4468, 'learning_rate': 0.00018701727760946923, 'epoch': 0.57}
{'loss': 0.4761, 'learning_rate': 0.00018690268094183958, 'epoch': 0.57}
{'loss': 0.4846, 'learning_rate': 0.00018678761615977468, 'epoch': 0.57}
{'loss': 0.4334, 'learning_rate': 0.00018667208388308841, 'epoch': 0.57}
{'loss': 0.4829, 'learning_rate': 0.00018655608473411284, 'epoch': 0.58}
{'loss': 0.4721, 'learning_rate': 0.00018643961933769495, 'epoch': 0.58}
{'loss': 0.4836, 'learning_rate': 0.0001863226883211932, 'epoch': 0.58}
{'loss': 0.442, 'learning_rate': 0.0001862052923144742, 'epoch': 0.58}
{'loss': 0.4531, 'learning_rate': 0.00018608743194990925, 'epoch': 0.58}
{'loss': 0.4836, 'learning_rate': 0.0001859691078623711, 'epoch': 0.59}
{'loss': 0.4762, 'learning_rate': 0.00018585032068923032, 'epoch': 0.59}
{'loss': 0.4413, 'learning_rate': 0.000185731071070352, 'epoch': 0.59}
{'loss': 0.3735, 'learning_rate': 0.00018561135964809223, 'epoch': 0.59}
{'loss': 0.47, 'learning_rate': 0.00018549118706729468, 'epoch': 0.6}
{'loss': 0.513, 'learning_rate': 0.00018537055397528716, 'epoch': 0.6}
{'loss': 0.487, 'learning_rate': 0.00018524946102187802, 'epoch': 0.6}
{'loss': 0.4504, 'learning_rate': 0.00018512790885935284, 'epoch': 0.6}
{'loss': 0.5875, 'learning_rate': 0.00018500589814247066, 'epoch': 0.6}
{'loss': 0.4482, 'learning_rate': 0.00018488342952846073, 'epoch': 0.61}
{'loss': 0.4294, 'learning_rate': 0.00018476050367701873, 'epoch': 0.61}
{'loss': 0.5023, 'learning_rate': 0.0001846371212503033, 'epoch': 0.61}
{'loss': 0.4003, 'learning_rate': 0.00018451328291293264, 'epoch': 0.61}
{'loss': 0.4724, 'learning_rate': 0.0001843889893319806, 'epoch': 0.61}
{'loss': 0.4777, 'learning_rate': 0.0001842642411769734, 'epoch': 0.62}
{'loss': 0.4578, 'learning_rate': 0.00018413903911988587, 'epoch': 0.62}
{'loss': 0.4985, 'learning_rate': 0.00018401338383513776, 'epoch': 0.62}
{'loss': 0.5229, 'learning_rate': 0.00018388727599959033, 'epoch': 0.62}
{'loss': 0.4049, 'learning_rate': 0.00018376071629254247, 'epoch': 0.63}
{'loss': 0.5208, 'learning_rate': 0.00018363370539572715, 'epoch': 0.63}
{'loss': 0.39, 'learning_rate': 0.00018350624399330787, 'epoch': 0.63}
{'loss': 0.4388, 'learning_rate': 0.00018337833277187472, 'epoch': 0.63}
{'loss': 0.5147, 'learning_rate': 0.0001832499724204408, 'epoch': 0.63}
{'loss': 0.4852, 'learning_rate': 0.00018312116363043858, 'epoch': 0.64}
{'loss': 0.478, 'learning_rate': 0.0001829919070957161, 'epoch': 0.64}
{'loss': 0.438, 'learning_rate': 0.0001828622035125332, 'epoch': 0.64}
{'loss': 0.4736, 'learning_rate': 0.00018273205357955793, 'epoch': 0.64}
{'loss': 0.4281, 'learning_rate': 0.00018260145799786254, 'epoch': 0.64}
{'loss': 0.4111, 'learning_rate': 0.00018247041747091987, 'epoch': 0.65}
{'loss': 0.4878, 'learning_rate': 0.00018233893270459955, 'epoch': 0.65}
{'loss': 0.4828, 'learning_rate': 0.00018220700440716413, 'epoch': 0.65}
{'loss': 0.4531, 'learning_rate': 0.0001820746332892654, 'epoch': 0.65}
{'loss': 0.4701, 'learning_rate': 0.00018194182006394042, 'epoch': 0.66}
{'loss': 0.3925, 'learning_rate': 0.0001818085654466076, 'epoch': 0.66}
{'loss': 0.473, 'learning_rate': 0.00018167487015506318, 'epoch': 0.66}
{'loss': 0.4944, 'learning_rate': 0.0001815407349094771, 'epoch': 0.66}
{'loss': 0.4363, 'learning_rate': 0.00018140616043238908, 'epoch': 0.66}
{'loss': 0.5002, 'learning_rate': 0.00018127114744870493, 'epoch': 0.67}
{'loss': 0.4632, 'learning_rate': 0.00018113569668569247, 'epoch': 0.67}
{'loss': 0.5029, 'learning_rate': 0.00018099980887297781, 'epoch': 0.67}
{'loss': 0.4123, 'learning_rate': 0.0001808634847425411, 'epoch': 0.67}
{'loss': 0.4912, 'learning_rate': 0.00018072672502871296, 'epoch': 0.67}
{'loss': 0.4291, 'learning_rate': 0.00018058953046817025, 'epoch': 0.68}
{'loss': 0.4346, 'learning_rate': 0.0001804519017999322, 'epoch': 0.68}
{'loss': 0.3771, 'learning_rate': 0.0001803138397653565, 'epoch': 0.68}
{'loss': 0.503, 'learning_rate': 0.0001801753451081351, 'epoch': 0.68}
{'loss': 0.4451, 'learning_rate': 0.00018003641857429053, 'epoch': 0.69}
{'loss': 0.4465, 'learning_rate': 0.0001798970609121715, 'epoch': 0.69}
{'loss': 0.4412, 'learning_rate': 0.00017975727287244914, 'epoch': 0.69}
{'loss': 0.4642, 'learning_rate': 0.00017961705520811293, 'epoch': 0.69}
{'loss': 0.4614, 'learning_rate': 0.00017947640867446642, 'epoch': 0.69}
{'loss': 0.4434, 'learning_rate': 0.00017933533402912354, 'epoch': 0.7}
{'loss': 0.4207, 'learning_rate': 0.00017919383203200413, 'epoch': 0.7}
{'loss': 0.4231, 'learning_rate': 0.00017905190344533013, 'epoch': 0.7}
{'loss': 0.4711, 'learning_rate': 0.00017890954903362137, 'epoch': 0.7}
{'loss': 0.5073, 'learning_rate': 0.00017876676956369138, 'epoch': 0.7}
{'loss': 0.4235, 'learning_rate': 0.00017862356580464339, 'epoch': 0.71}
{'loss': 0.4541, 'learning_rate': 0.0001784799385278661, 'epoch': 0.71}
{'loss': 0.4288, 'learning_rate': 0.00017833588850702957, 'epoch': 0.71}
{'loss': 0.467, 'learning_rate': 0.000178191416518081, 'epoch': 0.71}
{'loss': 0.4376, 'learning_rate': 0.00017804652333924063, 'epoch': 0.72}
{'loss': 0.4665, 'learning_rate': 0.0001779012097509975, 'epoch': 0.72}
{'loss': 0.406, 'learning_rate': 0.00017775547653610518, 'epoch': 0.72}
{'loss': 0.4393, 'learning_rate': 0.00017760932447957774, 'epoch': 0.72}
{'loss': 0.4085, 'learning_rate': 0.00017746275436868528, 'epoch': 0.72}
{'loss': 0.4248, 'learning_rate': 0.0001773157669929499, 'epoch': 0.73}
{'loss': 0.4424, 'learning_rate': 0.00017716836314414137, 'epoch': 0.73}
{'loss': 0.442, 'learning_rate': 0.00017702054361627272, 'epoch': 0.73}
{'loss': 0.4821, 'learning_rate': 0.0001768723092055963, 'epoch': 0.73}
{'loss': 0.4062, 'learning_rate': 0.0001767236607105991, 'epoch': 0.74}
{'loss': 0.4242, 'learning_rate': 0.00017657459893199876, 'epoch': 0.74}
{'loss': 0.3858, 'learning_rate': 0.00017642512467273914, 'epoch': 0.74}
{'loss': 0.4085, 'learning_rate': 0.00017627523873798583, 'epoch': 0.74}
{'loss': 0.458, 'learning_rate': 0.0001761249419351222, 'epoch': 0.74}
{'loss': 0.4977, 'learning_rate': 0.0001759742350737447, 'epoch': 0.75}
{'loss': 0.4349, 'learning_rate': 0.00017582311896565856, 'epoch': 0.75}
{'loss': 0.4904, 'learning_rate': 0.0001756715944248736, 'epoch': 0.75}
{'loss': 0.4498, 'learning_rate': 0.00017551966226759969, 'epoch': 0.75}
{'loss': 0.4344, 'learning_rate': 0.00017536732331224232, 'epoch': 0.75}
{'loss': 0.4322, 'learning_rate': 0.00017521457837939842, 'epoch': 0.76}
{'loss': 0.3771, 'learning_rate': 0.00017506142829185154, 'epoch': 0.76}
{'loss': 0.4444, 'learning_rate': 0.0001749078738745679, 'epoch': 0.76}
{'loss': 0.4368, 'learning_rate': 0.00017475391595469155, 'epoch': 0.76}
{'loss': 0.4878, 'learning_rate': 0.00017459955536154012, 'epoch': 0.77}
{'loss': 0.4408, 'learning_rate': 0.0001744447929266003, 'epoch': 0.77}
{'loss': 0.4471, 'learning_rate': 0.00017428962948352333, 'epoch': 0.77}
{'loss': 0.4237, 'learning_rate': 0.00017413406586812055, 'epoch': 0.77}
{'loss': 0.4822, 'learning_rate': 0.00017397810291835895, 'epoch': 0.77}
{'loss': 0.4335, 'learning_rate': 0.00017382174147435655, 'epoch': 0.78}
{'loss': 0.4627, 'learning_rate': 0.0001736649823783779, 'epoch': 0.78}
{'loss': 0.5074, 'learning_rate': 0.00017350782647482954, 'epoch': 0.78}
{'loss': 0.464, 'learning_rate': 0.00017335027461025558, 'epoch': 0.78}
{'loss': 0.4154, 'learning_rate': 0.00017319232763333297, 'epoch': 0.78}
{'loss': 0.4067, 'learning_rate': 0.00017303398639486695, 'epoch': 0.79}
{'loss': 0.4376, 'learning_rate': 0.00017287525174778656, 'epoch': 0.79}
{'loss': 0.4415, 'learning_rate': 0.00017271612454714, 'epoch': 0.79}
{'loss': 0.4327, 'learning_rate': 0.00017255660565008995, 'epoch': 0.79}
{'loss': 0.4166, 'learning_rate': 0.00017239669591590916, 'epoch': 0.8}
{'loss': 0.4278, 'learning_rate': 0.00017223639620597556, 'epoch': 0.8}
{'loss': 0.4133, 'learning_rate': 0.0001720757073837678, 'epoch': 0.8}
{'loss': 0.5055, 'learning_rate': 0.00017191463031486048, 'epoch': 0.8}
{'loss': 0.4325, 'learning_rate': 0.00017175316586691967, 'epoch': 0.8}
{'loss': 0.3851, 'learning_rate': 0.00017159131490969797, 'epoch': 0.81}
{'loss': 0.4435, 'learning_rate': 0.00017142907831503007, 'epoch': 0.81}
{'loss': 0.3817, 'learning_rate': 0.00017126645695682795, 'epoch': 0.81}
{'loss': 0.4194, 'learning_rate': 0.0001711034517110761, 'epoch': 0.81}
{'loss': 0.4558, 'learning_rate': 0.00017094006345582695, 'epoch': 0.81}
{'loss': 0.4493, 'learning_rate': 0.0001707762930711961, 'epoch': 0.82}
{'loss': 0.4545, 'learning_rate': 0.00017061214143935743, 'epoch': 0.82}
{'loss': 0.3937, 'learning_rate': 0.00017044760944453857, 'epoch': 0.82}
{'loss': 0.4809, 'learning_rate': 0.00017028269797301598, 'epoch': 0.82}
{'loss': 0.4242, 'learning_rate': 0.00017011740791311026, 'epoch': 0.83}
{'loss': 0.518, 'learning_rate': 0.00016995174015518128, 'epoch': 0.83}
{'loss': 0.5342, 'learning_rate': 0.00016978569559162357, 'epoch': 0.83}
{'loss': 0.4693, 'learning_rate': 0.00016961927511686118, 'epoch': 0.83}
{'loss': 0.4439, 'learning_rate': 0.00016945247962734322, 'epoch': 0.83}
{'loss': 0.4384, 'learning_rate': 0.0001692853100215388, 'epoch': 0.84}
{'loss': 0.4377, 'learning_rate': 0.00016911776719993231, 'epoch': 0.84}
{'loss': 0.4807, 'learning_rate': 0.0001689498520650185, 'epoch': 0.84}
{'loss': 0.472, 'learning_rate': 0.00016878156552129763, 'epoch': 0.84}
{'loss': 0.5007, 'learning_rate': 0.00016861290847527066, 'epoch': 0.84}
{'loss': 0.424, 'learning_rate': 0.00016844388183543418, 'epoch': 0.85}
{'loss': 0.4305, 'learning_rate': 0.00016827448651227585, 'epoch': 0.85}
{'loss': 0.4352, 'learning_rate': 0.00016810472341826914, 'epoch': 0.85}
{'loss': 0.5023, 'learning_rate': 0.0001679345934678687, 'epoch': 0.85}
{'loss': 0.395, 'learning_rate': 0.00016776409757750515, 'epoch': 0.86}
{'loss': 0.4832, 'learning_rate': 0.00016759323666558045, 'epoch': 0.86}
{'loss': 0.4482, 'learning_rate': 0.00016742201165246276, 'epoch': 0.86}
{'loss': 0.4576, 'learning_rate': 0.00016725042346048147, 'epoch': 0.86}
{'loss': 0.4523, 'learning_rate': 0.00016707847301392236, 'epoch': 0.86}
{'loss': 0.4312, 'learning_rate': 0.0001669061612390225, 'epoch': 0.87}
{'loss': 0.4471, 'learning_rate': 0.00016673348906396531, 'epoch': 0.87}
{'loss': 0.447, 'learning_rate': 0.00016656045741887562, 'epoch': 0.87}
{'loss': 0.4341, 'learning_rate': 0.00016638706723581454, 'epoch': 0.87}
{'loss': 0.4379, 'learning_rate': 0.00016621331944877452, 'epoch': 0.87}
{'loss': 0.4485, 'learning_rate': 0.0001660392149936743, 'epoch': 0.88}
{'loss': 0.5225, 'learning_rate': 0.0001658647548083538, 'epoch': 0.88}
{'loss': 0.4812, 'learning_rate': 0.0001656899398325693, 'epoch': 0.88}
{'loss': 0.4017, 'learning_rate': 0.00016551477100798805, 'epoch': 0.88}
{'loss': 0.3989, 'learning_rate': 0.00016533924927818338, 'epoch': 0.89}
{'loss': 0.3974, 'learning_rate': 0.00016516337558862974, 'epoch': 0.89}
{'loss': 0.4824, 'learning_rate': 0.00016498715088669727, 'epoch': 0.89}
{'loss': 0.466, 'learning_rate': 0.00016481057612164704, 'epoch': 0.89}
{'loss': 0.4442, 'learning_rate': 0.00016463365224462568, 'epoch': 0.89}
{'loss': 0.4942, 'learning_rate': 0.00016445638020866043, 'epoch': 0.9}
{'loss': 0.4354, 'learning_rate': 0.00016427876096865394, 'epoch': 0.9}
{'loss': 0.4026, 'learning_rate': 0.0001641007954813791, 'epoch': 0.9}
{'loss': 0.5023, 'learning_rate': 0.00016392248470547394, 'epoch': 0.9}
{'loss': 0.4444, 'learning_rate': 0.00016374382960143642, 'epoch': 0.9}
{'loss': 0.4486, 'learning_rate': 0.00016356483113161922, 'epoch': 0.91}
{'loss': 0.4783, 'learning_rate': 0.00016338549026022477, 'epoch': 0.91}
{'loss': 0.4537, 'learning_rate': 0.00016320580795329973, 'epoch': 0.91}
{'loss': 0.411, 'learning_rate': 0.00016302578517873008, 'epoch': 0.91}
{'loss': 0.4302, 'learning_rate': 0.00016284542290623567, 'epoch': 0.92}
{'loss': 0.4449, 'learning_rate': 0.0001626647221073652, 'epoch': 0.92}
{'loss': 0.4957, 'learning_rate': 0.00016248368375549083, 'epoch': 0.92}
{'loss': 0.5097, 'learning_rate': 0.00016230230882580303, 'epoch': 0.92}
{'loss': 0.4488, 'learning_rate': 0.00016212059829530528, 'epoch': 0.92}
{'loss': 0.4926, 'learning_rate': 0.00016193855314280885, 'epoch': 0.93}
{'loss': 0.4292, 'learning_rate': 0.00016175617434892754, 'epoch': 0.93}
{'loss': 0.494, 'learning_rate': 0.0001615734628960722, 'epoch': 0.93}
{'loss': 0.4766, 'learning_rate': 0.00016139041976844583, 'epoch': 0.93}
{'loss': 0.4373, 'learning_rate': 0.0001612070459520378, 'epoch': 0.93}
{'loss': 0.437, 'learning_rate': 0.00016102334243461898, 'epoch': 0.94}
{'loss': 0.4304, 'learning_rate': 0.00016083931020573618, 'epoch': 0.94}
{'loss': 0.4344, 'learning_rate': 0.00016065495025670675, 'epoch': 0.94}
{'loss': 0.4646, 'learning_rate': 0.0001604702635806135, 'epoch': 0.94}
{'loss': 0.489, 'learning_rate': 0.00016028525117229916, 'epoch': 0.95}
{'loss': 0.4311, 'learning_rate': 0.000160099914028361, 'epoch': 0.95}
{'loss': 0.4407, 'learning_rate': 0.0001599142531471456, 'epoch': 0.95}
{'loss': 0.4709, 'learning_rate': 0.00015972826952874339, 'epoch': 0.95}
{'loss': 0.4086, 'learning_rate': 0.00015954196417498323, 'epoch': 0.95}
{'loss': 0.494, 'learning_rate': 0.00015935533808942714, 'epoch': 0.96}
{'loss': 0.452, 'learning_rate': 0.0001591683922773647, 'epoch': 0.96}
{'loss': 0.3995, 'learning_rate': 0.00015898112774580784, 'epoch': 0.96}
{'loss': 0.4906, 'learning_rate': 0.00015879354550348527, 'epoch': 0.96}
{'loss': 0.4379, 'learning_rate': 0.00015860564656083713, 'epoch': 0.96}
{'loss': 0.4289, 'learning_rate': 0.00015841743193000944, 'epoch': 0.97}
{'loss': 0.4426, 'learning_rate': 0.00015822890262484886, 'epoch': 0.97}
{'loss': 0.4232, 'learning_rate': 0.00015804005966089693, 'epoch': 0.97}
{'loss': 0.4412, 'learning_rate': 0.00015785090405538493, 'epoch': 0.97}
{'loss': 0.4275, 'learning_rate': 0.000157661436827228, 'epoch': 0.98}
{'loss': 0.4361, 'learning_rate': 0.00015747165899702016, 'epoch': 0.98}
{'loss': 0.4198, 'learning_rate': 0.00015728157158702833, 'epoch': 0.98}
{'loss': 0.4814, 'learning_rate': 0.00015709117562118713, 'epoch': 0.98}
{'loss': 0.426, 'learning_rate': 0.00015690047212509316, 'epoch': 0.98}
{'loss': 0.4107, 'learning_rate': 0.0001567094621259997, 'epoch': 0.99}
{'loss': 0.4337, 'learning_rate': 0.00015651814665281098, 'epoch': 0.99}
{'loss': 0.4214, 'learning_rate': 0.00015632652673607677, 'epoch': 0.99}
{'loss': 0.4497, 'learning_rate': 0.00015613460340798674, 'epoch': 0.99}
{'loss': 0.4939, 'learning_rate': 0.00015594237770236486, 'epoch': 1.0}
{'loss': 0.393, 'learning_rate': 0.000155749850654664, 'epoch': 1.0}
{'loss': 0.4226, 'learning_rate': 0.00015555702330196023, 'epoch': 1.0}
{'loss': 0.4105, 'learning_rate': 0.00015536389668294724, 'epoch': 1.0}
{'loss': 0.3861, 'learning_rate': 0.0001551704718379308, 'epoch': 1.0}
{'loss': 0.4638, 'learning_rate': 0.00015497674980882308, 'epoch': 1.01}
{'loss': 0.3798, 'learning_rate': 0.0001547827316391371, 'epoch': 1.01}
{'loss': 0.4455, 'learning_rate': 0.000154588418373981, 'epoch': 1.01}
{'loss': 0.3469, 'learning_rate': 0.00015439381106005268, 'epoch': 1.01}
{'loss': 0.4199, 'learning_rate': 0.00015419891074563383, 'epoch': 1.01}
{'loss': 0.4349, 'learning_rate': 0.00015400371848058448, 'epoch': 1.02}
{'loss': 0.4368, 'learning_rate': 0.00015380823531633729, 'epoch': 1.02}
{'loss': 0.4546, 'learning_rate': 0.00015361246230589183, 'epoch': 1.02}
{'loss': 0.4404, 'learning_rate': 0.00015341640050380915, 'epoch': 1.02}
{'loss': 0.4154, 'learning_rate': 0.0001532200509662057, 'epoch': 1.03}
{'loss': 0.4636, 'learning_rate': 0.00015302341475074803, 'epoch': 1.03}
{'loss': 0.436, 'learning_rate': 0.0001528264929166468, 'epoch': 1.03}
{'loss': 0.3983, 'learning_rate': 0.00015262928652465125, 'epoch': 1.03}
{'loss': 0.4177, 'learning_rate': 0.00015243179663704351, 'epoch': 1.03}
{'loss': 0.4385, 'learning_rate': 0.00015223402431763269, 'epoch': 1.04}
{'loss': 0.4426, 'learning_rate': 0.0001520359706317493, 'epoch': 1.04}
{'loss': 0.4539, 'learning_rate': 0.00015183763664623946, 'epoch': 1.04}
{'loss': 0.4223, 'learning_rate': 0.0001516390234294592, 'epoch': 1.04}
{'loss': 0.3784, 'learning_rate': 0.00015144013205126868, 'epoch': 1.04}
{'loss': 0.4174, 'learning_rate': 0.00015124096358302635, 'epoch': 1.05}
{'loss': 0.4163, 'learning_rate': 0.0001510415190975833, 'epoch': 1.05}
{'loss': 0.4177, 'learning_rate': 0.00015084179966927744, 'epoch': 1.05}
{'loss': 0.4177, 'learning_rate': 0.00015064180637392764, 'epoch': 1.05}
{'loss': 0.4028, 'learning_rate': 0.0001504415402888281, 'epoch': 1.06}
{'loss': 0.43, 'learning_rate': 0.00015024100249274227, 'epoch': 1.06}
{'loss': 0.4226, 'learning_rate': 0.00015004019406589738, 'epoch': 1.06}
{'loss': 0.5253, 'learning_rate': 0.0001498391160899784, 'epoch': 1.06}
{'loss': 0.4328, 'learning_rate': 0.0001496377696481223, 'epoch': 1.06}
{'loss': 0.426, 'learning_rate': 0.00014943615582491208, 'epoch': 1.07}
{'loss': 0.4125, 'learning_rate': 0.00014923427570637113, 'epoch': 1.07}
{'loss': 0.3816, 'learning_rate': 0.00014903213037995724, 'epoch': 1.07}
{'loss': 0.4165, 'learning_rate': 0.00014882972093455674, 'epoch': 1.07}
{'loss': 0.5914, 'learning_rate': 0.00014862704846047877, 'epoch': 1.07}
{'loss': 0.4481, 'learning_rate': 0.00014842411404944927, 'epoch': 1.08}
{'loss': 0.4097, 'learning_rate': 0.0001482209187946051, 'epoch': 1.08}
{'loss': 0.3985, 'learning_rate': 0.00014801746379048826, 'epoch': 1.08}
{'loss': 0.4105, 'learning_rate': 0.00014781375013303994, 'epoch': 1.08}
{'loss': 0.4232, 'learning_rate': 0.0001476097789195945, 'epoch': 1.09}
{'loss': 0.4937, 'learning_rate': 0.00014740555124887375, 'epoch': 1.09}
{'loss': 0.3925, 'learning_rate': 0.00014720106822098096, 'epoch': 1.09}
{'loss': 0.4395, 'learning_rate': 0.00014699633093739488, 'epoch': 1.09}
{'loss': 0.434, 'learning_rate': 0.00014679134050096383, 'epoch': 1.09}
{'loss': 0.4321, 'learning_rate': 0.00014658609801589982, 'epoch': 1.1}
{'loss': 0.4416, 'learning_rate': 0.00014638060458777255, 'epoch': 1.1}
{'loss': 0.4929, 'learning_rate': 0.00014617486132350343, 'epoch': 1.1}
{'loss': 0.4512, 'learning_rate': 0.00014596886933135965, 'epoch': 1.1}
{'loss': 0.4003, 'learning_rate': 0.00014576262972094828, 'epoch': 1.1}
{'loss': 0.4282, 'learning_rate': 0.00014555614360321016, 'epoch': 1.11}
{'loss': 0.4085, 'learning_rate': 0.000145349412090414, 'epoch': 1.11}
{'loss': 0.392, 'learning_rate': 0.00014514243629615035, 'epoch': 1.11}
{'loss': 0.432, 'learning_rate': 0.00014493521733532563, 'epoch': 1.11}
{'loss': 0.4223, 'learning_rate': 0.00014472775632415615, 'epoch': 1.12}
{'loss': 0.4877, 'learning_rate': 0.00014452005438016197, 'epoch': 1.12}
{'loss': 0.4429, 'learning_rate': 0.00014431211262216106, 'epoch': 1.12}
{'loss': 0.455, 'learning_rate': 0.00014410393217026318, 'epoch': 1.12}
{'loss': 0.4188, 'learning_rate': 0.00014389551414586375, 'epoch': 1.12}
{'loss': 0.5062, 'learning_rate': 0.00014368685967163804, 'epoch': 1.13}
{'loss': 0.4239, 'learning_rate': 0.0001434779698715349, 'epoch': 1.13}
{'loss': 0.4688, 'learning_rate': 0.00014326884587077089, 'epoch': 1.13}
{'loss': 0.4246, 'learning_rate': 0.000143059488795824, 'epoch': 1.13}
{'loss': 0.4336, 'learning_rate': 0.0001428498997744278, 'epoch': 1.13}
{'loss': 0.4373, 'learning_rate': 0.0001426400799355653, 'epoch': 1.14}
{'loss': 0.4008, 'learning_rate': 0.00014243003040946274, 'epoch': 1.14}
{'loss': 0.401, 'learning_rate': 0.0001422197523275837, 'epoch': 1.14}
{'loss': 0.4132, 'learning_rate': 0.00014200924682262285, 'epoch': 1.14}
{'loss': 0.4702, 'learning_rate': 0.00014179851502849994, 'epoch': 1.15}
{'loss': 0.4305, 'learning_rate': 0.00014158755808035367, 'epoch': 1.15}
{'loss': 0.4141, 'learning_rate': 0.00014137637711453553, 'epoch': 1.15}
{'loss': 0.4666, 'learning_rate': 0.00014116497326860375, 'epoch': 1.15}
{'loss': 0.4395, 'learning_rate': 0.0001409533476813171, 'epoch': 1.15}
{'loss': 0.4029, 'learning_rate': 0.0001407415014926288, 'epoch': 1.16}
{'loss': 0.4456, 'learning_rate': 0.00014052943584368045, 'epoch': 1.16}
{'loss': 0.4422, 'learning_rate': 0.00014031715187679572, 'epoch': 1.16}
{'loss': 0.4066, 'learning_rate': 0.00014010465073547424, 'epoch': 1.16}
{'loss': 0.4391, 'learning_rate': 0.00013989193356438566, 'epoch': 1.16}
{'loss': 0.4336, 'learning_rate': 0.0001396790015093631, 'epoch': 1.17}
{'loss': 0.4741, 'learning_rate': 0.00013946585571739735, 'epoch': 1.17}
{'loss': 0.4676, 'learning_rate': 0.00013925249733663043, 'epoch': 1.17}
{'loss': 0.4545, 'learning_rate': 0.00013903892751634947, 'epoch': 1.17}
{'loss': 0.4653, 'learning_rate': 0.00013882514740698075, 'epoch': 1.18}
{'loss': 0.4148, 'learning_rate': 0.00013861115816008303, 'epoch': 1.18}
{'loss': 0.4587, 'learning_rate': 0.0001383969609283418, 'epoch': 1.18}
{'loss': 0.4345, 'learning_rate': 0.00013818255686556287, 'epoch': 1.18}
{'loss': 0.4891, 'learning_rate': 0.00013796794712666615, 'epoch': 1.18}
{'loss': 0.4304, 'learning_rate': 0.00013775313286767943, 'epoch': 1.19}
{'loss': 0.3828, 'learning_rate': 0.00013753811524573224, 'epoch': 1.19}
{'loss': 0.4364, 'learning_rate': 0.00013732289541904948, 'epoch': 1.19}
{'loss': 0.3951, 'learning_rate': 0.00013710747454694536, 'epoch': 1.19}
{'loss': 0.4868, 'learning_rate': 0.0001368918537898169, 'epoch': 1.19}
{'loss': 0.3679, 'learning_rate': 0.00013667603430913804, 'epoch': 1.2}
{'loss': 0.5087, 'learning_rate': 0.00013646001726745296, 'epoch': 1.2}
{'loss': 0.441, 'learning_rate': 0.00013624380382837016, 'epoch': 1.2}
{'loss': 0.51, 'learning_rate': 0.00013602739515655607, 'epoch': 1.2}
{'loss': 0.5008, 'learning_rate': 0.00013581079241772867, 'epoch': 1.21}
{'loss': 0.4074, 'learning_rate': 0.0001355939967786514, 'epoch': 1.21}
{'loss': 0.429, 'learning_rate': 0.0001353770094071268, 'epoch': 1.21}
{'loss': 0.4259, 'learning_rate': 0.00013515983147199007, 'epoch': 1.21}
{'loss': 0.5449, 'learning_rate': 0.00013494246414310308, 'epoch': 1.21}
{'loss': 0.4807, 'learning_rate': 0.00013472490859134785, 'epoch': 1.22}
{'loss': 0.4194, 'learning_rate': 0.00013450716598862022, 'epoch': 1.22}
{'loss': 0.4344, 'learning_rate': 0.00013428923750782366, 'epoch': 1.22}
{'loss': 0.4915, 'learning_rate': 0.00013407112432286286, 'epoch': 1.22}
{'loss': 0.4477, 'learning_rate': 0.00013385282760863758, 'epoch': 1.23}
{'loss': 0.4122, 'learning_rate': 0.00013363434854103597, 'epoch': 1.23}
{'loss': 0.4077, 'learning_rate': 0.00013341568829692863, 'epoch': 1.23}
{'loss': 0.4409, 'learning_rate': 0.00013319684805416208, 'epoch': 1.23}
{'loss': 0.4826, 'learning_rate': 0.00013297782899155232, 'epoch': 1.23}
{'loss': 0.4355, 'learning_rate': 0.00013275863228887872, 'epoch': 1.24}
{'loss': 0.4459, 'learning_rate': 0.00013253925912687736, 'epoch': 1.24}
{'loss': 0.4445, 'learning_rate': 0.0001323197106872351, 'epoch': 1.24}
{'loss': 0.4084, 'learning_rate': 0.00013209998815258273, 'epoch': 1.24}
{'loss': 0.4069, 'learning_rate': 0.00013188009270648893, 'epoch': 1.24}
{'loss': 0.4611, 'learning_rate': 0.00013166002553345382, 'epoch': 1.25}
{'loss': 0.4422, 'learning_rate': 0.00013143978781890247, 'epoch': 1.25}
{'loss': 0.4442, 'learning_rate': 0.00013121938074917865, 'epoch': 1.25}
{'loss': 0.5249, 'learning_rate': 0.00013099880551153837, 'epoch': 1.25}
{'loss': 0.4153, 'learning_rate': 0.00013077806329414354, 'epoch': 1.26}
{'loss': 0.4022, 'learning_rate': 0.00013055715528605548, 'epoch': 1.26}
{'loss': 0.4086, 'learning_rate': 0.00013033608267722858, 'epoch': 1.26}
{'loss': 0.4467, 'learning_rate': 0.00013011484665850393, 'epoch': 1.26}
{'loss': 0.4391, 'learning_rate': 0.00012989344842160279, 'epoch': 1.26}
{'loss': 0.5101, 'learning_rate': 0.00012967188915912018, 'epoch': 1.27}
{'loss': 0.4432, 'learning_rate': 0.00012945017006451868, 'epoch': 1.27}
{'loss': 0.4353, 'learning_rate': 0.00012922829233212165, 'epoch': 1.27}
{'loss': 0.402, 'learning_rate': 0.00012900625715710714, 'epoch': 1.27}
{'loss': 0.3997, 'learning_rate': 0.00012878406573550111, 'epoch': 1.27}
{'loss': 0.4339, 'learning_rate': 0.00012856171926417133, 'epoch': 1.28}
{'loss': 0.4732, 'learning_rate': 0.00012833921894082065, 'epoch': 1.28}
{'loss': 0.4308, 'learning_rate': 0.00012811656596398076, 'epoch': 1.28}
{'loss': 0.3998, 'learning_rate': 0.00012789376153300556, 'epoch': 1.28}
{'loss': 0.4336, 'learning_rate': 0.00012767080684806484, 'epoch': 1.29}
{'loss': 0.4884, 'learning_rate': 0.00012744770311013773, 'epoch': 1.29}
{'loss': 0.4004, 'learning_rate': 0.00012722445152100624, 'epoch': 1.29}
{'loss': 0.4617, 'learning_rate': 0.00012700105328324884, 'epoch': 1.29}
{'loss': 0.4039, 'learning_rate': 0.00012677750960023396, 'epoch': 1.29}
{'loss': 0.4663, 'learning_rate': 0.00012655382167611339, 'epoch': 1.3}
{'loss': 0.3902, 'learning_rate': 0.00012632999071581603, 'epoch': 1.3}
{'loss': 0.4156, 'learning_rate': 0.00012610601792504116, 'epoch': 1.3}
{'loss': 0.4356, 'learning_rate': 0.00012588190451025207, 'epoch': 1.3}
{'loss': 0.4138, 'learning_rate': 0.00012565765167866965, 'epoch': 1.3}
{'loss': 0.4645, 'learning_rate': 0.00012543326063826568, 'epoch': 1.31}
{'loss': 0.4566, 'learning_rate': 0.00012520873259775636, 'epoch': 1.31}
{'loss': 0.5068, 'learning_rate': 0.00012498406876659598, 'epoch': 1.31}
{'loss': 0.366, 'learning_rate': 0.0001247592703549703, 'epoch': 1.31}
{'loss': 0.4268, 'learning_rate': 0.00012453433857378992, 'epoch': 1.32}
{'loss': 0.5041, 'learning_rate': 0.00012430927463468388, 'epoch': 1.32}
{'loss': 0.453, 'learning_rate': 0.00012408407974999318, 'epoch': 1.32}
{'loss': 0.4354, 'learning_rate': 0.00012385875513276412, 'epoch': 1.32}
{'loss': 0.4566, 'learning_rate': 0.00012363330199674182, 'epoch': 1.32}
{'loss': 0.3908, 'learning_rate': 0.00012340772155636364, 'epoch': 1.33}
{'loss': 0.444, 'learning_rate': 0.00012318201502675285, 'epoch': 1.33}
{'loss': 0.3879, 'learning_rate': 0.00012295618362371174, 'epoch': 1.33}
{'loss': 0.4679, 'learning_rate': 0.0001227302285637153, 'epoch': 1.33}
{'loss': 0.436, 'learning_rate': 0.00012250415106390472, 'epoch': 1.33}
{'loss': 0.4909, 'learning_rate': 0.0001222779523420806, 'epoch': 1.34}
{'loss': 0.418, 'learning_rate': 0.00012205163361669656, 'epoch': 1.34}
{'loss': 0.4291, 'learning_rate': 0.00012182519610685263, 'epoch': 1.34}
{'loss': 0.4802, 'learning_rate': 0.00012159864103228877, 'epoch': 1.34}
{'loss': 0.4989, 'learning_rate': 0.00012137196961337811, 'epoch': 1.35}
{'loss': 0.425, 'learning_rate': 0.00012114518307112053, 'epoch': 1.35}
{'loss': 0.403, 'learning_rate': 0.00012091828262713607, 'epoch': 1.35}
{'loss': 0.4813, 'learning_rate': 0.00012069126950365828, 'epoch': 1.35}
{'loss': 0.3891, 'learning_rate': 0.00012046414492352766, 'epoch': 1.35}
{'loss': 0.4818, 'learning_rate': 0.00012023691011018514, 'epoch': 1.36}
{'loss': 0.3987, 'learning_rate': 0.00012000956628766542, 'epoch': 1.36}
{'loss': 0.4524, 'learning_rate': 0.00011978211468059035, 'epoch': 1.36}
{'loss': 0.4027, 'learning_rate': 0.00011955455651416246, 'epoch': 1.36}
{'loss': 0.3674, 'learning_rate': 0.0001193268930141582, 'epoch': 1.36}
{'loss': 0.4633, 'learning_rate': 0.00011909912540692148, 'epoch': 1.37}
{'loss': 0.442, 'learning_rate': 0.00011887125491935691, 'epoch': 1.37}
{'loss': 0.4221, 'learning_rate': 0.00011864328277892339, 'epoch': 1.37}
{'loss': 0.4213, 'learning_rate': 0.00011841521021362733, 'epoch': 1.37}
{'loss': 0.4702, 'learning_rate': 0.00011818703845201607, 'epoch': 1.38}
{'loss': 0.4608, 'learning_rate': 0.00011795876872317132, 'epoch': 1.38}
{'loss': 0.3899, 'learning_rate': 0.00011773040225670256, 'epoch': 1.38}
{'loss': 0.4163, 'learning_rate': 0.00011750194028274024, 'epoch': 1.38}
{'loss': 0.4207, 'learning_rate': 0.00011727338403192936, 'epoch': 1.38}
{'loss': 0.438, 'learning_rate': 0.0001170447347354227, 'epoch': 1.39}
{'loss': 0.4266, 'learning_rate': 0.00011681599362487434, 'epoch': 1.39}
{'loss': 0.4429, 'learning_rate': 0.00011658716193243284, 'epoch': 1.39}
{'loss': 0.4301, 'learning_rate': 0.0001163582408907347, 'epoch': 1.39}
{'loss': 0.3873, 'learning_rate': 0.0001161292317328978, 'epoch': 1.39}
{'loss': 0.4626, 'learning_rate': 0.00011590013569251457, 'epoch': 1.4}
{'loss': 0.5157, 'learning_rate': 0.00011567095400364545, 'epoch': 1.4}
{'loss': 0.4013, 'learning_rate': 0.00011544168790081229, 'epoch': 1.4}
{'loss': 0.3951, 'learning_rate': 0.00011521233861899167, 'epoch': 1.4}
{'loss': 0.4307, 'learning_rate': 0.00011498290739360815, 'epoch': 1.41}
{'loss': 0.4129, 'learning_rate': 0.00011475339546052775, 'epoch': 1.41}
{'loss': 0.4037, 'learning_rate': 0.00011452380405605119, 'epoch': 1.41}
{'loss': 0.434, 'learning_rate': 0.00011429413441690733, 'epoch': 1.41}
{'loss': 0.4416, 'learning_rate': 0.00011406438778024635, 'epoch': 1.41}
{'loss': 0.4368, 'learning_rate': 0.00011383456538363331, 'epoch': 1.42}
{'loss': 0.4431, 'learning_rate': 0.00011360466846504131, 'epoch': 1.42}
{'loss': 0.4486, 'learning_rate': 0.00011337469826284489, 'epoch': 1.42}
{'loss': 0.4409, 'learning_rate': 0.00011314465601581327, 'epoch': 1.42}
{'loss': 0.4492, 'learning_rate': 0.00011291454296310389, 'epoch': 1.42}
{'loss': 0.3911, 'learning_rate': 0.00011268436034425547, 'epoch': 1.43}
{'loss': 0.3774, 'learning_rate': 0.00011245410939918146, 'epoch': 1.43}
{'loss': 0.4477, 'learning_rate': 0.00011222379136816345, 'epoch': 1.43}
{'loss': 0.4046, 'learning_rate': 0.00011199340749184437, 'epoch': 1.43}
{'loss': 0.4795, 'learning_rate': 0.00011176295901122176, 'epoch': 1.44}
{'loss': 0.4631, 'learning_rate': 0.00011153244716764127, 'epoch': 1.44}
{'loss': 0.4718, 'learning_rate': 0.0001113018732027898, 'epoch': 1.44}
{'loss': 0.3974, 'learning_rate': 0.00011107123835868885, 'epoch': 1.44}
{'loss': 0.4339, 'learning_rate': 0.0001108405438776879, 'epoch': 1.44}
{'loss': 0.3994, 'learning_rate': 0.00011060979100245769, 'epoch': 1.45}
{'loss': 0.4202, 'learning_rate': 0.00011037898097598352, 'epoch': 1.45}
{'loss': 0.3875, 'learning_rate': 0.00011014811504155842, 'epoch': 1.45}
{'loss': 0.4011, 'learning_rate': 0.00010991719444277672, 'epoch': 1.45}
{'loss': 0.4832, 'learning_rate': 0.00010968622042352719, 'epoch': 1.45}
{'loss': 0.4056, 'learning_rate': 0.00010945519422798622, 'epoch': 1.46}
{'loss': 0.4564, 'learning_rate': 0.00010922411710061142, 'epoch': 1.46}
{'loss': 0.4015, 'learning_rate': 0.00010899299028613467, 'epoch': 1.46}
{'loss': 0.3784, 'learning_rate': 0.00010876181502955553, 'epoch': 1.46}
{'loss': 0.3845, 'learning_rate': 0.00010853059257613448, 'epoch': 1.47}
{'loss': 0.4544, 'learning_rate': 0.00010829932417138621, 'epoch': 1.47}
{'loss': 0.4773, 'learning_rate': 0.00010806801106107307, 'epoch': 1.47}
{'loss': 0.4884, 'learning_rate': 0.00010783665449119798, 'epoch': 1.47}
{'loss': 0.4712, 'learning_rate': 0.00010760525570799814, 'epoch': 1.47}
{'loss': 0.4383, 'learning_rate': 0.00010737381595793811, 'epoch': 1.48}
{'loss': 0.4913, 'learning_rate': 0.00010714233648770311, 'epoch': 1.48}
{'loss': 0.4387, 'learning_rate': 0.00010691081854419231, 'epoch': 1.48}
{'loss': 0.4502, 'learning_rate': 0.00010667926337451217, 'epoch': 1.48}
{'loss': 0.4007, 'learning_rate': 0.00010644767222596958, 'epoch': 1.49}
{'loss': 0.4331, 'learning_rate': 0.0001062160463460653, 'epoch': 1.49}
{'loss': 0.4349, 'learning_rate': 0.00010598438698248719, 'epoch': 1.49}
{'loss': 0.4205, 'learning_rate': 0.00010575269538310344, 'epoch': 1.49}
{'loss': 0.5278, 'learning_rate': 0.0001055209727959559, 'epoch': 1.49}
{'loss': 0.4999, 'learning_rate': 0.00010528922046925329, 'epoch': 1.5}
{'loss': 0.4398, 'learning_rate': 0.00010505743965136465, 'epoch': 1.5}
{'loss': 0.4904, 'learning_rate': 0.00010482563159081238, 'epoch': 1.5}
{'loss': 0.4297, 'learning_rate': 0.00010459379753626562, 'epoch': 1.5}
{'loss': 0.4664, 'learning_rate': 0.00010436193873653361, 'epoch': 1.5}
{'loss': 0.4149, 'learning_rate': 0.00010413005644055884, 'epoch': 1.51}
{'loss': 0.3763, 'learning_rate': 0.00010389815189741037, 'epoch': 1.51}
{'loss': 0.4217, 'learning_rate': 0.00010366622635627707, 'epoch': 1.51}
{'loss': 0.3979, 'learning_rate': 0.00010343428106646103, 'epoch': 1.51}
{'loss': 0.4513, 'learning_rate': 0.00010320231727737055, 'epoch': 1.52}
{'loss': 0.5034, 'learning_rate': 0.00010297033623851369, 'epoch': 1.52}
{'loss': 0.416, 'learning_rate': 0.00010273833919949139, 'epoch': 1.52}
{'loss': 0.4079, 'learning_rate': 0.00010250632740999084, 'epoch': 1.52}
{'loss': 0.401, 'learning_rate': 0.00010227430211977858, 'epoch': 1.52}
{'loss': 0.4494, 'learning_rate': 0.00010204226457869395, 'epoch': 1.53}
{'loss': 0.4173, 'learning_rate': 0.00010181021603664229, 'epoch': 1.53}
{'loss': 0.4752, 'learning_rate': 0.00010157815774358817, 'epoch': 1.53}
{'loss': 0.4122, 'learning_rate': 0.00010134609094954861, 'epoch': 1.53}
{'loss': 0.4424, 'learning_rate': 0.00010111401690458654, 'epoch': 1.53}
{'loss': 0.4389, 'learning_rate': 0.00010088193685880398, 'epoch': 1.54}
{'loss': 0.4184, 'learning_rate': 0.00010064985206233508, 'epoch': 1.54}
{'loss': 0.412, 'learning_rate': 0.00010041776376533978, 'epoch': 1.54}
{'loss': 0.5035, 'learning_rate': 0.00010018567321799676, 'epoch': 1.54}
{'loss': 0.4337, 'learning_rate': 9.995358167049687e-05, 'epoch': 1.55}
{'loss': 0.4057, 'learning_rate': 9.972149037303634e-05, 'epoch': 1.55}
{'loss': 0.3933, 'learning_rate': 9.948940057581003e-05, 'epoch': 1.55}
{'loss': 0.4312, 'learning_rate': 9.925731352900478e-05, 'epoch': 1.55}
{'loss': 0.3861, 'learning_rate': 9.902523048279251e-05, 'epoch': 1.55}
{'loss': 0.4244, 'learning_rate': 9.879315268732366e-05, 'epoch': 1.56}
{'loss': 0.3918, 'learning_rate': 9.856108139272044e-05, 'epoch': 1.56}
{'loss': 0.482, 'learning_rate': 9.83290178490699e-05, 'epoch': 1.56}
{'loss': 0.3652, 'learning_rate': 9.80969633064175e-05, 'epoch': 1.56}
{'loss': 0.45, 'learning_rate': 9.786491901476005e-05, 'epoch': 1.56}
{'loss': 0.4114, 'learning_rate': 9.76328862240393e-05, 'epoch': 1.57}
{'loss': 0.4622, 'learning_rate': 9.740086618413495e-05, 'epoch': 1.57}
{'loss': 0.4038, 'learning_rate': 9.716886014485797e-05, 'epoch': 1.57}
{'loss': 0.4186, 'learning_rate': 9.693686935594412e-05, 'epoch': 1.57}
{'loss': 0.4116, 'learning_rate': 9.670489506704671e-05, 'epoch': 1.58}
{'loss': 0.4025, 'learning_rate': 9.647293852773046e-05, 'epoch': 1.58}
{'loss': 0.4711, 'learning_rate': 9.62410009874643e-05, 'epoch': 1.58}
{'loss': 0.4185, 'learning_rate': 9.60090836956149e-05, 'epoch': 1.58}
{'loss': 0.426, 'learning_rate': 9.577718790143981e-05, 'epoch': 1.58}
{'loss': 0.4161, 'learning_rate': 9.554531485408078e-05, 'epoch': 1.59}
{'loss': 0.3913, 'learning_rate': 9.531346580255712e-05, 'epoch': 1.59}
{'loss': 0.4481, 'learning_rate': 9.508164199575871e-05, 'epoch': 1.59}
{'loss': 0.4206, 'learning_rate': 9.484984468243965e-05, 'epoch': 1.59}
{'loss': 0.4906, 'learning_rate': 9.461807511121116e-05, 'epoch': 1.59}
{'loss': 0.4961, 'learning_rate': 9.438633453053516e-05, 'epoch': 1.6}
{'loss': 0.4257, 'learning_rate': 9.41546241887173e-05, 'epoch': 1.6}
{'loss': 0.4593, 'learning_rate': 9.392294533390031e-05, 'epoch': 1.6}
{'loss': 0.4229, 'learning_rate': 9.369129921405754e-05, 'epoch': 1.6}
{'loss': 0.4807, 'learning_rate': 9.345968707698569e-05, 'epoch': 1.61}
{'loss': 0.3972, 'learning_rate': 9.322811017029869e-05, 'epoch': 1.61}
{'loss': 0.4112, 'learning_rate': 9.299656974142051e-05, 'epoch': 1.61}
{'loss': 0.417, 'learning_rate': 9.276506703757875e-05, 'epoch': 1.61}
{'loss': 0.492, 'learning_rate': 9.253360330579768e-05, 'epoch': 1.61}
{'loss': 0.4218, 'learning_rate': 9.230217979289171e-05, 'epoch': 1.62}
{'loss': 0.4168, 'learning_rate': 9.207079774545863e-05, 'epoch': 1.62}
{'loss': 0.4339, 'learning_rate': 9.183945840987276e-05, 'epoch': 1.62}
{'loss': 0.4072, 'learning_rate': 9.160816303227852e-05, 'epoch': 1.62}
{'loss': 0.4269, 'learning_rate': 9.13769128585834e-05, 'epoch': 1.62}
{'loss': 0.4168, 'learning_rate': 9.114570913445145e-05, 'epoch': 1.63}
{'loss': 0.407, 'learning_rate': 9.091455310529649e-05, 'epoch': 1.63}
{'loss': 0.4145, 'learning_rate': 9.068344601627541e-05, 'epoch': 1.63}
{'loss': 0.4676, 'learning_rate': 9.045238911228155e-05, 'epoch': 1.63}
{'loss': 0.4588, 'learning_rate': 9.02213836379378e-05, 'epoch': 1.64}
{'loss': 0.3841, 'learning_rate': 8.999043083759017e-05, 'epoch': 1.64}
{'loss': 0.4401, 'learning_rate': 8.97595319553008e-05, 'epoch': 1.64}
{'loss': 0.4106, 'learning_rate': 8.952868823484149e-05, 'epoch': 1.64}
{'loss': 0.4539, 'learning_rate': 8.929790091968682e-05, 'epoch': 1.64}
{'loss': 0.4027, 'learning_rate': 8.906717125300755e-05, 'epoch': 1.65}
{'loss': 0.4772, 'learning_rate': 8.883650047766399e-05, 'epoch': 1.65}
{'loss': 0.3888, 'learning_rate': 8.860588983619908e-05, 'epoch': 1.65}
{'loss': 0.4653, 'learning_rate': 8.837534057083199e-05, 'epoch': 1.65}
{'loss': 0.4002, 'learning_rate': 8.814485392345118e-05, 'epoch': 1.65}
{'loss': 0.4842, 'learning_rate': 8.791443113560787e-05, 'epoch': 1.66}
{'loss': 0.4646, 'learning_rate': 8.768407344850922e-05, 'epoch': 1.66}
{'loss': 0.4209, 'learning_rate': 8.745378210301177e-05, 'epoch': 1.66}
{'loss': 0.4139, 'learning_rate': 8.722355833961467e-05, 'epoch': 1.66}
{'loss': 0.395, 'learning_rate': 8.699340339845303e-05, 'epoch': 1.67}
{'loss': 0.4351, 'learning_rate': 8.676331851929131e-05, 'epoch': 1.67}
{'loss': 0.419, 'learning_rate': 8.653330494151648e-05, 'epoch': 1.67}
{'loss': 0.4322, 'learning_rate': 8.630336390413147e-05, 'epoch': 1.67}
{'loss': 0.3867, 'learning_rate': 8.607349664574847e-05, 'epoch': 1.67}
{'loss': 0.4312, 'learning_rate': 8.584370440458219e-05, 'epoch': 1.68}
{'loss': 0.4644, 'learning_rate': 8.561398841844335e-05, 'epoch': 1.68}
{'loss': 0.4514, 'learning_rate': 8.538434992473178e-05, 'epoch': 1.68}
{'loss': 0.4706, 'learning_rate': 8.515479016043005e-05, 'epoch': 1.68}
{'loss': 0.4599, 'learning_rate': 8.492531036209654e-05, 'epoch': 1.68}
{'loss': 0.439, 'learning_rate': 8.46959117658588e-05, 'epoch': 1.69}
{'loss': 0.3843, 'learning_rate': 8.446659560740717e-05, 'epoch': 1.69}
{'loss': 0.4236, 'learning_rate': 8.423736312198776e-05, 'epoch': 1.69}
{'loss': 0.4164, 'learning_rate': 8.400821554439608e-05, 'epoch': 1.69}
{'loss': 0.4212, 'learning_rate': 8.377915410897013e-05, 'epoch': 1.7}
{'loss': 0.4653, 'learning_rate': 8.355018004958409e-05, 'epoch': 1.7}
{'loss': 0.4001, 'learning_rate': 8.332129459964131e-05, 'epoch': 1.7}
{'loss': 0.3839, 'learning_rate': 8.309249899206782e-05, 'epoch': 1.7}
{'loss': 0.4354, 'learning_rate': 8.286379445930587e-05, 'epoch': 1.7}
{'loss': 0.3925, 'learning_rate': 8.263518223330697e-05, 'epoch': 1.71}
{'loss': 0.4325, 'learning_rate': 8.240666354552547e-05, 'epoch': 1.71}
{'loss': 0.5067, 'learning_rate': 8.21782396269118e-05, 'epoch': 1.71}
{'loss': 0.4553, 'learning_rate': 8.194991170790604e-05, 'epoch': 1.71}
{'loss': 0.4392, 'learning_rate': 8.172168101843099e-05, 'epoch': 1.72}
{'loss': 0.3884, 'learning_rate': 8.149354878788575e-05, 'epoch': 1.72}
{'loss': 0.4213, 'learning_rate': 8.126551624513918e-05, 'epoch': 1.72}
{'loss': 0.466, 'learning_rate': 8.103758461852297e-05, 'epoch': 1.72}
{'loss': 0.4195, 'learning_rate': 8.080975513582539e-05, 'epoch': 1.72}
{'loss': 0.399, 'learning_rate': 8.058202902428431e-05, 'epoch': 1.73}
{'loss': 0.4407, 'learning_rate': 8.035440751058098e-05, 'epoch': 1.73}
{'loss': 0.3963, 'learning_rate': 8.012689182083305e-05, 'epoch': 1.73}
{'loss': 0.4293, 'learning_rate': 7.989948318058818e-05, 'epoch': 1.73}
{'loss': 0.4185, 'learning_rate': 7.967218281481745e-05, 'epoch': 1.73}
{'loss': 0.3931, 'learning_rate': 7.944499194790863e-05, 'epoch': 1.74}
{'loss': 0.4118, 'learning_rate': 7.921791180365971e-05, 'epoch': 1.74}
{'loss': 0.3961, 'learning_rate': 7.89909436052722e-05, 'epoch': 1.74}
{'loss': 0.3997, 'learning_rate': 7.87640885753447e-05, 'epoch': 1.74}
{'loss': 0.3862, 'learning_rate': 7.85373479358661e-05, 'epoch': 1.75}
{'loss': 0.55, 'learning_rate': 7.831072290820907e-05, 'epoch': 1.75}
{'loss': 0.4214, 'learning_rate': 7.808421471312372e-05, 'epoch': 1.75}
{'loss': 0.428, 'learning_rate': 7.785782457073066e-05, 'epoch': 1.75}
{'loss': 0.4516, 'learning_rate': 7.763155370051465e-05, 'epoch': 1.75}
{'loss': 0.4528, 'learning_rate': 7.740540332131791e-05, 'epoch': 1.76}
{'loss': 0.4378, 'learning_rate': 7.717937465133371e-05, 'epoch': 1.76}
{'loss': 0.3674, 'learning_rate': 7.695346890809965e-05, 'epoch': 1.76}
{'loss': 0.4419, 'learning_rate': 7.672768730849115e-05, 'epoch': 1.76}
{'loss': 0.4741, 'learning_rate': 7.650203106871502e-05, 'epoch': 1.76}
{'loss': 0.45, 'learning_rate': 7.627650140430267e-05, 'epoch': 1.77}
{'loss': 0.4804, 'learning_rate': 7.605109953010378e-05, 'epoch': 1.77}
{'loss': 0.3624, 'learning_rate': 7.582582666027962e-05, 'epoch': 1.77}
{'loss': 0.4839, 'learning_rate': 7.56006840082966e-05, 'epoch': 1.77}
{'loss': 0.3906, 'learning_rate': 7.537567278691964e-05, 'epoch': 1.78}
{'loss': 0.5162, 'learning_rate': 7.515079420820571e-05, 'epoch': 1.78}
{'loss': 0.4015, 'learning_rate': 7.492604948349733e-05, 'epoch': 1.78}
{'loss': 0.3913, 'learning_rate': 7.470143982341593e-05, 'epoch': 1.78}
{'loss': 0.4311, 'learning_rate': 7.447696643785543e-05, 'epoch': 1.78}
{'loss': 0.4944, 'learning_rate': 7.425263053597563e-05, 'epoch': 1.79}
{'loss': 0.39, 'learning_rate': 7.402843332619585e-05, 'epoch': 1.79}
{'loss': 0.3824, 'learning_rate': 7.380437601618827e-05, 'epoch': 1.79}
{'loss': 0.44, 'learning_rate': 7.358045981287141e-05, 'epoch': 1.79}
{'loss': 0.4546, 'learning_rate': 7.335668592240383e-05, 'epoch': 1.79}
{'loss': 0.491, 'learning_rate': 7.313305555017745e-05, 'epoch': 1.8}
{'loss': 0.3824, 'learning_rate': 7.290956990081106e-05, 'epoch': 1.8}
{'loss': 0.4025, 'learning_rate': 7.268623017814391e-05, 'epoch': 1.8}
{'loss': 0.426, 'learning_rate': 7.246303758522923e-05, 'epoch': 1.8}
{'loss': 0.4543, 'learning_rate': 7.223999332432764e-05, 'epoch': 1.81}
{'loss': 0.4422, 'learning_rate': 7.20170985969008e-05, 'epoch': 1.81}
{'loss': 0.4366, 'learning_rate': 7.179435460360491e-05, 'epoch': 1.81}
{'loss': 0.5077, 'learning_rate': 7.157176254428411e-05, 'epoch': 1.81}
{'loss': 0.4336, 'learning_rate': 7.134932361796428e-05, 'epoch': 1.81}
{'loss': 0.392, 'learning_rate': 7.112703902284627e-05, 'epoch': 1.82}
{'loss': 0.4809, 'learning_rate': 7.090490995629972e-05, 'epoch': 1.82}
{'loss': 0.4432, 'learning_rate': 7.068293761485643e-05, 'epoch': 1.82}
{'loss': 0.4457, 'learning_rate': 7.046112319420394e-05, 'epoch': 1.82}
{'loss': 0.4191, 'learning_rate': 7.02394678891793e-05, 'epoch': 1.82}
{'loss': 0.4503, 'learning_rate': 7.001797289376218e-05, 'epoch': 1.83}
{'loss': 0.4904, 'learning_rate': 6.9796639401069e-05, 'epoch': 1.83}
{'loss': 0.4126, 'learning_rate': 6.957546860334604e-05, 'epoch': 1.83}
{'loss': 0.4067, 'learning_rate': 6.935446169196328e-05, 'epoch': 1.83}
{'loss': 0.3978, 'learning_rate': 6.913361985740788e-05, 'epoch': 1.84}
{'loss': 0.4964, 'learning_rate': 6.891294428927769e-05, 'epoch': 1.84}
{'loss': 0.4521, 'learning_rate': 6.86924361762752e-05, 'epoch': 1.84}
{'loss': 0.3782, 'learning_rate': 6.847209670620056e-05, 'epoch': 1.84}
{'loss': 0.4121, 'learning_rate': 6.825192706594575e-05, 'epoch': 1.84}
{'loss': 0.4414, 'learning_rate': 6.803192844148781e-05, 'epoch': 1.85}
{'loss': 0.3925, 'learning_rate': 6.781210201788259e-05, 'epoch': 1.85}
{'loss': 0.4449, 'learning_rate': 6.759244897925841e-05, 'epoch': 1.85}
{'loss': 0.4956, 'learning_rate': 6.737297050880951e-05, 'epoch': 1.85}
{'loss': 0.4101, 'learning_rate': 6.715366778878999e-05, 'epoch': 1.85}
{'loss': 0.4805, 'learning_rate': 6.693454200050697e-05, 'epoch': 1.86}
{'loss': 0.4881, 'learning_rate': 6.671559432431478e-05, 'epoch': 1.86}
{'loss': 0.4239, 'learning_rate': 6.649682593960814e-05, 'epoch': 1.86}
{'loss': 0.4205, 'learning_rate': 6.627823802481605e-05, 'epoch': 1.86}
{'loss': 0.41, 'learning_rate': 6.605983175739538e-05, 'epoch': 1.87}
{'loss': 0.4503, 'learning_rate': 6.584160831382449e-05, 'epoch': 1.87}
{'loss': 0.3963, 'learning_rate': 6.562356886959704e-05, 'epoch': 1.87}
{'loss': 0.4806, 'learning_rate': 6.540571459921537e-05, 'epoch': 1.87}
{'loss': 0.4847, 'learning_rate': 6.518804667618456e-05, 'epoch': 1.87}
{'loss': 0.432, 'learning_rate': 6.497056627300575e-05, 'epoch': 1.88}
{'loss': 0.398, 'learning_rate': 6.475327456117005e-05, 'epoch': 1.88}
{'loss': 0.4777, 'learning_rate': 6.453617271115212e-05, 'epoch': 1.88}
{'loss': 0.4253, 'learning_rate': 6.431926189240389e-05, 'epoch': 1.88}
{'loss': 0.4349, 'learning_rate': 6.410254327334834e-05, 'epoch': 1.88}
{'loss': 0.4523, 'learning_rate': 6.388601802137301e-05, 'epoch': 1.89}
{'loss': 0.478, 'learning_rate': 6.366968730282403e-05, 'epoch': 1.89}
{'loss': 0.4155, 'learning_rate': 6.345355228299945e-05, 'epoch': 1.89}
{'loss': 0.4309, 'learning_rate': 6.323761412614331e-05, 'epoch': 1.89}
{'loss': 0.4269, 'learning_rate': 6.302187399543911e-05, 'epoch': 1.9}
{'loss': 0.3837, 'learning_rate': 6.280633305300368e-05, 'epoch': 1.9}
{'loss': 0.44, 'learning_rate': 6.259099245988096e-05, 'epoch': 1.9}
{'loss': 0.424, 'learning_rate': 6.237585337603557e-05, 'epoch': 1.9}
{'loss': 0.4741, 'learning_rate': 6.216091696034678e-05, 'epoch': 1.9}
{'loss': 0.3738, 'learning_rate': 6.194618437060207e-05, 'epoch': 1.91}
{'loss': 0.4634, 'learning_rate': 6.173165676349103e-05, 'epoch': 1.91}
{'loss': 0.4311, 'learning_rate': 6.151733529459907e-05, 'epoch': 1.91}
{'loss': 0.4044, 'learning_rate': 6.130322111840114e-05, 'epoch': 1.91}
{'loss': 0.3717, 'learning_rate': 6.108931538825572e-05, 'epoch': 1.91}
{'loss': 0.3923, 'learning_rate': 6.0875619256398305e-05, 'epoch': 1.92}
{'loss': 0.4014, 'learning_rate': 6.0662133873935486e-05, 'epoch': 1.92}
{'loss': 0.4179, 'learning_rate': 6.0448860390838546e-05, 'epoch': 1.92}
{'loss': 0.4499, 'learning_rate': 6.023579995593736e-05, 'epoch': 1.92}
{'loss': 0.3996, 'learning_rate': 6.002295371691421e-05, 'epoch': 1.93}
{'loss': 0.4376, 'learning_rate': 5.98103228202975e-05, 'epoch': 1.93}
{'loss': 0.4602, 'learning_rate': 5.959790841145577e-05, 'epoch': 1.93}
{'loss': 0.4041, 'learning_rate': 5.9385711634591304e-05, 'epoch': 1.93}
{'loss': 0.3926, 'learning_rate': 5.917373363273421e-05, 'epoch': 1.93}
{'loss': 0.3803, 'learning_rate': 5.896197554773599e-05, 'epoch': 1.94}
{'loss': 0.4004, 'learning_rate': 5.875043852026367e-05, 'epoch': 1.94}
{'loss': 0.3651, 'learning_rate': 5.853912368979338e-05, 'epoch': 1.94}
{'loss': 0.4611, 'learning_rate': 5.832803219460441e-05, 'epoch': 1.94}
{'loss': 0.4441, 'learning_rate': 5.81171651717731e-05, 'epoch': 1.94}
{'loss': 0.5468, 'learning_rate': 5.790652375716652e-05, 'epoch': 1.95}
{'loss': 0.4537, 'learning_rate': 5.76961090854365e-05, 'epoch': 1.95}
{'loss': 0.4169, 'learning_rate': 5.748592229001346e-05, 'epoch': 1.95}
{'loss': 0.4234, 'learning_rate': 5.7275964503100464e-05, 'epoch': 1.95}
{'loss': 0.4847, 'learning_rate': 5.706623685566683e-05, 'epoch': 1.96}
{'loss': 0.3636, 'learning_rate': 5.6856740477442206e-05, 'epoch': 1.96}
{'loss': 0.3955, 'learning_rate': 5.664747649691062e-05, 'epoch': 1.96}
{'loss': 0.4168, 'learning_rate': 5.64384460413041e-05, 'epoch': 1.96}
{'loss': 0.3842, 'learning_rate': 5.622965023659683e-05, 'epoch': 1.96}
{'loss': 0.4067, 'learning_rate': 5.6021090207498926e-05, 'epoch': 1.97}
{'loss': 0.414, 'learning_rate': 5.5812767077450624e-05, 'epoch': 1.97}
{'loss': 0.4693, 'learning_rate': 5.560468196861595e-05, 'epoch': 1.97}
{'loss': 0.4226, 'learning_rate': 5.539683600187675e-05, 'epoch': 1.97}
{'loss': 0.4592, 'learning_rate': 5.518923029682685e-05, 'epoch': 1.98}
{'loss': 0.4056, 'learning_rate': 5.4981865971765746e-05, 'epoch': 1.98}
{'loss': 0.4049, 'learning_rate': 5.477474414369274e-05, 'epoch': 1.98}
{'loss': 0.4209, 'learning_rate': 5.456786592830083e-05, 'epoch': 1.98}
{'loss': 0.5001, 'learning_rate': 5.436123243997092e-05, 'epoch': 1.98}
{'loss': 0.4059, 'learning_rate': 5.415484479176549e-05, 'epoch': 1.99}
{'loss': 0.4615, 'learning_rate': 5.394870409542281e-05, 'epoch': 1.99}
{'loss': 0.3896, 'learning_rate': 5.374281146135096e-05, 'epoch': 1.99}
{'loss': 0.3802, 'learning_rate': 5.353716799862174e-05, 'epoch': 1.99}
{'loss': 0.4453, 'learning_rate': 5.3331774814964766e-05, 'epoch': 1.99}
{'loss': 0.4516, 'learning_rate': 5.312663301676144e-05, 'epoch': 2.0}
{'loss': 0.4039, 'learning_rate': 5.292174370903919e-05, 'epoch': 2.0}
{'loss': 0.4126, 'learning_rate': 5.271710799546519e-05, 'epoch': 2.0}
{'loss': 0.3899, 'learning_rate': 5.251272697834063e-05, 'epoch': 2.0}
{'loss': 0.393, 'learning_rate': 5.2308601758594866e-05, 'epoch': 2.01}
{'loss': 0.4398, 'learning_rate': 5.210473343577922e-05, 'epoch': 2.01}
{'loss': 0.4205, 'learning_rate': 5.190112310806126e-05, 'epoch': 2.01}
{'loss': 0.4243, 'learning_rate': 5.169777187221876e-05, 'epoch': 2.01}
{'loss': 0.4664, 'learning_rate': 5.149468082363398e-05, 'epoch': 2.01}
{'loss': 0.3692, 'learning_rate': 5.129185105628756e-05, 'epoch': 2.02}
{'loss': 0.4261, 'learning_rate': 5.1089283662752655e-05, 'epoch': 2.02}
{'loss': 0.4132, 'learning_rate': 5.08869797341893e-05, 'epoch': 2.02}
{'loss': 0.4566, 'learning_rate': 5.068494036033804e-05, 'epoch': 2.02}
{'loss': 0.3788, 'learning_rate': 5.0483166629514654e-05, 'epoch': 2.02}
{'loss': 0.4156, 'learning_rate': 5.028165962860378e-05, 'epoch': 2.03}
{'loss': 0.4363, 'learning_rate': 5.008042044305341e-05, 'epoch': 2.03}
{'loss': 0.4119, 'learning_rate': 4.9879450156868854e-05, 'epoch': 2.03}
{'loss': 0.3934, 'learning_rate': 4.96787498526069e-05, 'epoch': 2.03}
{'loss': 0.4235, 'learning_rate': 4.94783206113702e-05, 'epoch': 2.04}
{'loss': 0.4065, 'learning_rate': 4.9278163512801035e-05, 'epoch': 2.04}
{'loss': 0.4473, 'learning_rate': 4.9078279635076007e-05, 'epoch': 2.04}
{'loss': 0.4492, 'learning_rate': 4.887867005489978e-05, 'epoch': 2.04}
{'loss': 0.4238, 'learning_rate': 4.867933584749961e-05, 'epoch': 2.04}
{'loss': 0.4453, 'learning_rate': 4.8480278086619335e-05, 'epoch': 2.05}
{'loss': 0.4135, 'learning_rate': 4.828149784451365e-05, 'epoch': 2.05}
{'loss': 0.4659, 'learning_rate': 4.808299619194251e-05, 'epoch': 2.05}
{'loss': 0.4053, 'learning_rate': 4.7884774198164925e-05, 'epoch': 2.05}
{'loss': 0.374, 'learning_rate': 4.7686832930933776e-05, 'epoch': 2.05}
{'loss': 0.4073, 'learning_rate': 4.748917345648957e-05, 'epoch': 2.06}
{'loss': 0.4407, 'learning_rate': 4.729179683955501e-05, 'epoch': 2.06}
{'loss': 0.4041, 'learning_rate': 4.709470414332908e-05, 'epoch': 2.06}
{'loss': 0.4245, 'learning_rate': 4.68978964294814e-05, 'epoch': 2.06}
{'loss': 0.4382, 'learning_rate': 4.670137475814648e-05, 'epoch': 2.07}
{'loss': 0.3912, 'learning_rate': 4.650514018791799e-05, 'epoch': 2.07}
{'loss': 0.4086, 'learning_rate': 4.6309193775843204e-05, 'epoch': 2.07}
{'loss': 0.4571, 'learning_rate': 4.611353657741704e-05, 'epoch': 2.07}
{'loss': 0.4047, 'learning_rate': 4.591816964657665e-05, 'epoch': 2.07}
{'loss': 0.3818, 'learning_rate': 4.5723094035695527e-05, 'epoch': 2.08}
{'loss': 0.4008, 'learning_rate': 4.5528310795577955e-05, 'epoch': 2.08}
{'loss': 0.4434, 'learning_rate': 4.533382097545331e-05, 'epoch': 2.08}
{'loss': 0.3651, 'learning_rate': 4.5139625622970404e-05, 'epoch': 2.08}
{'loss': 0.4492, 'learning_rate': 4.494572578419194e-05, 'epoch': 2.08}
{'loss': 0.445, 'learning_rate': 4.4752122503588655e-05, 'epoch': 2.09}
{'loss': 0.3877, 'learning_rate': 4.455881682403398e-05, 'epoch': 2.09}
{'loss': 0.3825, 'learning_rate': 4.4365809786798164e-05, 'epoch': 2.09}
{'loss': 0.4216, 'learning_rate': 4.417310243154279e-05, 'epoch': 2.09}
{'loss': 0.405, 'learning_rate': 4.3980695796315186e-05, 'epoch': 2.1}
{'loss': 0.4234, 'learning_rate': 4.378859091754275e-05, 'epoch': 2.1}
{'loss': 0.4223, 'learning_rate': 4.359678883002756e-05, 'epoch': 2.1}
{'loss': 0.3914, 'learning_rate': 4.340529056694047e-05, 'epoch': 2.1}
{'loss': 0.4149, 'learning_rate': 4.3214097159815936e-05, 'epoch': 2.1}
{'loss': 0.4419, 'learning_rate': 4.3023209638546124e-05, 'epoch': 2.11}
{'loss': 0.4214, 'learning_rate': 4.283262903137552e-05, 'epoch': 2.11}
{'loss': 0.4033, 'learning_rate': 4.264235636489542e-05, 'epoch': 2.11}
{'loss': 0.4849, 'learning_rate': 4.245239266403827e-05, 'epoch': 2.11}
{'loss': 0.4831, 'learning_rate': 4.2262738952072346e-05, 'epoch': 2.11}
{'loss': 0.3858, 'learning_rate': 4.2073396250595977e-05, 'epoch': 2.12}
{'loss': 0.4586, 'learning_rate': 4.1884365579532346e-05, 'epoch': 2.12}
{'loss': 0.3865, 'learning_rate': 4.1695647957123727e-05, 'epoch': 2.12}
{'loss': 0.421, 'learning_rate': 4.150724439992611e-05, 'epoch': 2.12}
{'loss': 0.4167, 'learning_rate': 4.1319155922803784e-05, 'epoch': 2.13}
{'loss': 0.3921, 'learning_rate': 4.113138353892373e-05, 'epoch': 2.13}
{'loss': 0.3915, 'learning_rate': 4.0943928259750354e-05, 'epoch': 2.13}
{'loss': 0.428, 'learning_rate': 4.075679109503981e-05, 'epoch': 2.13}
{'loss': 0.44, 'learning_rate': 4.056997305283482e-05, 'epoch': 2.13}
{'loss': 0.4001, 'learning_rate': 4.038347513945898e-05, 'epoch': 2.14}
{'loss': 0.4442, 'learning_rate': 4.0197298359511517e-05, 'epoch': 2.14}
{'loss': 0.3787, 'learning_rate': 4.001144371586181e-05, 'epoch': 2.14}
{'loss': 0.4108, 'learning_rate': 3.9825912209643955e-05, 'epoch': 2.14}
{'loss': 0.4048, 'learning_rate': 3.9640704840251573e-05, 'epoch': 2.14}
{'loss': 0.3905, 'learning_rate': 3.945582260533214e-05, 'epoch': 2.15}
{'loss': 0.3952, 'learning_rate': 3.927126650078171e-05, 'epoch': 2.15}
{'loss': 0.4443, 'learning_rate': 3.9087037520739744e-05, 'epoch': 2.15}
{'loss': 0.4647, 'learning_rate': 3.890313665758348e-05, 'epoch': 2.15}
{'loss': 0.3847, 'learning_rate': 3.871956490192273e-05, 'epoch': 2.16}
{'loss': 0.442, 'learning_rate': 3.853632324259447e-05, 'epoch': 2.16}
{'loss': 0.3976, 'learning_rate': 3.8353412666657705e-05, 'epoch': 2.16}
{'loss': 0.341, 'learning_rate': 3.817083415938788e-05, 'epoch': 2.16}
{'loss': 0.3836, 'learning_rate': 3.79885887042717e-05, 'epoch': 2.16}
{'loss': 0.3832, 'learning_rate': 3.7806677283001936e-05, 'epoch': 2.17}
{'loss': 0.4769, 'learning_rate': 3.762510087547195e-05, 'epoch': 2.17}
{'loss': 0.4113, 'learning_rate': 3.744386045977052e-05, 'epoch': 2.17}
{'loss': 0.4131, 'learning_rate': 3.726295701217653e-05, 'epoch': 2.17}
{'loss': 0.4213, 'learning_rate': 3.7082391507153826e-05, 'epoch': 2.17}
{'loss': 0.4285, 'learning_rate': 3.6902164917345784e-05, 'epoch': 2.18}
{'loss': 0.4764, 'learning_rate': 3.672227821357014e-05, 'epoch': 2.18}
{'loss': 0.4275, 'learning_rate': 3.654273236481391e-05, 'epoch': 2.18}
{'loss': 0.3893, 'learning_rate': 3.636352833822795e-05, 'epoch': 2.18}
{'loss': 0.4295, 'learning_rate': 3.6184667099121824e-05, 'epoch': 2.19}
{'loss': 0.4135, 'learning_rate': 3.6006149610958625e-05, 'epoch': 2.19}
{'loss': 0.3995, 'learning_rate': 3.5827976835349894e-05, 'epoch': 2.19}
{'loss': 0.394, 'learning_rate': 3.5650149732050176e-05, 'epoch': 2.19}
{'loss': 0.478, 'learning_rate': 3.547266925895203e-05, 'epoch': 2.19}
{'loss': 0.4099, 'learning_rate': 3.529553637208094e-05, 'epoch': 2.2}
{'loss': 0.4595, 'learning_rate': 3.5118752025589965e-05, 'epoch': 2.2}
{'loss': 0.4566, 'learning_rate': 3.4942317171754726e-05, 'epoch': 2.2}
{'loss': 0.5106, 'learning_rate': 3.47662327609682e-05, 'epoch': 2.2}
{'loss': 0.3996, 'learning_rate': 3.459049974173579e-05, 'epoch': 2.21}
{'loss': 0.3878, 'learning_rate': 3.4415119060669935e-05, 'epoch': 2.21}
{'loss': 0.3908, 'learning_rate': 3.424009166248516e-05, 'epoch': 2.21}
{'loss': 0.4569, 'learning_rate': 3.406541848999312e-05, 'epoch': 2.21}
{'loss': 0.4484, 'learning_rate': 3.38911004840972e-05, 'epoch': 2.21}
{'loss': 0.4505, 'learning_rate': 3.3717138583787745e-05, 'epoch': 2.22}
{'loss': 0.42, 'learning_rate': 3.354353372613678e-05, 'epoch': 2.22}
{'loss': 0.4138, 'learning_rate': 3.3370286846293206e-05, 'epoch': 2.22}
{'loss': 0.4, 'learning_rate': 3.319739887747752e-05, 'epoch': 2.22}
{'loss': 0.4152, 'learning_rate': 3.302487075097688e-05, 'epoch': 2.22}
{'loss': 0.443, 'learning_rate': 3.285270339614019e-05, 'epoch': 2.23}
{'loss': 0.4395, 'learning_rate': 3.268089774037293e-05, 'epoch': 2.23}
{'loss': 0.4016, 'learning_rate': 3.2509454709132235e-05, 'epoch': 2.23}
{'loss': 0.392, 'learning_rate': 3.23383752259219e-05, 'epoch': 2.23}
{'loss': 0.4178, 'learning_rate': 3.216766021228751e-05, 'epoch': 2.24}
{'loss': 0.4639, 'learning_rate': 3.199731058781127e-05, 'epoch': 2.24}
{'loss': 0.4097, 'learning_rate': 3.182732727010715e-05, 'epoch': 2.24}
{'loss': 0.4306, 'learning_rate': 3.1657711174816084e-05, 'epoch': 2.24}
{'loss': 0.42, 'learning_rate': 3.148846321560079e-05, 'epoch': 2.24}
{'loss': 0.4796, 'learning_rate': 3.1319584304141004e-05, 'epoch': 2.25}
{'loss': 0.367, 'learning_rate': 3.115107535012848e-05, 'epoch': 2.25}
{'loss': 0.3801, 'learning_rate': 3.0982937261262256e-05, 'epoch': 2.25}
{'loss': 0.4389, 'learning_rate': 3.0815170943243544e-05, 'epoch': 2.25}
{'loss': 0.4273, 'learning_rate': 3.0647777299770976e-05, 'epoch': 2.25}
{'loss': 0.4121, 'learning_rate': 3.0480757232535772e-05, 'epoch': 2.26}
{'loss': 0.3995, 'learning_rate': 3.031411164121677e-05, 'epoch': 2.26}
{'loss': 0.4396, 'learning_rate': 3.0147841423475652e-05, 'epoch': 2.26}
{'loss': 0.4514, 'learning_rate': 2.9981947474952065e-05, 'epoch': 2.26}
{'loss': 0.4156, 'learning_rate': 2.9816430689258902e-05, 'epoch': 2.27}
{'loss': 0.4064, 'learning_rate': 2.9651291957977344e-05, 'epoch': 2.27}
{'loss': 0.4196, 'learning_rate': 2.9486532170652125e-05, 'epoch': 2.27}
{'loss': 0.4372, 'learning_rate': 2.9322152214786834e-05, 'epoch': 2.27}
{'loss': 0.4355, 'learning_rate': 2.915815297583886e-05, 'epoch': 2.27}
{'loss': 0.4073, 'learning_rate': 2.8994535337214978e-05, 'epoch': 2.28}
{'loss': 0.373, 'learning_rate': 2.8831300180266307e-05, 'epoch': 2.28}
{'loss': 0.4373, 'learning_rate': 2.8668448384283764e-05, 'epoch': 2.28}
{'loss': 0.4166, 'learning_rate': 2.850598082649314e-05, 'epoch': 2.28}
{'loss': 0.3999, 'learning_rate': 2.8343898382050493e-05, 'epoch': 2.28}
{'loss': 0.4001, 'learning_rate': 2.818220192403751e-05, 'epoch': 2.29}
{'loss': 0.3927, 'learning_rate': 2.8020892323456495e-05, 'epoch': 2.29}
{'loss': 0.4258, 'learning_rate': 2.7859970449226104e-05, 'epoch': 2.29}
{'loss': 0.4774, 'learning_rate': 2.769943716817629e-05, 'epoch': 2.29}
{'loss': 0.3743, 'learning_rate': 2.7539293345043926e-05, 'epoch': 2.3}
{'loss': 0.4946, 'learning_rate': 2.737953984246788e-05, 'epoch': 2.3}
{'loss': 0.4421, 'learning_rate': 2.722017752098456e-05, 'epoch': 2.3}
{'loss': 0.4262, 'learning_rate': 2.706120723902328e-05, 'epoch': 2.3}
{'loss': 0.3991, 'learning_rate': 2.6902629852901396e-05, 'epoch': 2.3}
{'loss': 0.4187, 'learning_rate': 2.6744446216820085e-05, 'epoch': 2.31}
{'loss': 0.6102, 'learning_rate': 2.6586657182859343e-05, 'epoch': 2.31}
{'loss': 0.4208, 'learning_rate': 2.6429263600973752e-05, 'epoch': 2.31}
{'loss': 0.3988, 'learning_rate': 2.6272266318987603e-05, 'epoch': 2.31}
{'loss': 0.4289, 'learning_rate': 2.6115666182590513e-05, 'epoch': 2.31}
{'loss': 0.3714, 'learning_rate': 2.5959464035332793e-05, 'epoch': 2.32}
{'loss': 0.3697, 'learning_rate': 2.5803660718620915e-05, 'epoch': 2.32}
{'loss': 0.4266, 'learning_rate': 2.5648257071713054e-05, 'epoch': 2.32}
{'loss': 0.4506, 'learning_rate': 2.5493253931714423e-05, 'epoch': 2.32}
{'loss': 0.4956, 'learning_rate': 2.5338652133572915e-05, 'epoch': 2.33}
{'loss': 0.3853, 'learning_rate': 2.5184452510074487e-05, 'epoch': 2.33}
{'loss': 0.3833, 'learning_rate': 2.5030655891838728e-05, 'epoch': 2.33}
{'loss': 0.5404, 'learning_rate': 2.4877263107314387e-05, 'epoch': 2.33}
{'loss': 0.4496, 'learning_rate': 2.4724274982774865e-05, 'epoch': 2.33}
{'loss': 0.4596, 'learning_rate': 2.45716923423139e-05, 'epoch': 2.34}
{'loss': 0.4018, 'learning_rate': 2.4419516007840902e-05, 'epoch': 2.34}
{'loss': 0.3752, 'learning_rate': 2.4267746799076775e-05, 'epoch': 2.34}
{'loss': 0.4052, 'learning_rate': 2.411638553354928e-05, 'epoch': 2.34}
{'loss': 0.3502, 'learning_rate': 2.396543302658878e-05, 'epoch': 2.34}
{'loss': 0.4205, 'learning_rate': 2.3814890091323773e-05, 'epoch': 2.35}
{'loss': 0.4002, 'learning_rate': 2.366475753867653e-05, 'epoch': 2.35}
{'loss': 0.4062, 'learning_rate': 2.3515036177358805e-05, 'epoch': 2.35}
{'loss': 0.4136, 'learning_rate': 2.3365726813867304e-05, 'epoch': 2.35}
{'loss': 0.4098, 'learning_rate': 2.321683025247955e-05, 'epoch': 2.36}
{'loss': 0.4276, 'learning_rate': 2.306834729524937e-05, 'epoch': 2.36}
{'loss': 0.4472, 'learning_rate': 2.2920278742002676e-05, 'epoch': 2.36}
{'loss': 0.4514, 'learning_rate': 2.2772625390333112e-05, 'epoch': 2.36}
{'loss': 0.4713, 'learning_rate': 2.262538803559776e-05, 'epoch': 2.36}
{'loss': 0.4356, 'learning_rate': 2.247856747091298e-05, 'epoch': 2.37}
{'loss': 0.4542, 'learning_rate': 2.2332164487149865e-05, 'epoch': 2.37}
{'loss': 0.3949, 'learning_rate': 2.2186179872930312e-05, 'epoch': 2.37}
{'loss': 0.4063, 'learning_rate': 2.2040614414622484e-05, 'epoch': 2.37}
{'loss': 0.384, 'learning_rate': 2.1895468896336756e-05, 'epoch': 2.37}
{'loss': 0.3649, 'learning_rate': 2.1750744099921396e-05, 'epoch': 2.38}
{'loss': 0.3986, 'learning_rate': 2.1606440804958384e-05, 'epoch': 2.38}
{'loss': 0.4438, 'learning_rate': 2.1462559788759308e-05, 'epoch': 2.38}
{'loss': 0.3993, 'learning_rate': 2.1319101826360976e-05, 'epoch': 2.38}
{'loss': 0.4839, 'learning_rate': 2.117606769052144e-05, 'epoch': 2.39}
{'loss': 0.3867, 'learning_rate': 2.103345815171569e-05, 'epoch': 2.39}
{'loss': 0.3712, 'learning_rate': 2.0891273978131574e-05, 'epoch': 2.39}
{'loss': 0.4479, 'learning_rate': 2.0749515935665654e-05, 'epoch': 2.39}
{'loss': 0.4309, 'learning_rate': 2.0608184787919026e-05, 'epoch': 2.39}
{'loss': 0.3845, 'learning_rate': 2.0467281296193362e-05, 'epoch': 2.4}
{'loss': 0.4529, 'learning_rate': 2.0326806219486572e-05, 'epoch': 2.4}
{'loss': 0.4166, 'learning_rate': 2.0186760314488963e-05, 'epoch': 2.4}
{'loss': 0.3636, 'learning_rate': 2.004714433557895e-05, 'epoch': 2.4}
{'loss': 0.3857, 'learning_rate': 1.9907959034819123e-05, 'epoch': 2.4}
{'loss': 0.3985, 'learning_rate': 1.9769205161952165e-05, 'epoch': 2.41}
{'loss': 0.455, 'learning_rate': 1.9630883464396766e-05, 'epoch': 2.41}
{'loss': 0.3812, 'learning_rate': 1.9492994687243714e-05, 'epoch': 2.41}
{'loss': 0.3894, 'learning_rate': 1.9355539573251734e-05, 'epoch': 2.41}
{'loss': 0.4165, 'learning_rate': 1.9218518862843625e-05, 'epoch': 2.42}
{'loss': 0.4027, 'learning_rate': 1.908193329410215e-05, 'epoch': 2.42}
{'loss': 0.4068, 'learning_rate': 1.8945783602766122e-05, 'epoch': 2.42}
{'loss': 0.4369, 'learning_rate': 1.8810070522226454e-05, 'epoch': 2.42}
{'loss': 0.4123, 'learning_rate': 1.8674794783522166e-05, 'epoch': 2.42}
{'loss': 0.4465, 'learning_rate': 1.8539957115336513e-05, 'epoch': 2.43}
{'loss': 0.3839, 'learning_rate': 1.840555824399296e-05, 'epoch': 2.43}
{'loss': 0.3748, 'learning_rate': 1.8271598893451404e-05, 'epoch': 2.43}
{'loss': 0.4308, 'learning_rate': 1.8138079785304108e-05, 'epoch': 2.43}
{'loss': 0.4006, 'learning_rate': 1.8005001638771958e-05, 'epoch': 2.43}
{'loss': 0.4164, 'learning_rate': 1.787236517070051e-05, 'epoch': 2.44}
{'loss': 0.3917, 'learning_rate': 1.7740171095556135e-05, 'epoch': 2.44}
{'loss': 0.4209, 'learning_rate': 1.7608420125422276e-05, 'epoch': 2.44}
{'loss': 0.4031, 'learning_rate': 1.74771129699954e-05, 'epoch': 2.44}
{'loss': 0.4161, 'learning_rate': 1.7346250336581427e-05, 'epoch': 2.45}
{'loss': 0.4874, 'learning_rate': 1.721583293009167e-05, 'epoch': 2.45}
{'loss': 0.468, 'learning_rate': 1.7085861453039243e-05, 'epoch': 2.45}
{'loss': 0.4234, 'learning_rate': 1.695633660553515e-05, 'epoch': 2.45}
{'loss': 0.3944, 'learning_rate': 1.6827259085284564e-05, 'epoch': 2.45}
{'loss': 0.423, 'learning_rate': 1.6698629587583102e-05, 'epoch': 2.46}
{'loss': 0.4127, 'learning_rate': 1.6570448805312967e-05, 'epoch': 2.46}
{'loss': 0.372, 'learning_rate': 1.644271742893938e-05, 'epoch': 2.46}
{'loss': 0.3912, 'learning_rate': 1.6315436146506703e-05, 'epoch': 2.46}
{'loss': 0.4046, 'learning_rate': 1.6188605643634803e-05, 'epoch': 2.47}
{'loss': 0.4278, 'learning_rate': 1.6062226603515374e-05, 'epoch': 2.47}
{'loss': 0.4156, 'learning_rate': 1.5936299706908208e-05, 'epoch': 2.47}
{'loss': 0.4031, 'learning_rate': 1.581082563213763e-05, 'epoch': 2.47}
{'loss': 0.4493, 'learning_rate': 1.5685805055088653e-05, 'epoch': 2.47}
{'loss': 0.4553, 'learning_rate': 1.5561238649203615e-05, 'epoch': 2.48}
{'loss': 0.4001, 'learning_rate': 1.543712708547823e-05, 'epoch': 2.48}
{'loss': 0.4085, 'learning_rate': 1.5313471032458247e-05, 'epoch': 2.48}
{'loss': 0.3633, 'learning_rate': 1.5190271156235681e-05, 'epoch': 2.48}
{'loss': 0.4474, 'learning_rate': 1.5067528120445284e-05, 'epoch': 2.48}
{'loss': 0.3817, 'learning_rate': 1.494524258626102e-05, 'epoch': 2.49}
{'loss': 0.4349, 'learning_rate': 1.4823415212392377e-05, 'epoch': 2.49}
{'loss': 0.4171, 'learning_rate': 1.470204665508097e-05, 'epoch': 2.49}
{'loss': 0.351, 'learning_rate': 1.458113756809687e-05, 'epoch': 2.49}
{'loss': 0.3713, 'learning_rate': 1.4460688602735173e-05, 'epoch': 2.5}
{'loss': 0.4233, 'learning_rate': 1.4340700407812435e-05, 'epoch': 2.5}
{'loss': 0.4413, 'learning_rate': 1.4221173629663198e-05, 'epoch': 2.5}
{'loss': 0.4074, 'learning_rate': 1.4102108912136581e-05, 'epoch': 2.5}
{'loss': 0.4228, 'learning_rate': 1.3983506896592646e-05, 'epoch': 2.5}
{'loss': 0.376, 'learning_rate': 1.3865368221899134e-05, 'epoch': 2.51}
{'loss': 0.3962, 'learning_rate': 1.3747693524427862e-05, 'epoch': 2.51}
{'loss': 0.4448, 'learning_rate': 1.3630483438051389e-05, 'epoch': 2.51}
{'loss': 0.4882, 'learning_rate': 1.3513738594139558e-05, 'epoch': 2.51}
{'loss': 0.4411, 'learning_rate': 1.339745962155613e-05, 'epoch': 2.51}
{'loss': 0.3977, 'learning_rate': 1.3281647146655419e-05, 'epoch': 2.52}
{'loss': 0.4065, 'learning_rate': 1.3166301793278779e-05, 'epoch': 2.52}
{'loss': 0.3965, 'learning_rate': 1.3051424182751459e-05, 'epoch': 2.52}
{'loss': 0.4188, 'learning_rate': 1.2937014933879078e-05, 'epoch': 2.52}
{'loss': 0.4444, 'learning_rate': 1.282307466294429e-05, 'epoch': 2.53}
{'loss': 0.4533, 'learning_rate': 1.2709603983703678e-05, 'epoch': 2.53}
{'loss': 0.417, 'learning_rate': 1.2596603507384152e-05, 'epoch': 2.53}
{'loss': 0.4013, 'learning_rate': 1.2484073842679944e-05, 'epoch': 2.53}
{'loss': 0.4217, 'learning_rate': 1.2372015595749053e-05, 'epoch': 2.53}
{'loss': 0.3931, 'learning_rate': 1.2260429370210213e-05, 'epoch': 2.54}
{'loss': 0.4695, 'learning_rate': 1.2149315767139512e-05, 'epoch': 2.54}
{'loss': 0.4214, 'learning_rate': 1.203867538506711e-05, 'epoch': 2.54}
{'loss': 0.4386, 'learning_rate': 1.1928508819974237e-05, 'epoch': 2.54}
{'loss': 0.4066, 'learning_rate': 1.181881666528971e-05, 'epoch': 2.54}
{'loss': 0.4011, 'learning_rate': 1.1709599511886948e-05, 'epoch': 2.55}
{'loss': 0.4133, 'learning_rate': 1.1600857948080624e-05, 'epoch': 2.55}
{'loss': 0.4639, 'learning_rate': 1.1492592559623671e-05, 'epoch': 2.55}
{'loss': 0.3893, 'learning_rate': 1.1384803929703969e-05, 'epoch': 2.55}
{'loss': 0.5307, 'learning_rate': 1.1277492638941235e-05, 'epoch': 2.56}
{'loss': 0.4433, 'learning_rate': 1.1170659265383999e-05, 'epoch': 2.56}
{'loss': 0.4196, 'learning_rate': 1.1064304384506364e-05, 'epoch': 2.56}
{'loss': 0.386, 'learning_rate': 1.0958428569205026e-05, 'epoch': 2.56}
{'loss': 0.4128, 'learning_rate': 1.0853032389796024e-05, 'epoch': 2.56}
{'loss': 0.4036, 'learning_rate': 1.0748116414011888e-05, 'epoch': 2.57}
{'loss': 0.3744, 'learning_rate': 1.0643681206998334e-05, 'epoch': 2.57}
{'loss': 0.428, 'learning_rate': 1.05397273313114e-05, 'epoch': 2.57}
{'loss': 0.4051, 'learning_rate': 1.0436255346914392e-05, 'epoch': 2.57}
{'loss': 0.3658, 'learning_rate': 1.0333265811174775e-05, 'epoch': 2.57}
{'loss': 0.4432, 'learning_rate': 1.0230759278861301e-05, 'epoch': 2.58}
{'loss': 0.4511, 'learning_rate': 1.0128736302140862e-05, 'epoch': 2.58}
{'loss': 0.4705, 'learning_rate': 1.0027197430575708e-05, 'epoch': 2.58}
{'loss': 0.4387, 'learning_rate': 9.926143211120286e-06, 'epoch': 2.58}
{'loss': 0.4505, 'learning_rate': 9.825574188118437e-06, 'epoch': 2.59}
{'loss': 0.3988, 'learning_rate': 9.725490903300427e-06, 'epoch': 2.59}
{'loss': 0.39, 'learning_rate': 9.625893895779991e-06, 'epoch': 2.59}
{'loss': 0.477, 'learning_rate': 9.526783702051512e-06, 'epoch': 2.59}
{'loss': 0.4204, 'learning_rate': 9.428160855987012e-06, 'epoch': 2.59}
{'loss': 0.509, 'learning_rate': 9.330025888833371e-06, 'epoch': 2.6}
{'loss': 0.4134, 'learning_rate': 9.232379329209429e-06, 'epoch': 2.6}
{'loss': 0.3687, 'learning_rate': 9.135221703103136e-06, 'epoch': 2.6}
{'loss': 0.4201, 'learning_rate': 9.038553533868788e-06, 'epoch': 2.6}
{'loss': 0.4186, 'learning_rate': 8.942375342224041e-06, 'epoch': 2.6}
{'loss': 0.4633, 'learning_rate': 8.84668764624732e-06, 'epoch': 2.61}
{'loss': 0.368, 'learning_rate': 8.751490961374853e-06, 'epoch': 2.61}
{'loss': 0.4592, 'learning_rate': 8.656785800397982e-06, 'epoch': 2.61}
{'loss': 0.4076, 'learning_rate': 8.562572673460379e-06, 'epoch': 2.61}
{'loss': 0.4698, 'learning_rate': 8.46885208805529e-06, 'epoch': 2.62}
{'loss': 0.415, 'learning_rate': 8.375624549022854e-06, 'epoch': 2.62}
{'loss': 0.4575, 'learning_rate': 8.282890558547274e-06, 'epoch': 2.62}
{'loss': 0.3871, 'learning_rate': 8.19065061615426e-06, 'epoch': 2.62}
{'loss': 0.4064, 'learning_rate': 8.098905218708186e-06, 'epoch': 2.62}
{'loss': 0.4018, 'learning_rate': 8.007654860409519e-06, 'epoch': 2.63}
{'loss': 0.4219, 'learning_rate': 7.916900032792119e-06, 'epoch': 2.63}
{'loss': 0.4193, 'learning_rate': 7.826641224720566e-06, 'epoch': 2.63}
{'loss': 0.3689, 'learning_rate': 7.736878922387614e-06, 'epoch': 2.63}
{'loss': 0.3689, 'learning_rate': 7.647613609311455e-06, 'epoch': 2.63}
{'loss': 0.3497, 'learning_rate': 7.5588457663332335e-06, 'epoch': 2.64}
{'loss': 0.4233, 'learning_rate': 7.470575871614338e-06, 'epoch': 2.64}
{'loss': 0.4391, 'learning_rate': 7.382804400633913e-06, 'epoch': 2.64}
{'loss': 0.4285, 'learning_rate': 7.295531826186264e-06, 'epoch': 2.64}
{'loss': 0.3788, 'learning_rate': 7.2087586183782976e-06, 'epoch': 2.65}
{'loss': 0.4336, 'learning_rate': 7.122485244627042e-06, 'epoch': 2.65}
{'loss': 0.4125, 'learning_rate': 7.036712169657067e-06, 'epoch': 2.65}
{'loss': 0.4002, 'learning_rate': 6.951439855498021e-06, 'epoch': 2.65}
{'loss': 0.4245, 'learning_rate': 6.8666687614821205e-06, 'epoch': 2.65}
{'loss': 0.4381, 'learning_rate': 6.782399344241674e-06, 'epoch': 2.66}
{'loss': 0.4349, 'learning_rate': 6.698632057706666e-06, 'epoch': 2.66}
{'loss': 0.434, 'learning_rate': 6.615367353102209e-06, 'epoch': 2.66}
{'loss': 0.462, 'learning_rate': 6.532605678946291e-06, 'epoch': 2.66}
{'loss': 0.4387, 'learning_rate': 6.450347481047125e-06, 'epoch': 2.66}
{'loss': 0.4378, 'learning_rate': 6.368593202500995e-06, 'epoch': 2.67}
{'loss': 0.404, 'learning_rate': 6.287343283689661e-06, 'epoch': 2.67}
{'loss': 0.4284, 'learning_rate': 6.206598162278088e-06, 'epoch': 2.67}
{'loss': 0.4117, 'learning_rate': 6.126358273212107e-06, 'epoch': 2.67}
{'loss': 0.3526, 'learning_rate': 6.0466240487159875e-06, 'epoch': 2.68}
{'loss': 0.3933, 'learning_rate': 5.96739591829023e-06, 'epoch': 2.68}
{'loss': 0.3732, 'learning_rate': 5.888674308709108e-06, 'epoch': 2.68}
{'loss': 0.4058, 'learning_rate': 5.810459644018506e-06, 'epoch': 2.68}
{'loss': 0.4177, 'learning_rate': 5.7327523455335204e-06, 'epoch': 2.68}
{'loss': 0.4076, 'learning_rate': 5.655552831836297e-06, 'epoch': 2.69}
{'loss': 0.3914, 'learning_rate': 5.578861518773659e-06, 'epoch': 2.69}
{'loss': 0.373, 'learning_rate': 5.502678819454976e-06, 'epoch': 2.69}
{'loss': 0.4354, 'learning_rate': 5.427005144249897e-06, 'epoch': 2.69}
{'loss': 0.4075, 'learning_rate': 5.351840900786098e-06, 'epoch': 2.7}
{'loss': 0.4135, 'learning_rate': 5.277186493947173e-06, 'epoch': 2.7}
{'loss': 0.3923, 'learning_rate': 5.203042325870344e-06, 'epoch': 2.7}
{'loss': 0.3908, 'learning_rate': 5.129408795944412e-06, 'epoch': 2.7}
{'loss': 0.493, 'learning_rate': 5.056286300807511e-06, 'epoch': 2.7}
{'loss': 0.3766, 'learning_rate': 4.983675234345009e-06, 'epoch': 2.71}
{'loss': 0.4342, 'learning_rate': 4.911575987687422e-06, 'epoch': 2.71}
{'loss': 0.3901, 'learning_rate': 4.839988949208229e-06, 'epoch': 2.71}
{'loss': 0.4377, 'learning_rate': 4.76891450452186e-06, 'epoch': 2.71}
{'loss': 0.4071, 'learning_rate': 4.69835303648154e-06, 'epoch': 2.71}
{'loss': 0.4221, 'learning_rate': 4.628304925177318e-06, 'epoch': 2.72}
{'loss': 0.3698, 'learning_rate': 4.558770547933911e-06, 'epoch': 2.72}
{'loss': 0.3555, 'learning_rate': 4.489750279308757e-06, 'epoch': 2.72}
{'loss': 0.4195, 'learning_rate': 4.421244491090004e-06, 'epoch': 2.72}
{'loss': 0.4215, 'learning_rate': 4.353253552294412e-06, 'epoch': 2.73}
{'loss': 0.4232, 'learning_rate': 4.285777829165472e-06, 'epoch': 2.73}
{'loss': 0.4634, 'learning_rate': 4.218817685171372e-06, 'epoch': 2.73}
{'loss': 0.3989, 'learning_rate': 4.152373481003058e-06, 'epoch': 2.73}
{'loss': 0.4443, 'learning_rate': 4.086445574572284e-06, 'epoch': 2.73}
{'loss': 0.4565, 'learning_rate': 4.021034321009664e-06, 'epoch': 2.74}
{'loss': 0.3887, 'learning_rate': 3.9561400726628505e-06, 'epoch': 2.74}
{'loss': 0.3724, 'learning_rate': 3.8917631790944985e-06, 'epoch': 2.74}
{'loss': 0.4426, 'learning_rate': 3.827903987080495e-06, 'epoch': 2.74}
{'loss': 0.4012, 'learning_rate': 3.7645628406080437e-06, 'epoch': 2.74}
{'loss': 0.3665, 'learning_rate': 3.7017400808737947e-06, 'epoch': 2.75}
{'loss': 0.3793, 'learning_rate': 3.639436046282052e-06, 'epoch': 2.75}
{'loss': 0.4582, 'learning_rate': 3.5776510724429225e-06, 'epoch': 2.75}
{'loss': 0.478, 'learning_rate': 3.516385492170504e-06, 'epoch': 2.75}
{'loss': 0.4432, 'learning_rate': 3.4556396354811226e-06, 'epoch': 2.76}
{'loss': 0.4689, 'learning_rate': 3.3954138295915206e-06, 'epoch': 2.76}
{'loss': 0.3691, 'learning_rate': 3.3357083989171256e-06, 'epoch': 2.76}
{'loss': 0.4104, 'learning_rate': 3.276523665070241e-06, 'epoch': 2.76}
{'loss': 0.4004, 'learning_rate': 3.217859946858404e-06, 'epoch': 2.76}
{'loss': 0.4387, 'learning_rate': 3.1597175602825937e-06, 'epoch': 2.77}
{'loss': 0.3957, 'learning_rate': 3.1020968185355938e-06, 'epoch': 2.77}
{'loss': 0.4257, 'learning_rate': 3.0449980320002237e-06, 'epoch': 2.77}
{'loss': 0.3966, 'learning_rate': 2.9884215082477408e-06, 'epoch': 2.77}
{'loss': 0.3834, 'learning_rate': 2.9323675520361527e-06, 'epoch': 2.77}
{'loss': 0.3396, 'learning_rate': 2.8768364653085633e-06, 'epoch': 2.78}
{'loss': 0.4126, 'learning_rate': 2.821828547191585e-06, 'epoch': 2.78}
{'loss': 0.4475, 'learning_rate': 2.7673440939936623e-06, 'epoch': 2.78}
{'loss': 0.4248, 'learning_rate': 2.7133833992035727e-06, 'epoch': 2.78}
{'loss': 0.4085, 'learning_rate': 2.659946753488729e-06, 'epoch': 2.79}
{'loss': 0.4808, 'learning_rate': 2.6070344446937456e-06, 'epoch': 2.79}
{'loss': 0.4021, 'learning_rate': 2.5546467578387635e-06, 'epoch': 2.79}
{'loss': 0.4342, 'learning_rate': 2.5027839751179506e-06, 'epoch': 2.79}
{'loss': 0.405, 'learning_rate': 2.4514463758980588e-06, 'epoch': 2.79}
{'loss': 0.3743, 'learning_rate': 2.4006342367168254e-06, 'epoch': 2.8}
{'loss': 0.4208, 'learning_rate': 2.3503478312815298e-06, 'epoch': 2.8}
{'loss': 0.4476, 'learning_rate': 2.3005874304674936e-06, 'epoch': 2.8}
{'loss': 0.3574, 'learning_rate': 2.25135330231665e-06, 'epoch': 2.8}
{'loss': 0.4056, 'learning_rate': 2.2026457120360778e-06, 'epoch': 2.8}
{'loss': 0.3891, 'learning_rate': 2.1544649219965575e-06, 'epoch': 2.81}
{'loss': 0.5164, 'learning_rate': 2.1068111917312172e-06, 'epoch': 2.81}
{'loss': 0.3785, 'learning_rate': 2.059684777934079e-06, 'epoch': 2.81}
{'loss': 0.4063, 'learning_rate': 2.013085934458714e-06, 'epoch': 2.81}
{'loss': 0.4338, 'learning_rate': 1.9670149123168224e-06, 'epoch': 2.82}
{'loss': 0.3987, 'learning_rate': 1.921471959676957e-06, 'epoch': 2.82}
{'loss': 0.3808, 'learning_rate': 1.876457321863101e-06, 'epoch': 2.82}
{'loss': 0.4465, 'learning_rate': 1.8319712413534029e-06, 'epoch': 2.82}
{'loss': 0.4427, 'learning_rate': 1.788013957778878e-06, 'epoch': 2.82}
{'loss': 0.3725, 'learning_rate': 1.7445857079220751e-06, 'epoch': 2.83}
{'loss': 0.411, 'learning_rate': 1.7016867257158343e-06, 'epoch': 2.83}
{'loss': 0.4528, 'learning_rate': 1.659317242242009e-06, 'epoch': 2.83}
{'loss': 0.418, 'learning_rate': 1.6174774857302567e-06, 'epoch': 2.83}
{'loss': 0.4174, 'learning_rate': 1.5761676815567173e-06, 'epoch': 2.83}
{'loss': 0.4016, 'learning_rate': 1.5353880522429032e-06, 'epoch': 2.84}
{'loss': 0.4793, 'learning_rate': 1.4951388174544778e-06, 'epoch': 2.84}
{'loss': 0.3995, 'learning_rate': 1.4554201940000123e-06, 'epoch': 2.84}
{'loss': 0.4266, 'learning_rate': 1.4162323958298972e-06, 'epoch': 2.84}
{'loss': 0.3775, 'learning_rate': 1.3775756340351109e-06, 'epoch': 2.85}
{'loss': 0.4535, 'learning_rate': 1.3394501168461859e-06, 'epoch': 2.85}
{'loss': 0.4309, 'learning_rate': 1.3018560496319443e-06, 'epoch': 2.85}
{'loss': 0.3994, 'learning_rate': 1.2647936348985312e-06, 'epoch': 2.85}
{'loss': 0.4069, 'learning_rate': 1.2282630722882604e-06, 'epoch': 2.85}
{'loss': 0.4051, 'learning_rate': 1.1922645585785264e-06, 'epoch': 2.86}
{'loss': 0.3962, 'learning_rate': 1.1567982876807603e-06, 'epoch': 2.86}
{'loss': 0.3685, 'learning_rate': 1.1218644506394093e-06, 'epoch': 2.86}
{'loss': 0.3796, 'learning_rate': 1.087463235630859e-06, 'epoch': 2.86}
{'loss': 0.4035, 'learning_rate': 1.0535948279624564e-06, 'epoch': 2.86}
{'loss': 0.4158, 'learning_rate': 1.0202594100715e-06, 'epoch': 2.87}
{'loss': 0.3846, 'learning_rate': 9.874571615242857e-07, 'epoch': 2.87}
{'loss': 0.4453, 'learning_rate': 9.551882590150495e-07, 'epoch': 2.87}
{'loss': 0.3962, 'learning_rate': 9.234528763651384e-07, 'epoch': 2.87}
{'loss': 0.42, 'learning_rate': 8.922511845219971e-07, 'epoch': 2.88}
{'loss': 0.4099, 'learning_rate': 8.615833515582372e-07, 'epoch': 2.88}
{'loss': 0.4419, 'learning_rate': 8.314495426707924e-07, 'epoch': 2.88}
{'loss': 0.3952, 'learning_rate': 8.018499201799756e-07, 'epoch': 2.88}
{'loss': 0.4365, 'learning_rate': 7.727846435286346e-07, 'epoch': 2.88}
{'loss': 0.4025, 'learning_rate': 7.44253869281275e-07, 'epoch': 2.89}
{'loss': 0.5331, 'learning_rate': 7.162577511232394e-07, 'epoch': 2.89}
{'loss': 0.4098, 'learning_rate': 6.887964398598401e-07, 'epoch': 2.89}
{'loss': 0.4067, 'learning_rate': 6.618700834155945e-07, 'epoch': 2.89}
{'loss': 0.4033, 'learning_rate': 6.3547882683338e-07, 'epoch': 2.89}
{'loss': 0.4034, 'learning_rate': 6.096228122737024e-07, 'epoch': 2.9}
{'loss': 0.4257, 'learning_rate': 5.843021790138847e-07, 'epoch': 2.9}
{'loss': 0.4075, 'learning_rate': 5.595170634473568e-07, 'epoch': 2.9}
{'loss': 0.4032, 'learning_rate': 5.352675990829004e-07, 'epoch': 2.9}
{'loss': 0.4294, 'learning_rate': 5.115539165439054e-07, 'epoch': 2.91}
{'loss': 0.3844, 'learning_rate': 4.883761435677259e-07, 'epoch': 2.91}
{'loss': 0.4696, 'learning_rate': 4.6573440500492504e-07, 'epoch': 2.91}
{'loss': 0.4603, 'learning_rate': 4.4362882281866467e-07, 'epoch': 2.91}
{'loss': 0.4013, 'learning_rate': 4.220595160840057e-07, 'epoch': 2.91}
{'loss': 0.3783, 'learning_rate': 4.010266009872643e-07, 'epoch': 2.92}
{'loss': 0.4531, 'learning_rate': 3.805301908254455e-07, 'epoch': 2.92}
{'loss': 0.375, 'learning_rate': 3.6057039600555507e-07, 'epoch': 2.92}
{'loss': 0.388, 'learning_rate': 3.4114732404403326e-07, 'epoch': 2.92}
{'loss': 0.4228, 'learning_rate': 3.2226107956621063e-07, 'epoch': 2.92}
{'loss': 0.4123, 'learning_rate': 3.0391176430567547e-07, 'epoch': 2.93}
{'loss': 0.4435, 'learning_rate': 2.8609947710382947e-07, 'epoch': 2.93}
{'loss': 0.4189, 'learning_rate': 2.688243139092106e-07, 'epoch': 2.93}
{'loss': 0.3991, 'learning_rate': 2.520863677771268e-07, 'epoch': 2.93}
{'loss': 0.4265, 'learning_rate': 2.3588572886905635e-07, 'epoch': 2.94}
{'loss': 0.3608, 'learning_rate': 2.2022248445217052e-07, 'epoch': 2.94}
{'loss': 0.4091, 'learning_rate': 2.0509671889892278e-07, 'epoch': 2.94}
{'loss': 0.4202, 'learning_rate': 1.905085136865159e-07, 'epoch': 2.94}
{'loss': 0.4141, 'learning_rate': 1.7645794739654665e-07, 'epoch': 2.94}
{'loss': 0.5024, 'learning_rate': 1.6294509571450623e-07, 'epoch': 2.95}
{'loss': 0.4379, 'learning_rate': 1.49970031429425e-07, 'epoch': 2.95}
{'loss': 0.395, 'learning_rate': 1.3753282443342842e-07, 'epoch': 2.95}
{'loss': 0.4078, 'learning_rate': 1.2563354172142606e-07, 'epoch': 2.95}
{'loss': 0.3874, 'learning_rate': 1.1427224739070098e-07, 'epoch': 2.96}
{'loss': 0.4031, 'learning_rate': 1.0344900264058765e-07, 'epoch': 2.96}
{'loss': 0.4189, 'learning_rate': 9.316386577212788e-08, 'epoch': 2.96}
{'loss': 0.3828, 'learning_rate': 8.341689218775984e-08, 'epoch': 2.96}
{'loss': 0.4032, 'learning_rate': 7.420813439104058e-08, 'epoch': 2.96}
{'loss': 0.387, 'learning_rate': 6.553764198633516e-08, 'epoch': 2.97}
{'loss': 0.4241, 'learning_rate': 5.740546167856131e-08, 'epoch': 2.97}
{'loss': 0.4248, 'learning_rate': 4.9811637272945134e-08, 'epoch': 2.97}
{'loss': 0.4144, 'learning_rate': 4.275620967475469e-08, 'epoch': 2.97}
{'loss': 0.3824, 'learning_rate': 3.6239216889133456e-08, 'epoch': 2.97}
{'loss': 0.4371, 'learning_rate': 3.026069402083387e-08, 'epoch': 2.98}
{'loss': 0.4174, 'learning_rate': 2.482067327409521e-08, 'epoch': 2.98}
{'loss': 0.4416, 'learning_rate': 1.9919183952388232e-08, 'epoch': 2.98}
{'loss': 0.3912, 'learning_rate': 1.5556252458337473e-08, 'epoch': 2.98}
{'loss': 0.404, 'learning_rate': 1.1731902293543595e-08, 'epoch': 2.99}
{'loss': 0.3789, 'learning_rate': 8.446154058427968e-09, 'epoch': 2.99}
{'loss': 0.3864, 'learning_rate': 5.6990254521771536e-09, 'epoch': 2.99}
{'loss': 0.4345, 'learning_rate': 3.4905312726207783e-09, 'epoch': 2.99}
{'loss': 0.4335, 'learning_rate': 1.820683416142721e-09, 'epoch': 2.99}
{'loss': 0.4724, 'learning_rate': 6.894908776255982e-10, 'epoch': 3.0}
{'loss': 0.4052, 'learning_rate': 9.695975041745797e-11, 'epoch': 3.0}
{'train_runtime': 15166.6938, 'train_samples_per_second': 3.681, 'train_steps_per_second': 0.46, 'train_loss': 0.4440269284516223, 'epoch': 3.0}
Done Training
Waiting for W&B process to finish... (success).
Run history:
train/epoch βββββββββββββββββββββ
β
β
β
β
β
ββββββββββββββ
train/global_step βββββββββββββββββββββ
β
β
β
β
β
ββββββββββββββ
train/learning_rate ββββββββββββββββββ
β
β
ββββββββββββββββββββ
train/loss βββββββββββββββββββββββββββββββββββββββ
β
train/total_flos β
train/train_loss β
train/train_runtime β
train/train_samples_per_second β
train/train_steps_per_second β
Run summary:
train/epoch 3.0
train/global_step 6978
train/learning_rate 0.0
train/loss 0.4052
train/total_flos 4.707443209022669e+17
train/train_loss 0.44403
train/train_runtime 15166.6938
train/train_samples_per_second 3.681
train/train_steps_per_second 0.46
View run floral-donkey-2 at: https://wandb.ai/plaban81/huggingface/runs/n7lxowfb
Synced 5 W&B file(s), 0 media file(s), 0 artifact file(s) and 0 other file(s)
Find logs at: ./wandb/run-20230914_090645-n7lxowfb/logs
Model saved
Example of usage
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "Plaban81/codegen-finetuned-python"
tokenizer = AutoTokenizer.from_pretrained(hf_model_repo)
model = AutoModelForCausalLM.from_pretrained(hf_model_repo, load_in_4bit=True, torch_dtype=torch.float16,
device_map=device_map)
instruction="Write a Python function to display the first and last elements of a list."
input=""
prompt = f"""### Instruction:
Use the Task below and the Input given to write the Response, which is a programming code that can solve the Task.
### Task:
{instruction}
### Input:
{input}
### Response:
"""
input_ids = tokenizer(prompt, return_tensors="pt", truncation=True).input_ids.cuda()
# with torch.inference_mode():
outputs = model.generate(input_ids=input_ids, max_new_tokens=100, do_sample=True, top_p=0.9,temperature=0.5)
print(f"Prompt:\n{prompt}\n")
print(f"Generated instruction:\n{tokenizer.batch_decode(outputs.detach().cpu().numpy(), skip_special_tokens=True)[0][len(prompt):]}")
Citation
@misc {Plaban81,
author = { {Plaban Nayak} },
title = { codegen-finetuned-python },
year = 2023,
url = { https://huggingface.co/Plaban81/codegen-finetuned-python' },
publisher = { Hugging Face }
}
- Downloads last month
- 25