diff --git "a/trainer_states.json" "b/trainer_states.json"
new file mode 100644--- /dev/null
+++ "b/trainer_states.json"
@@ -0,0 +1,29144 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 7.9508492952656304,
+  "global_step": 22000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1391890048980713,
+      "epoch": 0.0,
+      "learning_rate": 1.9999982096052276e-06,
+      "loss": 0.1776,
+      "step": 10,
+      "task_loss": 0.3535611927509308
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1461760699748993,
+      "epoch": 0.01,
+      "learning_rate": 1.999992838427322e-06,
+      "loss": 0.1969,
+      "step": 20,
+      "task_loss": 0.3184128403663635
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16645857691764832,
+      "epoch": 0.01,
+      "learning_rate": 1.9999838864855164e-06,
+      "loss": 0.1698,
+      "step": 30,
+      "task_loss": 0.42190682888031006
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1625981330871582,
+      "epoch": 0.01,
+      "learning_rate": 1.999971353811865e-06,
+      "loss": 0.1782,
+      "step": 40,
+      "task_loss": 0.23675988614559174
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14059175550937653,
+      "epoch": 0.02,
+      "learning_rate": 1.9999552404512455e-06,
+      "loss": 0.1794,
+      "step": 50,
+      "task_loss": 0.3601588010787964
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19353535771369934,
+      "epoch": 0.02,
+      "learning_rate": 1.9999355464613565e-06,
+      "loss": 0.1838,
+      "step": 60,
+      "task_loss": 0.5550195574760437
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.181913822889328,
+      "epoch": 0.03,
+      "learning_rate": 1.999912271912717e-06,
+      "loss": 0.1859,
+      "step": 70,
+      "task_loss": 0.3225249648094177
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13254797458648682,
+      "epoch": 0.03,
+      "learning_rate": 1.999885416888669e-06,
+      "loss": 0.1691,
+      "step": 80,
+      "task_loss": 0.2899574637413025
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16020077466964722,
+      "epoch": 0.03,
+      "learning_rate": 1.999854981485375e-06,
+      "loss": 0.1803,
+      "step": 90,
+      "task_loss": 0.43814536929130554
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16687241196632385,
+      "epoch": 0.04,
+      "learning_rate": 1.999820965811817e-06,
+      "loss": 0.1859,
+      "step": 100,
+      "task_loss": 0.746590256690979
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.155348539352417,
+      "epoch": 0.04,
+      "learning_rate": 1.9997833699897987e-06,
+      "loss": 0.1793,
+      "step": 110,
+      "task_loss": 0.45200714468955994
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1690862774848938,
+      "epoch": 0.04,
+      "learning_rate": 1.999742194153942e-06,
+      "loss": 0.1799,
+      "step": 120,
+      "task_loss": 0.2519175112247467
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18965381383895874,
+      "epoch": 0.05,
+      "learning_rate": 1.99969743845169e-06,
+      "loss": 0.1775,
+      "step": 130,
+      "task_loss": 0.35963237285614014
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14351242780685425,
+      "epoch": 0.05,
+      "learning_rate": 1.9996491030433027e-06,
+      "loss": 0.1842,
+      "step": 140,
+      "task_loss": 0.5129216313362122
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19938349723815918,
+      "epoch": 0.05,
+      "learning_rate": 1.999597188101859e-06,
+      "loss": 0.1822,
+      "step": 150,
+      "task_loss": 0.6201828718185425
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15174296498298645,
+      "epoch": 0.06,
+      "learning_rate": 1.9995416938132554e-06,
+      "loss": 0.1762,
+      "step": 160,
+      "task_loss": 0.2371373474597931
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14393183588981628,
+      "epoch": 0.06,
+      "learning_rate": 1.9994826203762056e-06,
+      "loss": 0.1756,
+      "step": 170,
+      "task_loss": 0.3284216523170471
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15572452545166016,
+      "epoch": 0.07,
+      "learning_rate": 1.9994199680022386e-06,
+      "loss": 0.1785,
+      "step": 180,
+      "task_loss": 0.17561133205890656
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.160763680934906,
+      "epoch": 0.07,
+      "learning_rate": 1.9993537369157004e-06,
+      "loss": 0.1814,
+      "step": 190,
+      "task_loss": 0.30648908019065857
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13948312401771545,
+      "epoch": 0.07,
+      "learning_rate": 1.9992839273537492e-06,
+      "loss": 0.1719,
+      "step": 200,
+      "task_loss": 0.5067750215530396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19486072659492493,
+      "epoch": 0.08,
+      "learning_rate": 1.9992105395663598e-06,
+      "loss": 0.1853,
+      "step": 210,
+      "task_loss": 0.4411253333091736
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14867699146270752,
+      "epoch": 0.08,
+      "learning_rate": 1.999133573816317e-06,
+      "loss": 0.1812,
+      "step": 220,
+      "task_loss": 0.6160109639167786
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14178313314914703,
+      "epoch": 0.08,
+      "learning_rate": 1.99905303037922e-06,
+      "loss": 0.1844,
+      "step": 230,
+      "task_loss": 0.47401952743530273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15987926721572876,
+      "epoch": 0.09,
+      "learning_rate": 1.9989689095434775e-06,
+      "loss": 0.174,
+      "step": 240,
+      "task_loss": 0.4866279065608978
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1667332649230957,
+      "epoch": 0.09,
+      "learning_rate": 1.9988812116103086e-06,
+      "loss": 0.1783,
+      "step": 250,
+      "task_loss": 0.5632772445678711
+    },
+    {
+      "epoch": 0.09,
+      "eval_exact_match": 83.68968779564806,
+      "eval_f1": 90.07662178846462,
+      "step": 250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13907156884670258,
+      "epoch": 0.09,
+      "learning_rate": 1.998789936893741e-06,
+      "loss": 0.1674,
+      "step": 260,
+      "task_loss": 0.25233495235443115
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12035252153873444,
+      "epoch": 0.1,
+      "learning_rate": 1.99869508572061e-06,
+      "loss": 0.1682,
+      "step": 270,
+      "task_loss": 0.33309412002563477
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1731790155172348,
+      "epoch": 0.1,
+      "learning_rate": 1.9985966584305585e-06,
+      "loss": 0.18,
+      "step": 280,
+      "task_loss": 0.38126981258392334
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1732906997203827,
+      "epoch": 0.1,
+      "learning_rate": 1.9984946553760333e-06,
+      "loss": 0.1723,
+      "step": 290,
+      "task_loss": 0.3908073902130127
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17171213030815125,
+      "epoch": 0.11,
+      "learning_rate": 1.998389076922286e-06,
+      "loss": 0.1833,
+      "step": 300,
+      "task_loss": 0.3038800358772278
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17187830805778503,
+      "epoch": 0.11,
+      "learning_rate": 1.9982799234473707e-06,
+      "loss": 0.1727,
+      "step": 310,
+      "task_loss": 0.5874561071395874
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14011260867118835,
+      "epoch": 0.12,
+      "learning_rate": 1.998167195342143e-06,
+      "loss": 0.1728,
+      "step": 320,
+      "task_loss": 0.466874361038208
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14882700145244598,
+      "epoch": 0.12,
+      "learning_rate": 1.998050893010259e-06,
+      "loss": 0.1806,
+      "step": 330,
+      "task_loss": 0.5158421993255615
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2140088677406311,
+      "epoch": 0.12,
+      "learning_rate": 1.9979310168681726e-06,
+      "loss": 0.1776,
+      "step": 340,
+      "task_loss": 0.49200907349586487
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1642945408821106,
+      "epoch": 0.13,
+      "learning_rate": 1.9978075673451348e-06,
+      "loss": 0.1922,
+      "step": 350,
+      "task_loss": 0.2854197919368744
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12045970559120178,
+      "epoch": 0.13,
+      "learning_rate": 1.9976805448831925e-06,
+      "loss": 0.1795,
+      "step": 360,
+      "task_loss": 0.3827168345451355
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16507384181022644,
+      "epoch": 0.13,
+      "learning_rate": 1.9975499499371862e-06,
+      "loss": 0.173,
+      "step": 370,
+      "task_loss": 0.22587484121322632
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15693482756614685,
+      "epoch": 0.14,
+      "learning_rate": 1.99741578297475e-06,
+      "loss": 0.1795,
+      "step": 380,
+      "task_loss": 0.47314953804016113
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15382714569568634,
+      "epoch": 0.14,
+      "learning_rate": 1.9972780444763056e-06,
+      "loss": 0.169,
+      "step": 390,
+      "task_loss": 0.46679824590682983
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1490176022052765,
+      "epoch": 0.14,
+      "learning_rate": 1.9971367349350676e-06,
+      "loss": 0.169,
+      "step": 400,
+      "task_loss": 0.4132170081138611
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1326831877231598,
+      "epoch": 0.15,
+      "learning_rate": 1.9969918548570343e-06,
+      "loss": 0.1712,
+      "step": 410,
+      "task_loss": 0.1556464433670044
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17481349408626556,
+      "epoch": 0.15,
+      "learning_rate": 1.9968434047609913e-06,
+      "loss": 0.1751,
+      "step": 420,
+      "task_loss": 0.3467264771461487
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1614687293767929,
+      "epoch": 0.16,
+      "learning_rate": 1.9966913851785074e-06,
+      "loss": 0.1698,
+      "step": 430,
+      "task_loss": 0.38117820024490356
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19468063116073608,
+      "epoch": 0.16,
+      "learning_rate": 1.996535796653933e-06,
+      "loss": 0.1758,
+      "step": 440,
+      "task_loss": 0.30559083819389343
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18599817156791687,
+      "epoch": 0.16,
+      "learning_rate": 1.996376639744396e-06,
+      "loss": 0.18,
+      "step": 450,
+      "task_loss": 0.5101648569107056
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14922016859054565,
+      "epoch": 0.17,
+      "learning_rate": 1.996213915019806e-06,
+      "loss": 0.1767,
+      "step": 460,
+      "task_loss": 0.39836177229881287
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.133830264210701,
+      "epoch": 0.17,
+      "learning_rate": 1.9960476230628453e-06,
+      "loss": 0.1811,
+      "step": 470,
+      "task_loss": 0.5501172542572021
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15386879444122314,
+      "epoch": 0.17,
+      "learning_rate": 1.9958777644689696e-06,
+      "loss": 0.1752,
+      "step": 480,
+      "task_loss": 0.7182563543319702
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17507609724998474,
+      "epoch": 0.18,
+      "learning_rate": 1.995704339846408e-06,
+      "loss": 0.1801,
+      "step": 490,
+      "task_loss": 0.40363389253616333
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17033545672893524,
+      "epoch": 0.18,
+      "learning_rate": 1.9955273498161563e-06,
+      "loss": 0.1853,
+      "step": 500,
+      "task_loss": 0.5597988367080688
+    },
+    {
+      "epoch": 0.18,
+      "eval_exact_match": 83.69914853358561,
+      "eval_f1": 90.06682101600445,
+      "step": 500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16981837153434753,
+      "epoch": 0.18,
+      "learning_rate": 1.9953467950119794e-06,
+      "loss": 0.1718,
+      "step": 510,
+      "task_loss": 0.34875768423080444
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12693539261817932,
+      "epoch": 0.19,
+      "learning_rate": 1.9951626760804064e-06,
+      "loss": 0.1762,
+      "step": 520,
+      "task_loss": 0.3869848847389221
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14310693740844727,
+      "epoch": 0.19,
+      "learning_rate": 1.9949749936807275e-06,
+      "loss": 0.1714,
+      "step": 530,
+      "task_loss": 0.3260875344276428
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1642155647277832,
+      "epoch": 0.2,
+      "learning_rate": 1.9947837484849944e-06,
+      "loss": 0.1753,
+      "step": 540,
+      "task_loss": 0.25048545002937317
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16132649779319763,
+      "epoch": 0.2,
+      "learning_rate": 1.9945889411780158e-06,
+      "loss": 0.1722,
+      "step": 550,
+      "task_loss": 0.34237614274024963
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1687171906232834,
+      "epoch": 0.2,
+      "learning_rate": 1.9943905724573555e-06,
+      "loss": 0.162,
+      "step": 560,
+      "task_loss": 0.3560226559638977
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15636363625526428,
+      "epoch": 0.21,
+      "learning_rate": 1.99418864303333e-06,
+      "loss": 0.1733,
+      "step": 570,
+      "task_loss": 0.559543788433075
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16653823852539062,
+      "epoch": 0.21,
+      "learning_rate": 1.993983153629007e-06,
+      "loss": 0.1774,
+      "step": 580,
+      "task_loss": 0.36561131477355957
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14254853129386902,
+      "epoch": 0.21,
+      "learning_rate": 1.9937741049802e-06,
+      "loss": 0.1763,
+      "step": 590,
+      "task_loss": 0.3504565358161926
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14156261086463928,
+      "epoch": 0.22,
+      "learning_rate": 1.9935614978354687e-06,
+      "loss": 0.171,
+      "step": 600,
+      "task_loss": 0.4731927812099457
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.24176684021949768,
+      "epoch": 0.22,
+      "learning_rate": 1.993345332956114e-06,
+      "loss": 0.18,
+      "step": 610,
+      "task_loss": 0.44777655601501465
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18350887298583984,
+      "epoch": 0.22,
+      "learning_rate": 1.9931256111161768e-06,
+      "loss": 0.1735,
+      "step": 620,
+      "task_loss": 0.38023048639297485
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1785336434841156,
+      "epoch": 0.23,
+      "learning_rate": 1.9929023331024354e-06,
+      "loss": 0.1838,
+      "step": 630,
+      "task_loss": 0.4373171329498291
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11950236558914185,
+      "epoch": 0.23,
+      "learning_rate": 1.992675499714401e-06,
+      "loss": 0.1823,
+      "step": 640,
+      "task_loss": 0.4059186577796936
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1564953625202179,
+      "epoch": 0.23,
+      "learning_rate": 1.992445111764316e-06,
+      "loss": 0.1766,
+      "step": 650,
+      "task_loss": 0.41068634390830994
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17433582246303558,
+      "epoch": 0.24,
+      "learning_rate": 1.9922111700771514e-06,
+      "loss": 0.1789,
+      "step": 660,
+      "task_loss": 0.3949933350086212
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16213908791542053,
+      "epoch": 0.24,
+      "learning_rate": 1.9919736754906037e-06,
+      "loss": 0.1664,
+      "step": 670,
+      "task_loss": 0.4205024242401123
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19312430918216705,
+      "epoch": 0.25,
+      "learning_rate": 1.99173262885509e-06,
+      "loss": 0.1738,
+      "step": 680,
+      "task_loss": 0.38273149728775024
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15186524391174316,
+      "epoch": 0.25,
+      "learning_rate": 1.991488031033748e-06,
+      "loss": 0.1775,
+      "step": 690,
+      "task_loss": 0.43976613879203796
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16413924098014832,
+      "epoch": 0.25,
+      "learning_rate": 1.9912398829024316e-06,
+      "loss": 0.1846,
+      "step": 700,
+      "task_loss": 0.4296082854270935
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1467546969652176,
+      "epoch": 0.26,
+      "learning_rate": 1.9909881853497063e-06,
+      "loss": 0.1829,
+      "step": 710,
+      "task_loss": 0.2708396017551422
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14315572381019592,
+      "epoch": 0.26,
+      "learning_rate": 1.990732939276848e-06,
+      "loss": 0.1761,
+      "step": 720,
+      "task_loss": 0.28182071447372437
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20183299481868744,
+      "epoch": 0.26,
+      "learning_rate": 1.9904741455978396e-06,
+      "loss": 0.1863,
+      "step": 730,
+      "task_loss": 1.0296525955200195
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16263312101364136,
+      "epoch": 0.27,
+      "learning_rate": 1.990211805239367e-06,
+      "loss": 0.1836,
+      "step": 740,
+      "task_loss": 0.7796942591667175
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17141658067703247,
+      "epoch": 0.27,
+      "learning_rate": 1.989945919140815e-06,
+      "loss": 0.1751,
+      "step": 750,
+      "task_loss": 0.40661606192588806
+    },
+    {
+      "epoch": 0.27,
+      "eval_exact_match": 83.57615894039735,
+      "eval_f1": 89.9443629076221,
+      "step": 750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20380395650863647,
+      "epoch": 0.27,
+      "learning_rate": 1.9896764882542666e-06,
+      "loss": 0.173,
+      "step": 760,
+      "task_loss": 0.2610260844230652
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1519322693347931,
+      "epoch": 0.28,
+      "learning_rate": 1.9894035135444964e-06,
+      "loss": 0.1762,
+      "step": 770,
+      "task_loss": 0.4701826870441437
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16315855085849762,
+      "epoch": 0.28,
+      "learning_rate": 1.9891269959889698e-06,
+      "loss": 0.1768,
+      "step": 780,
+      "task_loss": 0.4588128626346588
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2139987349510193,
+      "epoch": 0.29,
+      "learning_rate": 1.988846936577838e-06,
+      "loss": 0.1711,
+      "step": 790,
+      "task_loss": 0.509343147277832
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14751572906970978,
+      "epoch": 0.29,
+      "learning_rate": 1.9885633363139344e-06,
+      "loss": 0.1943,
+      "step": 800,
+      "task_loss": 0.571614146232605
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16162118315696716,
+      "epoch": 0.29,
+      "learning_rate": 1.9882761962127727e-06,
+      "loss": 0.1629,
+      "step": 810,
+      "task_loss": 0.3844223618507385
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1602107584476471,
+      "epoch": 0.3,
+      "learning_rate": 1.9879855173025404e-06,
+      "loss": 0.1685,
+      "step": 820,
+      "task_loss": 0.3083072602748871
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14762470126152039,
+      "epoch": 0.3,
+      "learning_rate": 1.9876913006240975e-06,
+      "loss": 0.1686,
+      "step": 830,
+      "task_loss": 0.421251118183136
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1615067422389984,
+      "epoch": 0.3,
+      "learning_rate": 1.9873935472309726e-06,
+      "loss": 0.1734,
+      "step": 840,
+      "task_loss": 0.3794122338294983
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14823423326015472,
+      "epoch": 0.31,
+      "learning_rate": 1.9870922581893573e-06,
+      "loss": 0.1748,
+      "step": 850,
+      "task_loss": 0.3405918478965759
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1978568136692047,
+      "epoch": 0.31,
+      "learning_rate": 1.9867874345781048e-06,
+      "loss": 0.1775,
+      "step": 860,
+      "task_loss": 0.5284197330474854
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22010980546474457,
+      "epoch": 0.31,
+      "learning_rate": 1.9864790774887234e-06,
+      "loss": 0.1765,
+      "step": 870,
+      "task_loss": 0.35552144050598145
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17657122015953064,
+      "epoch": 0.32,
+      "learning_rate": 1.986167188025376e-06,
+      "loss": 0.1685,
+      "step": 880,
+      "task_loss": 0.3586549460887909
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15283505618572235,
+      "epoch": 0.32,
+      "learning_rate": 1.985851767304873e-06,
+      "loss": 0.1852,
+      "step": 890,
+      "task_loss": 0.48049455881118774
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17572566866874695,
+      "epoch": 0.33,
+      "learning_rate": 1.985532816456669e-06,
+      "loss": 0.1661,
+      "step": 900,
+      "task_loss": 0.4304676055908203
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12883397936820984,
+      "epoch": 0.33,
+      "learning_rate": 1.98521033662286e-06,
+      "loss": 0.1767,
+      "step": 910,
+      "task_loss": 0.37426260113716125
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14257290959358215,
+      "epoch": 0.33,
+      "learning_rate": 1.984884328958179e-06,
+      "loss": 0.191,
+      "step": 920,
+      "task_loss": 0.6537871360778809
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14154499769210815,
+      "epoch": 0.34,
+      "learning_rate": 1.9845547946299902e-06,
+      "loss": 0.1865,
+      "step": 930,
+      "task_loss": 0.5936552286148071
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1575993001461029,
+      "epoch": 0.34,
+      "learning_rate": 1.984221734818287e-06,
+      "loss": 0.169,
+      "step": 940,
+      "task_loss": 0.42563629150390625
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15309542417526245,
+      "epoch": 0.34,
+      "learning_rate": 1.9838851507156864e-06,
+      "loss": 0.1771,
+      "step": 950,
+      "task_loss": 0.5308173894882202
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1929389238357544,
+      "epoch": 0.35,
+      "learning_rate": 1.983545043527425e-06,
+      "loss": 0.1703,
+      "step": 960,
+      "task_loss": 0.5199047923088074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15166574716567993,
+      "epoch": 0.35,
+      "learning_rate": 1.9832014144713554e-06,
+      "loss": 0.1738,
+      "step": 970,
+      "task_loss": 0.3604187071323395
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14696621894836426,
+      "epoch": 0.35,
+      "learning_rate": 1.9828542647779415e-06,
+      "loss": 0.1776,
+      "step": 980,
+      "task_loss": 0.3480679392814636
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17910030484199524,
+      "epoch": 0.36,
+      "learning_rate": 1.9825035956902515e-06,
+      "loss": 0.184,
+      "step": 990,
+      "task_loss": 0.3781590461730957
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18165017664432526,
+      "epoch": 0.36,
+      "learning_rate": 1.9821494084639595e-06,
+      "loss": 0.1759,
+      "step": 1000,
+      "task_loss": 0.5116103887557983
+    },
+    {
+      "epoch": 0.36,
+      "eval_exact_match": 83.45316934720908,
+      "eval_f1": 89.78098563856513,
+      "step": 1000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17691287398338318,
+      "epoch": 0.37,
+      "learning_rate": 1.9817917043673343e-06,
+      "loss": 0.1735,
+      "step": 1010,
+      "task_loss": 0.5271925330162048
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17111527919769287,
+      "epoch": 0.37,
+      "learning_rate": 1.9814304846812396e-06,
+      "loss": 0.1766,
+      "step": 1020,
+      "task_loss": 0.28790348768234253
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1404891461133957,
+      "epoch": 0.37,
+      "learning_rate": 1.981065750699127e-06,
+      "loss": 0.1743,
+      "step": 1030,
+      "task_loss": 0.565461277961731
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.121620774269104,
+      "epoch": 0.38,
+      "learning_rate": 1.980697503727031e-06,
+      "loss": 0.1746,
+      "step": 1040,
+      "task_loss": 0.3549140691757202
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13501675426959991,
+      "epoch": 0.38,
+      "learning_rate": 1.9803257450835683e-06,
+      "loss": 0.172,
+      "step": 1050,
+      "task_loss": 0.6684577465057373
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.137796550989151,
+      "epoch": 0.38,
+      "learning_rate": 1.9799504760999275e-06,
+      "loss": 0.1804,
+      "step": 1060,
+      "task_loss": 0.3713378310203552
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14667566120624542,
+      "epoch": 0.39,
+      "learning_rate": 1.9795716981198676e-06,
+      "loss": 0.1728,
+      "step": 1070,
+      "task_loss": 0.35704660415649414
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21063314378261566,
+      "epoch": 0.39,
+      "learning_rate": 1.979189412499713e-06,
+      "loss": 0.194,
+      "step": 1080,
+      "task_loss": 0.5208743810653687
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13344134390354156,
+      "epoch": 0.39,
+      "learning_rate": 1.9788036206083484e-06,
+      "loss": 0.1723,
+      "step": 1090,
+      "task_loss": 0.27669817209243774
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17827028036117554,
+      "epoch": 0.4,
+      "learning_rate": 1.9784143238272128e-06,
+      "loss": 0.1615,
+      "step": 1100,
+      "task_loss": 0.3210203945636749
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16757118701934814,
+      "epoch": 0.4,
+      "learning_rate": 1.9780215235502968e-06,
+      "loss": 0.1686,
+      "step": 1110,
+      "task_loss": 0.43170055747032166
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15356716513633728,
+      "epoch": 0.4,
+      "learning_rate": 1.9776252211841346e-06,
+      "loss": 0.1724,
+      "step": 1120,
+      "task_loss": 0.3005247116088867
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16435839235782623,
+      "epoch": 0.41,
+      "learning_rate": 1.977225418147802e-06,
+      "loss": 0.1757,
+      "step": 1130,
+      "task_loss": 0.28998297452926636
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.09947463124990463,
+      "epoch": 0.41,
+      "learning_rate": 1.97682211587291e-06,
+      "loss": 0.1595,
+      "step": 1140,
+      "task_loss": 0.36723411083221436
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18333488702774048,
+      "epoch": 0.42,
+      "learning_rate": 1.976415315803599e-06,
+      "loss": 0.1878,
+      "step": 1150,
+      "task_loss": 0.42832082509994507
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13132742047309875,
+      "epoch": 0.42,
+      "learning_rate": 1.9760050193965333e-06,
+      "loss": 0.174,
+      "step": 1160,
+      "task_loss": 0.3157771825790405
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.155666783452034,
+      "epoch": 0.42,
+      "learning_rate": 1.9755912281208997e-06,
+      "loss": 0.1633,
+      "step": 1170,
+      "task_loss": 0.30877023935317993
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2435683161020279,
+      "epoch": 0.43,
+      "learning_rate": 1.9751739434583966e-06,
+      "loss": 0.1782,
+      "step": 1180,
+      "task_loss": 0.35170674324035645
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1864657998085022,
+      "epoch": 0.43,
+      "learning_rate": 1.9747531669032326e-06,
+      "loss": 0.1886,
+      "step": 1190,
+      "task_loss": 0.504147469997406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14224031567573547,
+      "epoch": 0.43,
+      "learning_rate": 1.97432889996212e-06,
+      "loss": 0.1674,
+      "step": 1200,
+      "task_loss": 0.47088128328323364
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13773639500141144,
+      "epoch": 0.44,
+      "learning_rate": 1.9739011441542703e-06,
+      "loss": 0.1722,
+      "step": 1210,
+      "task_loss": 0.41278308629989624
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18634013831615448,
+      "epoch": 0.44,
+      "learning_rate": 1.973469901011386e-06,
+      "loss": 0.1812,
+      "step": 1220,
+      "task_loss": 0.6850751042366028
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17051789164543152,
+      "epoch": 0.44,
+      "learning_rate": 1.973035172077658e-06,
+      "loss": 0.1677,
+      "step": 1230,
+      "task_loss": 0.41830068826675415
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1463625729084015,
+      "epoch": 0.45,
+      "learning_rate": 1.97259695890976e-06,
+      "loss": 0.1775,
+      "step": 1240,
+      "task_loss": 0.5584670305252075
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1390727460384369,
+      "epoch": 0.45,
+      "learning_rate": 1.9721552630768407e-06,
+      "loss": 0.1766,
+      "step": 1250,
+      "task_loss": 0.5843634605407715
+    },
+    {
+      "epoch": 0.45,
+      "eval_exact_match": 83.57615894039735,
+      "eval_f1": 89.93850085654329,
+      "step": 1250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14995011687278748,
+      "epoch": 0.46,
+      "learning_rate": 1.9717100861605196e-06,
+      "loss": 0.1696,
+      "step": 1260,
+      "task_loss": 0.7748905420303345
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.10256899893283844,
+      "epoch": 0.46,
+      "learning_rate": 1.971261429754882e-06,
+      "loss": 0.1758,
+      "step": 1270,
+      "task_loss": 0.14379727840423584
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13538025319576263,
+      "epoch": 0.46,
+      "learning_rate": 1.970809295466472e-06,
+      "loss": 0.1922,
+      "step": 1280,
+      "task_loss": 0.4599601924419403
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1672298014163971,
+      "epoch": 0.47,
+      "learning_rate": 1.9703536849142864e-06,
+      "loss": 0.1801,
+      "step": 1290,
+      "task_loss": 0.364857017993927
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13718703389167786,
+      "epoch": 0.47,
+      "learning_rate": 1.9698945997297722e-06,
+      "loss": 0.1898,
+      "step": 1300,
+      "task_loss": 0.32751551270484924
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15767154097557068,
+      "epoch": 0.47,
+      "learning_rate": 1.969432041556816e-06,
+      "loss": 0.191,
+      "step": 1310,
+      "task_loss": 0.5771661400794983
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16633427143096924,
+      "epoch": 0.48,
+      "learning_rate": 1.968966012051741e-06,
+      "loss": 0.1904,
+      "step": 1320,
+      "task_loss": 0.20087338984012604
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18319915235042572,
+      "epoch": 0.48,
+      "learning_rate": 1.9684965128833016e-06,
+      "loss": 0.1653,
+      "step": 1330,
+      "task_loss": 0.3794475197792053
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14207670092582703,
+      "epoch": 0.48,
+      "learning_rate": 1.968023545732675e-06,
+      "loss": 0.1643,
+      "step": 1340,
+      "task_loss": 0.44781196117401123
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18061572313308716,
+      "epoch": 0.49,
+      "learning_rate": 1.967547112293457e-06,
+      "loss": 0.1737,
+      "step": 1350,
+      "task_loss": 0.39925694465637207
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12682190537452698,
+      "epoch": 0.49,
+      "learning_rate": 1.967067214271656e-06,
+      "loss": 0.1698,
+      "step": 1360,
+      "task_loss": 0.3139961063861847
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17150625586509705,
+      "epoch": 0.5,
+      "learning_rate": 1.966583853385685e-06,
+      "loss": 0.1768,
+      "step": 1370,
+      "task_loss": 0.6008814573287964
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1599908322095871,
+      "epoch": 0.5,
+      "learning_rate": 1.9660970313663583e-06,
+      "loss": 0.171,
+      "step": 1380,
+      "task_loss": 0.4636422395706177
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14392361044883728,
+      "epoch": 0.5,
+      "learning_rate": 1.9656067499568826e-06,
+      "loss": 0.1899,
+      "step": 1390,
+      "task_loss": 0.3466000258922577
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15924058854579926,
+      "epoch": 0.51,
+      "learning_rate": 1.965113010912853e-06,
+      "loss": 0.1803,
+      "step": 1400,
+      "task_loss": 0.5084146857261658
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16537730395793915,
+      "epoch": 0.51,
+      "learning_rate": 1.964615816002244e-06,
+      "loss": 0.1729,
+      "step": 1410,
+      "task_loss": 0.5999622344970703
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16629469394683838,
+      "epoch": 0.51,
+      "learning_rate": 1.9641151670054075e-06,
+      "loss": 0.1845,
+      "step": 1420,
+      "task_loss": 0.32429054379463196
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16834649443626404,
+      "epoch": 0.52,
+      "learning_rate": 1.963611065715061e-06,
+      "loss": 0.1705,
+      "step": 1430,
+      "task_loss": 0.21305644512176514
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1554267406463623,
+      "epoch": 0.52,
+      "learning_rate": 1.963103513936286e-06,
+      "loss": 0.1904,
+      "step": 1440,
+      "task_loss": 0.22570659220218658
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20235656201839447,
+      "epoch": 0.52,
+      "learning_rate": 1.9625925134865174e-06,
+      "loss": 0.1898,
+      "step": 1450,
+      "task_loss": 0.3236815333366394
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15887069702148438,
+      "epoch": 0.53,
+      "learning_rate": 1.9620780661955414e-06,
+      "loss": 0.1798,
+      "step": 1460,
+      "task_loss": 0.6010942459106445
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15550808608531952,
+      "epoch": 0.53,
+      "learning_rate": 1.961560173905485e-06,
+      "loss": 0.1817,
+      "step": 1470,
+      "task_loss": 0.18300172686576843
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1984330117702484,
+      "epoch": 0.53,
+      "learning_rate": 1.961038838470812e-06,
+      "loss": 0.1697,
+      "step": 1480,
+      "task_loss": 0.5193182826042175
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15731069445610046,
+      "epoch": 0.54,
+      "learning_rate": 1.9605140617583136e-06,
+      "loss": 0.1775,
+      "step": 1490,
+      "task_loss": 0.6436678171157837
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18328088521957397,
+      "epoch": 0.54,
+      "learning_rate": 1.959985845647106e-06,
+      "loss": 0.1778,
+      "step": 1500,
+      "task_loss": 0.4055144190788269
+    },
+    {
+      "epoch": 0.54,
+      "eval_exact_match": 83.79375591296122,
+      "eval_f1": 90.07183397891889,
+      "step": 1500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.28984278440475464,
+      "epoch": 0.55,
+      "learning_rate": 1.95945419202862e-06,
+      "loss": 0.1925,
+      "step": 1510,
+      "task_loss": 0.5853183269500732
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15279538929462433,
+      "epoch": 0.55,
+      "learning_rate": 1.9589191028065944e-06,
+      "loss": 0.1724,
+      "step": 1520,
+      "task_loss": 0.1796664148569107
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1945275217294693,
+      "epoch": 0.55,
+      "learning_rate": 1.958380579897072e-06,
+      "loss": 0.1913,
+      "step": 1530,
+      "task_loss": 1.093052625656128
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19740872085094452,
+      "epoch": 0.56,
+      "learning_rate": 1.9578386252283893e-06,
+      "loss": 0.1837,
+      "step": 1540,
+      "task_loss": 0.2792867422103882
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16871120035648346,
+      "epoch": 0.56,
+      "learning_rate": 1.9572932407411715e-06,
+      "loss": 0.1797,
+      "step": 1550,
+      "task_loss": 0.3847885727882385
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15976202487945557,
+      "epoch": 0.56,
+      "learning_rate": 1.9567444283883274e-06,
+      "loss": 0.1712,
+      "step": 1560,
+      "task_loss": 0.4087778925895691
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17347773909568787,
+      "epoch": 0.57,
+      "learning_rate": 1.956192190135037e-06,
+      "loss": 0.1796,
+      "step": 1570,
+      "task_loss": 0.6276683211326599
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1492072194814682,
+      "epoch": 0.57,
+      "learning_rate": 1.95563652795875e-06,
+      "loss": 0.188,
+      "step": 1580,
+      "task_loss": 0.406479150056839
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15427610278129578,
+      "epoch": 0.57,
+      "learning_rate": 1.955077443849175e-06,
+      "loss": 0.1677,
+      "step": 1590,
+      "task_loss": 0.21835781633853912
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17291224002838135,
+      "epoch": 0.58,
+      "learning_rate": 1.954514939808275e-06,
+      "loss": 0.1772,
+      "step": 1600,
+      "task_loss": 0.5329791903495789
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17131741344928741,
+      "epoch": 0.58,
+      "learning_rate": 1.9539490178502587e-06,
+      "loss": 0.1668,
+      "step": 1610,
+      "task_loss": 0.42593175172805786
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1412690430879593,
+      "epoch": 0.59,
+      "learning_rate": 1.9533796800015736e-06,
+      "loss": 0.188,
+      "step": 1620,
+      "task_loss": 0.4295274317264557
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1931207925081253,
+      "epoch": 0.59,
+      "learning_rate": 1.952806928300898e-06,
+      "loss": 0.1789,
+      "step": 1630,
+      "task_loss": 0.33001917600631714
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15779228508472443,
+      "epoch": 0.59,
+      "learning_rate": 1.9522307647991365e-06,
+      "loss": 0.1735,
+      "step": 1640,
+      "task_loss": 0.35899198055267334
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17678138613700867,
+      "epoch": 0.6,
+      "learning_rate": 1.951651191559408e-06,
+      "loss": 0.173,
+      "step": 1650,
+      "task_loss": 0.30126041173934937
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14263349771499634,
+      "epoch": 0.6,
+      "learning_rate": 1.951068210657043e-06,
+      "loss": 0.1911,
+      "step": 1660,
+      "task_loss": 0.3900689482688904
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14301198720932007,
+      "epoch": 0.6,
+      "learning_rate": 1.9504818241795735e-06,
+      "loss": 0.1635,
+      "step": 1670,
+      "task_loss": 0.27476924657821655
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1587420105934143,
+      "epoch": 0.61,
+      "learning_rate": 1.9498920342267256e-06,
+      "loss": 0.177,
+      "step": 1680,
+      "task_loss": 0.5345589518547058
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18046513199806213,
+      "epoch": 0.61,
+      "learning_rate": 1.949298842910413e-06,
+      "loss": 0.1811,
+      "step": 1690,
+      "task_loss": 0.5509105324745178
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11487637460231781,
+      "epoch": 0.61,
+      "learning_rate": 1.9487022523547296e-06,
+      "loss": 0.1728,
+      "step": 1700,
+      "task_loss": 0.3565746545791626
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1578724980354309,
+      "epoch": 0.62,
+      "learning_rate": 1.9481022646959403e-06,
+      "loss": 0.1859,
+      "step": 1710,
+      "task_loss": 0.42493292689323425
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2012399435043335,
+      "epoch": 0.62,
+      "learning_rate": 1.9474988820824743e-06,
+      "loss": 0.1704,
+      "step": 1720,
+      "task_loss": 0.4968900978565216
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1466311812400818,
+      "epoch": 0.63,
+      "learning_rate": 1.946892106674918e-06,
+      "loss": 0.1922,
+      "step": 1730,
+      "task_loss": 0.3440721035003662
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18941572308540344,
+      "epoch": 0.63,
+      "learning_rate": 1.9462819406460066e-06,
+      "loss": 0.1898,
+      "step": 1740,
+      "task_loss": 0.7371132373809814
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14826852083206177,
+      "epoch": 0.63,
+      "learning_rate": 1.945668386180616e-06,
+      "loss": 0.1803,
+      "step": 1750,
+      "task_loss": 0.34923413395881653
+    },
+    {
+      "epoch": 0.63,
+      "eval_exact_match": 83.75591296121098,
+      "eval_f1": 90.08127134672708,
+      "step": 1750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12791767716407776,
+      "epoch": 0.64,
+      "learning_rate": 1.9450514454757557e-06,
+      "loss": 0.1798,
+      "step": 1760,
+      "task_loss": 0.26741665601730347
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20207276940345764,
+      "epoch": 0.64,
+      "learning_rate": 1.9444311207405607e-06,
+      "loss": 0.1768,
+      "step": 1770,
+      "task_loss": 0.4358224868774414
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14697374403476715,
+      "epoch": 0.64,
+      "learning_rate": 1.943807414196283e-06,
+      "loss": 0.1722,
+      "step": 1780,
+      "task_loss": 0.4396517276763916
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14546442031860352,
+      "epoch": 0.65,
+      "learning_rate": 1.9431803280762847e-06,
+      "loss": 0.1789,
+      "step": 1790,
+      "task_loss": 0.4033772945404053
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18037843704223633,
+      "epoch": 0.65,
+      "learning_rate": 1.942549864626029e-06,
+      "loss": 0.1731,
+      "step": 1800,
+      "task_loss": 0.17874035239219666
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1852273941040039,
+      "epoch": 0.65,
+      "learning_rate": 1.9419160261030732e-06,
+      "loss": 0.1759,
+      "step": 1810,
+      "task_loss": 0.7803164720535278
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18808463215827942,
+      "epoch": 0.66,
+      "learning_rate": 1.941278814777059e-06,
+      "loss": 0.1729,
+      "step": 1820,
+      "task_loss": 0.2709602415561676
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15545278787612915,
+      "epoch": 0.66,
+      "learning_rate": 1.940638232929707e-06,
+      "loss": 0.1833,
+      "step": 1830,
+      "task_loss": 0.5003842115402222
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1838669627904892,
+      "epoch": 0.66,
+      "learning_rate": 1.939994282854805e-06,
+      "loss": 0.1838,
+      "step": 1840,
+      "task_loss": 0.5018002986907959
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1540856808423996,
+      "epoch": 0.67,
+      "learning_rate": 1.9393469668582037e-06,
+      "loss": 0.188,
+      "step": 1850,
+      "task_loss": 0.4272739291191101
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18242205679416656,
+      "epoch": 0.67,
+      "learning_rate": 1.9386962872578046e-06,
+      "loss": 0.1845,
+      "step": 1860,
+      "task_loss": 0.6574127674102783
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16230648756027222,
+      "epoch": 0.68,
+      "learning_rate": 1.938042246383555e-06,
+      "loss": 0.179,
+      "step": 1870,
+      "task_loss": 0.3625655174255371
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16737070679664612,
+      "epoch": 0.68,
+      "learning_rate": 1.9373848465774373e-06,
+      "loss": 0.1707,
+      "step": 1880,
+      "task_loss": 0.3662741184234619
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14946278929710388,
+      "epoch": 0.68,
+      "learning_rate": 1.936724090193462e-06,
+      "loss": 0.1815,
+      "step": 1890,
+      "task_loss": 0.4266752600669861
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14057648181915283,
+      "epoch": 0.69,
+      "learning_rate": 1.936059979597658e-06,
+      "loss": 0.1713,
+      "step": 1900,
+      "task_loss": 0.19198694825172424
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13985538482666016,
+      "epoch": 0.69,
+      "learning_rate": 1.9353925171680666e-06,
+      "loss": 0.1662,
+      "step": 1910,
+      "task_loss": 0.3392411172389984
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16503742337226868,
+      "epoch": 0.69,
+      "learning_rate": 1.93472170529473e-06,
+      "loss": 0.1854,
+      "step": 1920,
+      "task_loss": 0.4105537533760071
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16417258977890015,
+      "epoch": 0.7,
+      "learning_rate": 1.9340475463796833e-06,
+      "loss": 0.1803,
+      "step": 1930,
+      "task_loss": 0.3279024660587311
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1898116171360016,
+      "epoch": 0.7,
+      "learning_rate": 1.9333700428369494e-06,
+      "loss": 0.1849,
+      "step": 1940,
+      "task_loss": 0.6425855755805969
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15912674367427826,
+      "epoch": 0.7,
+      "learning_rate": 1.9326891970925246e-06,
+      "loss": 0.1801,
+      "step": 1950,
+      "task_loss": 0.3348599970340729
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22277340292930603,
+      "epoch": 0.71,
+      "learning_rate": 1.9320050115843748e-06,
+      "loss": 0.1904,
+      "step": 1960,
+      "task_loss": 0.525826096534729
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19547489285469055,
+      "epoch": 0.71,
+      "learning_rate": 1.9313174887624245e-06,
+      "loss": 0.1759,
+      "step": 1970,
+      "task_loss": 0.47217780351638794
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16027839481830597,
+      "epoch": 0.72,
+      "learning_rate": 1.930626631088548e-06,
+      "loss": 0.1846,
+      "step": 1980,
+      "task_loss": 0.3707219362258911
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2344164252281189,
+      "epoch": 0.72,
+      "learning_rate": 1.9299324410365607e-06,
+      "loss": 0.1822,
+      "step": 1990,
+      "task_loss": 0.44019412994384766
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1779266893863678,
+      "epoch": 0.72,
+      "learning_rate": 1.9292349210922114e-06,
+      "loss": 0.1815,
+      "step": 2000,
+      "task_loss": 0.2988145351409912
+    },
+    {
+      "epoch": 0.72,
+      "eval_exact_match": 83.75591296121098,
+      "eval_f1": 90.10693629002859,
+      "step": 2000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19847017526626587,
+      "epoch": 0.73,
+      "learning_rate": 1.928534073753173e-06,
+      "loss": 0.1785,
+      "step": 2010,
+      "task_loss": 0.42653709650039673
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15378426015377045,
+      "epoch": 0.73,
+      "learning_rate": 1.9278299015290313e-06,
+      "loss": 0.1681,
+      "step": 2020,
+      "task_loss": 0.3308219909667969
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16970130801200867,
+      "epoch": 0.73,
+      "learning_rate": 1.9271224069412792e-06,
+      "loss": 0.1797,
+      "step": 2030,
+      "task_loss": 0.5738540887832642
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1360698640346527,
+      "epoch": 0.74,
+      "learning_rate": 1.9264115925233063e-06,
+      "loss": 0.1678,
+      "step": 2040,
+      "task_loss": 0.2731480300426483
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14180555939674377,
+      "epoch": 0.74,
+      "learning_rate": 1.925697460820389e-06,
+      "loss": 0.1714,
+      "step": 2050,
+      "task_loss": 0.4451160132884979
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16470122337341309,
+      "epoch": 0.74,
+      "learning_rate": 1.9249800143896825e-06,
+      "loss": 0.1865,
+      "step": 2060,
+      "task_loss": 0.9461302161216736
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13804659247398376,
+      "epoch": 0.75,
+      "learning_rate": 1.9242592558002116e-06,
+      "loss": 0.1804,
+      "step": 2070,
+      "task_loss": 0.5417971611022949
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20538190007209778,
+      "epoch": 0.75,
+      "learning_rate": 1.9235351876328612e-06,
+      "loss": 0.1716,
+      "step": 2080,
+      "task_loss": 0.468280553817749
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17718102037906647,
+      "epoch": 0.76,
+      "learning_rate": 1.9228078124803676e-06,
+      "loss": 0.1694,
+      "step": 2090,
+      "task_loss": 0.4932321608066559
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1479235589504242,
+      "epoch": 0.76,
+      "learning_rate": 1.922077132947307e-06,
+      "loss": 0.1831,
+      "step": 2100,
+      "task_loss": 0.3168169856071472
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22004127502441406,
+      "epoch": 0.76,
+      "learning_rate": 1.9213431516500902e-06,
+      "loss": 0.1788,
+      "step": 2110,
+      "task_loss": 0.5075056552886963
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16012755036354065,
+      "epoch": 0.77,
+      "learning_rate": 1.920605871216949e-06,
+      "loss": 0.1779,
+      "step": 2120,
+      "task_loss": 0.4837586581707001
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15686213970184326,
+      "epoch": 0.77,
+      "learning_rate": 1.919865294287929e-06,
+      "loss": 0.1832,
+      "step": 2130,
+      "task_loss": 0.3587515950202942
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15825381875038147,
+      "epoch": 0.77,
+      "learning_rate": 1.919121423514882e-06,
+      "loss": 0.1663,
+      "step": 2140,
+      "task_loss": 0.27808576822280884
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16749948263168335,
+      "epoch": 0.78,
+      "learning_rate": 1.918374261561451e-06,
+      "loss": 0.1727,
+      "step": 2150,
+      "task_loss": 0.3993534445762634
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14597871899604797,
+      "epoch": 0.78,
+      "learning_rate": 1.9176238111030663e-06,
+      "loss": 0.1674,
+      "step": 2160,
+      "task_loss": 0.2307223528623581
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15081357955932617,
+      "epoch": 0.78,
+      "learning_rate": 1.9168700748269336e-06,
+      "loss": 0.1965,
+      "step": 2170,
+      "task_loss": 0.2585129141807556
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16626910865306854,
+      "epoch": 0.79,
+      "learning_rate": 1.916113055432023e-06,
+      "loss": 0.1749,
+      "step": 2180,
+      "task_loss": 0.3819560408592224
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.161339670419693,
+      "epoch": 0.79,
+      "learning_rate": 1.915352755629062e-06,
+      "loss": 0.1702,
+      "step": 2190,
+      "task_loss": 0.4928886592388153
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15861815214157104,
+      "epoch": 0.8,
+      "learning_rate": 1.9145891781405242e-06,
+      "loss": 0.1737,
+      "step": 2200,
+      "task_loss": 0.4635201096534729
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16528362035751343,
+      "epoch": 0.8,
+      "learning_rate": 1.91382232570062e-06,
+      "loss": 0.1802,
+      "step": 2210,
+      "task_loss": 0.5430650115013123
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13787183165550232,
+      "epoch": 0.8,
+      "learning_rate": 1.9130522010552868e-06,
+      "loss": 0.1701,
+      "step": 2220,
+      "task_loss": 0.24549484252929688
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13275370001792908,
+      "epoch": 0.81,
+      "learning_rate": 1.9122788069621785e-06,
+      "loss": 0.1586,
+      "step": 2230,
+      "task_loss": 0.3313102722167969
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21796873211860657,
+      "epoch": 0.81,
+      "learning_rate": 1.9115021461906563e-06,
+      "loss": 0.1696,
+      "step": 2240,
+      "task_loss": 0.6265380382537842
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1380050778388977,
+      "epoch": 0.81,
+      "learning_rate": 1.9107222215217797e-06,
+      "loss": 0.1662,
+      "step": 2250,
+      "task_loss": 0.4539833068847656
+    },
+    {
+      "epoch": 0.81,
+      "eval_exact_match": 83.8221381267739,
+      "eval_f1": 90.09116234913313,
+      "step": 2250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1531752347946167,
+      "epoch": 0.82,
+      "learning_rate": 1.9099390357482943e-06,
+      "loss": 0.1697,
+      "step": 2260,
+      "task_loss": 0.1812114119529724
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19936254620552063,
+      "epoch": 0.82,
+      "learning_rate": 1.9091525916746236e-06,
+      "loss": 0.1869,
+      "step": 2270,
+      "task_loss": 0.382361501455307
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18323323130607605,
+      "epoch": 0.82,
+      "learning_rate": 1.9083628921168582e-06,
+      "loss": 0.174,
+      "step": 2280,
+      "task_loss": 0.30770325660705566
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1802387237548828,
+      "epoch": 0.83,
+      "learning_rate": 1.9075699399027466e-06,
+      "loss": 0.1861,
+      "step": 2290,
+      "task_loss": 0.521061897277832
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18234525620937347,
+      "epoch": 0.83,
+      "learning_rate": 1.9067737378716833e-06,
+      "loss": 0.2008,
+      "step": 2300,
+      "task_loss": 0.2811727225780487
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16019967198371887,
+      "epoch": 0.83,
+      "learning_rate": 1.9059742888747002e-06,
+      "loss": 0.1948,
+      "step": 2310,
+      "task_loss": 0.4444176256656647
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15703542530536652,
+      "epoch": 0.84,
+      "learning_rate": 1.9051715957744562e-06,
+      "loss": 0.1685,
+      "step": 2320,
+      "task_loss": 0.3662908673286438
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14924360811710358,
+      "epoch": 0.84,
+      "learning_rate": 1.9043656614452257e-06,
+      "loss": 0.18,
+      "step": 2330,
+      "task_loss": 0.32921046018600464
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15606483817100525,
+      "epoch": 0.85,
+      "learning_rate": 1.9035564887728907e-06,
+      "loss": 0.1725,
+      "step": 2340,
+      "task_loss": 0.5169017910957336
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16825850307941437,
+      "epoch": 0.85,
+      "learning_rate": 1.902744080654928e-06,
+      "loss": 0.1805,
+      "step": 2350,
+      "task_loss": 0.493346244096756
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22923272848129272,
+      "epoch": 0.85,
+      "learning_rate": 1.9019284400003998e-06,
+      "loss": 0.1885,
+      "step": 2360,
+      "task_loss": 0.4266737997531891
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18409624695777893,
+      "epoch": 0.86,
+      "learning_rate": 1.901109569729944e-06,
+      "loss": 0.1706,
+      "step": 2370,
+      "task_loss": 0.2116602510213852
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1556832194328308,
+      "epoch": 0.86,
+      "learning_rate": 1.9002874727757627e-06,
+      "loss": 0.1654,
+      "step": 2380,
+      "task_loss": 0.324906587600708
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21795554459095,
+      "epoch": 0.86,
+      "learning_rate": 1.899462152081612e-06,
+      "loss": 0.1917,
+      "step": 2390,
+      "task_loss": 0.5224672555923462
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1452036201953888,
+      "epoch": 0.87,
+      "learning_rate": 1.898633610602791e-06,
+      "loss": 0.1783,
+      "step": 2400,
+      "task_loss": 0.29410141706466675
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14028596878051758,
+      "epoch": 0.87,
+      "learning_rate": 1.8978018513061333e-06,
+      "loss": 0.1796,
+      "step": 2410,
+      "task_loss": 0.22278541326522827
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13686451315879822,
+      "epoch": 0.87,
+      "learning_rate": 1.8969668771699936e-06,
+      "loss": 0.1592,
+      "step": 2420,
+      "task_loss": 0.2901807129383087
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17762663960456848,
+      "epoch": 0.88,
+      "learning_rate": 1.8961286911842385e-06,
+      "loss": 0.18,
+      "step": 2430,
+      "task_loss": 0.6580682992935181
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15839552879333496,
+      "epoch": 0.88,
+      "learning_rate": 1.8952872963502354e-06,
+      "loss": 0.1748,
+      "step": 2440,
+      "task_loss": 0.33616119623184204
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1614687591791153,
+      "epoch": 0.89,
+      "learning_rate": 1.8944426956808423e-06,
+      "loss": 0.1668,
+      "step": 2450,
+      "task_loss": 0.3434739112854004
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1861266791820526,
+      "epoch": 0.89,
+      "learning_rate": 1.8935948922003964e-06,
+      "loss": 0.1747,
+      "step": 2460,
+      "task_loss": 0.5159826278686523
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19838041067123413,
+      "epoch": 0.89,
+      "learning_rate": 1.8927438889447037e-06,
+      "loss": 0.1775,
+      "step": 2470,
+      "task_loss": 0.4625704288482666
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14603759348392487,
+      "epoch": 0.9,
+      "learning_rate": 1.8918896889610276e-06,
+      "loss": 0.1915,
+      "step": 2480,
+      "task_loss": 0.7576199769973755
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16346848011016846,
+      "epoch": 0.9,
+      "learning_rate": 1.8910322953080787e-06,
+      "loss": 0.1776,
+      "step": 2490,
+      "task_loss": 0.4902191162109375
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14848199486732483,
+      "epoch": 0.9,
+      "learning_rate": 1.890171711056003e-06,
+      "loss": 0.1751,
+      "step": 2500,
+      "task_loss": 0.4773310720920563
+    },
+    {
+      "epoch": 0.9,
+      "eval_exact_match": 83.52885525070955,
+      "eval_f1": 90.03965181607728,
+      "step": 2500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1388649195432663,
+      "epoch": 0.91,
+      "learning_rate": 1.8893079392863714e-06,
+      "loss": 0.1646,
+      "step": 2510,
+      "task_loss": 0.3831629157066345
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13925893604755402,
+      "epoch": 0.91,
+      "learning_rate": 1.8884409830921692e-06,
+      "loss": 0.1754,
+      "step": 2520,
+      "task_loss": 0.4401072859764099
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20444272458553314,
+      "epoch": 0.91,
+      "learning_rate": 1.887570845577784e-06,
+      "loss": 0.1794,
+      "step": 2530,
+      "task_loss": 0.545073390007019
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15069428086280823,
+      "epoch": 0.92,
+      "learning_rate": 1.8866975298589949e-06,
+      "loss": 0.183,
+      "step": 2540,
+      "task_loss": 0.3420984745025635
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1433373987674713,
+      "epoch": 0.92,
+      "learning_rate": 1.885821039062962e-06,
+      "loss": 0.1709,
+      "step": 2550,
+      "task_loss": 0.3048064112663269
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14648103713989258,
+      "epoch": 0.93,
+      "learning_rate": 1.8849413763282144e-06,
+      "loss": 0.1836,
+      "step": 2560,
+      "task_loss": 0.4393615424633026
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1583467423915863,
+      "epoch": 0.93,
+      "learning_rate": 1.8840585448046386e-06,
+      "loss": 0.1746,
+      "step": 2570,
+      "task_loss": 0.5558731555938721
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1908012479543686,
+      "epoch": 0.93,
+      "learning_rate": 1.8831725476534693e-06,
+      "loss": 0.1818,
+      "step": 2580,
+      "task_loss": 0.3851405382156372
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15493538975715637,
+      "epoch": 0.94,
+      "learning_rate": 1.882283388047275e-06,
+      "loss": 0.1796,
+      "step": 2590,
+      "task_loss": 0.4332561492919922
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18247196078300476,
+      "epoch": 0.94,
+      "learning_rate": 1.88139106916995e-06,
+      "loss": 0.1842,
+      "step": 2600,
+      "task_loss": 0.3662012219429016
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16121315956115723,
+      "epoch": 0.94,
+      "learning_rate": 1.8804955942167e-06,
+      "loss": 0.1717,
+      "step": 2610,
+      "task_loss": 0.7887633442878723
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13026580214500427,
+      "epoch": 0.95,
+      "learning_rate": 1.879596966394032e-06,
+      "loss": 0.1763,
+      "step": 2620,
+      "task_loss": 0.3799874186515808
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1766907274723053,
+      "epoch": 0.95,
+      "learning_rate": 1.8786951889197438e-06,
+      "loss": 0.178,
+      "step": 2630,
+      "task_loss": 0.4739248752593994
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1579083502292633,
+      "epoch": 0.95,
+      "learning_rate": 1.8777902650229103e-06,
+      "loss": 0.1818,
+      "step": 2640,
+      "task_loss": 0.5713690519332886
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19626328349113464,
+      "epoch": 0.96,
+      "learning_rate": 1.8768821979438739e-06,
+      "loss": 0.1771,
+      "step": 2650,
+      "task_loss": 0.3688851594924927
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15492022037506104,
+      "epoch": 0.96,
+      "learning_rate": 1.875970990934231e-06,
+      "loss": 0.1747,
+      "step": 2660,
+      "task_loss": 0.36857369542121887
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21618108451366425,
+      "epoch": 0.96,
+      "learning_rate": 1.875056647256823e-06,
+      "loss": 0.1856,
+      "step": 2670,
+      "task_loss": 0.5106911659240723
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13856954872608185,
+      "epoch": 0.97,
+      "learning_rate": 1.8741391701857215e-06,
+      "loss": 0.1816,
+      "step": 2680,
+      "task_loss": 0.3294844627380371
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14490175247192383,
+      "epoch": 0.97,
+      "learning_rate": 1.873218563006219e-06,
+      "loss": 0.1729,
+      "step": 2690,
+      "task_loss": 0.3456054627895355
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.142696350812912,
+      "epoch": 0.98,
+      "learning_rate": 1.8722948290148161e-06,
+      "loss": 0.1744,
+      "step": 2700,
+      "task_loss": 0.3695463538169861
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2125137597322464,
+      "epoch": 0.98,
+      "learning_rate": 1.8713679715192102e-06,
+      "loss": 0.1904,
+      "step": 2710,
+      "task_loss": 0.5505295991897583
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1854153871536255,
+      "epoch": 0.98,
+      "learning_rate": 1.8704379938382822e-06,
+      "loss": 0.1877,
+      "step": 2720,
+      "task_loss": 0.4623679220676422
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1481424868106842,
+      "epoch": 0.99,
+      "learning_rate": 1.869504899302087e-06,
+      "loss": 0.1965,
+      "step": 2730,
+      "task_loss": 0.26727068424224854
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16843540966510773,
+      "epoch": 0.99,
+      "learning_rate": 1.8685686912518394e-06,
+      "loss": 0.1715,
+      "step": 2740,
+      "task_loss": 0.4420323967933655
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15341581404209137,
+      "epoch": 0.99,
+      "learning_rate": 1.8676293730399038e-06,
+      "loss": 0.1783,
+      "step": 2750,
+      "task_loss": 0.701764702796936
+    },
+    {
+      "epoch": 0.99,
+      "eval_exact_match": 83.72753074739829,
+      "eval_f1": 90.08435171358782,
+      "step": 2750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19545786082744598,
+      "epoch": 1.0,
+      "learning_rate": 1.8666869480297808e-06,
+      "loss": 0.1802,
+      "step": 2760,
+      "task_loss": 0.30919766426086426
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15790414810180664,
+      "epoch": 1.0,
+      "learning_rate": 1.8657414195960958e-06,
+      "loss": 0.164,
+      "step": 2770,
+      "task_loss": 0.6185303926467896
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18240132927894592,
+      "epoch": 1.0,
+      "learning_rate": 1.8647927911245875e-06,
+      "loss": 0.1829,
+      "step": 2780,
+      "task_loss": 0.4996330142021179
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17760756611824036,
+      "epoch": 1.01,
+      "learning_rate": 1.8638410660120947e-06,
+      "loss": 0.1736,
+      "step": 2790,
+      "task_loss": 0.34335148334503174
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14696209132671356,
+      "epoch": 1.01,
+      "learning_rate": 1.8628862476665448e-06,
+      "loss": 0.1828,
+      "step": 2800,
+      "task_loss": 0.42722922563552856
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15718209743499756,
+      "epoch": 1.02,
+      "learning_rate": 1.8619283395069409e-06,
+      "loss": 0.1764,
+      "step": 2810,
+      "task_loss": 0.35283511877059937
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15315774083137512,
+      "epoch": 1.02,
+      "learning_rate": 1.8609673449633513e-06,
+      "loss": 0.1858,
+      "step": 2820,
+      "task_loss": 0.38201355934143066
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1411234736442566,
+      "epoch": 1.02,
+      "learning_rate": 1.8600032674768947e-06,
+      "loss": 0.1745,
+      "step": 2830,
+      "task_loss": 0.5564037561416626
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14134261012077332,
+      "epoch": 1.03,
+      "learning_rate": 1.8590361104997298e-06,
+      "loss": 0.1873,
+      "step": 2840,
+      "task_loss": 0.28306859731674194
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15581990778446198,
+      "epoch": 1.03,
+      "learning_rate": 1.858065877495042e-06,
+      "loss": 0.1664,
+      "step": 2850,
+      "task_loss": 0.5072811245918274
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1485014408826828,
+      "epoch": 1.03,
+      "learning_rate": 1.857092571937032e-06,
+      "loss": 0.1805,
+      "step": 2860,
+      "task_loss": 0.48709845542907715
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16704809665679932,
+      "epoch": 1.04,
+      "learning_rate": 1.8561161973109014e-06,
+      "loss": 0.1867,
+      "step": 2870,
+      "task_loss": 0.6069858074188232
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.148666113615036,
+      "epoch": 1.04,
+      "learning_rate": 1.8551367571128429e-06,
+      "loss": 0.1896,
+      "step": 2880,
+      "task_loss": 0.3557353913784027
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16260361671447754,
+      "epoch": 1.04,
+      "learning_rate": 1.8541542548500256e-06,
+      "loss": 0.1756,
+      "step": 2890,
+      "task_loss": 0.416062593460083
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1194634884595871,
+      "epoch": 1.05,
+      "learning_rate": 1.853168694040583e-06,
+      "loss": 0.1718,
+      "step": 2900,
+      "task_loss": 0.17556090652942657
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1434130072593689,
+      "epoch": 1.05,
+      "learning_rate": 1.8521800782136014e-06,
+      "loss": 0.1679,
+      "step": 2910,
+      "task_loss": 0.4673941135406494
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21220733225345612,
+      "epoch": 1.06,
+      "learning_rate": 1.851188410909106e-06,
+      "loss": 0.1763,
+      "step": 2920,
+      "task_loss": 0.562555730342865
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1408117711544037,
+      "epoch": 1.06,
+      "learning_rate": 1.850193695678048e-06,
+      "loss": 0.1688,
+      "step": 2930,
+      "task_loss": 0.3450365662574768
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15347136557102203,
+      "epoch": 1.06,
+      "learning_rate": 1.8491959360822938e-06,
+      "loss": 0.1821,
+      "step": 2940,
+      "task_loss": 0.5536178350448608
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18112389743328094,
+      "epoch": 1.07,
+      "learning_rate": 1.848195135694611e-06,
+      "loss": 0.182,
+      "step": 2950,
+      "task_loss": 0.5740102529525757
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15279173851013184,
+      "epoch": 1.07,
+      "learning_rate": 1.8471912980986544e-06,
+      "loss": 0.1787,
+      "step": 2960,
+      "task_loss": 0.16615566611289978
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16220858693122864,
+      "epoch": 1.07,
+      "learning_rate": 1.846285250419875e-06,
+      "loss": 0.1767,
+      "step": 2970,
+      "task_loss": 0.47266218066215515
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18561126291751862,
+      "epoch": 1.08,
+      "learning_rate": 1.8452756520401107e-06,
+      "loss": 0.1785,
+      "step": 2980,
+      "task_loss": 0.4946807622909546
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14157789945602417,
+      "epoch": 1.08,
+      "learning_rate": 1.8442630269061292e-06,
+      "loss": 0.1778,
+      "step": 2990,
+      "task_loss": 0.34104907512664795
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11815983057022095,
+      "epoch": 1.08,
+      "learning_rate": 1.8432473786439283e-06,
+      "loss": 0.1527,
+      "step": 3000,
+      "task_loss": 0.1873714029788971
+    },
+    {
+      "epoch": 1.08,
+      "eval_exact_match": 83.44370860927152,
+      "eval_f1": 89.90493527722583,
+      "step": 3000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16796885430812836,
+      "epoch": 1.09,
+      "learning_rate": 1.8422287108903304e-06,
+      "loss": 0.1745,
+      "step": 3010,
+      "task_loss": 0.2368674874305725
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16812004148960114,
+      "epoch": 1.09,
+      "learning_rate": 1.841207027292971e-06,
+      "loss": 0.1866,
+      "step": 3020,
+      "task_loss": 0.6989672183990479
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16153055429458618,
+      "epoch": 1.1,
+      "learning_rate": 1.8401823315102833e-06,
+      "loss": 0.178,
+      "step": 3030,
+      "task_loss": 0.43721848726272583
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12805390357971191,
+      "epoch": 1.1,
+      "learning_rate": 1.8391546272114878e-06,
+      "loss": 0.1755,
+      "step": 3040,
+      "task_loss": 0.2398868352174759
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1456378549337387,
+      "epoch": 1.1,
+      "learning_rate": 1.8381239180765768e-06,
+      "loss": 0.1684,
+      "step": 3050,
+      "task_loss": 0.5672136545181274
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15030169486999512,
+      "epoch": 1.11,
+      "learning_rate": 1.837090207796303e-06,
+      "loss": 0.1841,
+      "step": 3060,
+      "task_loss": 0.4073163568973541
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1696191281080246,
+      "epoch": 1.11,
+      "learning_rate": 1.8360535000721655e-06,
+      "loss": 0.1798,
+      "step": 3070,
+      "task_loss": 0.5377500057220459
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18132445216178894,
+      "epoch": 1.11,
+      "learning_rate": 1.8350137986163965e-06,
+      "loss": 0.1859,
+      "step": 3080,
+      "task_loss": 0.5428669452667236
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12620098888874054,
+      "epoch": 1.12,
+      "learning_rate": 1.8339711071519482e-06,
+      "loss": 0.1726,
+      "step": 3090,
+      "task_loss": 0.36496835947036743
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12938401103019714,
+      "epoch": 1.12,
+      "learning_rate": 1.8329254294124787e-06,
+      "loss": 0.1684,
+      "step": 3100,
+      "task_loss": 0.3683048486709595
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17861530184745789,
+      "epoch": 1.12,
+      "learning_rate": 1.8318767691423402e-06,
+      "loss": 0.1882,
+      "step": 3110,
+      "task_loss": 0.43564486503601074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1419188380241394,
+      "epoch": 1.13,
+      "learning_rate": 1.830825130096565e-06,
+      "loss": 0.1769,
+      "step": 3120,
+      "task_loss": 0.5064725875854492
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18351003527641296,
+      "epoch": 1.13,
+      "learning_rate": 1.8297705160408503e-06,
+      "loss": 0.1623,
+      "step": 3130,
+      "task_loss": 0.4635063409805298
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1454399824142456,
+      "epoch": 1.13,
+      "learning_rate": 1.8287129307515478e-06,
+      "loss": 0.1687,
+      "step": 3140,
+      "task_loss": 0.3754516839981079
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1441243588924408,
+      "epoch": 1.14,
+      "learning_rate": 1.8276523780156474e-06,
+      "loss": 0.1763,
+      "step": 3150,
+      "task_loss": 0.3571741580963135
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15150251984596252,
+      "epoch": 1.14,
+      "learning_rate": 1.8265888616307657e-06,
+      "loss": 0.1837,
+      "step": 3160,
+      "task_loss": 0.34464773535728455
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13545379042625427,
+      "epoch": 1.15,
+      "learning_rate": 1.8255223854051305e-06,
+      "loss": 0.1715,
+      "step": 3170,
+      "task_loss": 0.3557414412498474
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1452762484550476,
+      "epoch": 1.15,
+      "learning_rate": 1.824452953157569e-06,
+      "loss": 0.1874,
+      "step": 3180,
+      "task_loss": 0.3559718728065491
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14096008241176605,
+      "epoch": 1.15,
+      "learning_rate": 1.823380568717493e-06,
+      "loss": 0.1848,
+      "step": 3190,
+      "task_loss": 0.4971044063568115
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2189292013645172,
+      "epoch": 1.16,
+      "learning_rate": 1.8223052359248854e-06,
+      "loss": 0.1742,
+      "step": 3200,
+      "task_loss": 0.3672422766685486
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1771106719970703,
+      "epoch": 1.16,
+      "learning_rate": 1.821226958630287e-06,
+      "loss": 0.1686,
+      "step": 3210,
+      "task_loss": 0.43500882387161255
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12642604112625122,
+      "epoch": 1.16,
+      "learning_rate": 1.8201457406947814e-06,
+      "loss": 0.166,
+      "step": 3220,
+      "task_loss": 0.1765107810497284
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16896989941596985,
+      "epoch": 1.17,
+      "learning_rate": 1.8190615859899824e-06,
+      "loss": 0.1816,
+      "step": 3230,
+      "task_loss": 0.4253600835800171
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18833866715431213,
+      "epoch": 1.17,
+      "learning_rate": 1.8179744983980206e-06,
+      "loss": 0.1822,
+      "step": 3240,
+      "task_loss": 0.48154908418655396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21106314659118652,
+      "epoch": 1.17,
+      "learning_rate": 1.816884481811527e-06,
+      "loss": 0.1856,
+      "step": 3250,
+      "task_loss": 0.4936971664428711
+    },
+    {
+      "epoch": 1.17,
+      "eval_exact_match": 83.6329233680227,
+      "eval_f1": 89.95397066155324,
+      "step": 3250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13803541660308838,
+      "epoch": 1.18,
+      "learning_rate": 1.8157915401336218e-06,
+      "loss": 0.1726,
+      "step": 3260,
+      "task_loss": 0.18990027904510498
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19129733741283417,
+      "epoch": 1.18,
+      "learning_rate": 1.8148053949047202e-06,
+      "loss": 0.1913,
+      "step": 3270,
+      "task_loss": 0.3831537961959839
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15445619821548462,
+      "epoch": 1.19,
+      "learning_rate": 1.8137069063437304e-06,
+      "loss": 0.1686,
+      "step": 3280,
+      "task_loss": 0.43404531478881836
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18276625871658325,
+      "epoch": 1.19,
+      "learning_rate": 1.8126055040695588e-06,
+      "loss": 0.1867,
+      "step": 3290,
+      "task_loss": 0.5082448720932007
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16971507668495178,
+      "epoch": 1.19,
+      "learning_rate": 1.8115011920260946e-06,
+      "loss": 0.1896,
+      "step": 3300,
+      "task_loss": 0.4748695194721222
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15451842546463013,
+      "epoch": 1.2,
+      "learning_rate": 1.8103939741676465e-06,
+      "loss": 0.1619,
+      "step": 3310,
+      "task_loss": 0.5286293029785156
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16968689858913422,
+      "epoch": 1.2,
+      "learning_rate": 1.8092838544589287e-06,
+      "loss": 0.1662,
+      "step": 3320,
+      "task_loss": 0.19997572898864746
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1290392279624939,
+      "epoch": 1.2,
+      "learning_rate": 1.8081708368750466e-06,
+      "loss": 0.1628,
+      "step": 3330,
+      "task_loss": 0.3563808798789978
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12694013118743896,
+      "epoch": 1.21,
+      "learning_rate": 1.8070549254014816e-06,
+      "loss": 0.1722,
+      "step": 3340,
+      "task_loss": 0.3265552818775177
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1317066103219986,
+      "epoch": 1.21,
+      "learning_rate": 1.8059361240340782e-06,
+      "loss": 0.1568,
+      "step": 3350,
+      "task_loss": 0.26479342579841614
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14310331642627716,
+      "epoch": 1.21,
+      "learning_rate": 1.8048144367790284e-06,
+      "loss": 0.1919,
+      "step": 3360,
+      "task_loss": 0.3072636127471924
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15124750137329102,
+      "epoch": 1.22,
+      "learning_rate": 1.803689867652858e-06,
+      "loss": 0.1826,
+      "step": 3370,
+      "task_loss": 0.5191828608512878
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15719471871852875,
+      "epoch": 1.22,
+      "learning_rate": 1.802562420682413e-06,
+      "loss": 0.1727,
+      "step": 3380,
+      "task_loss": 0.3152187466621399
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1399240493774414,
+      "epoch": 1.23,
+      "learning_rate": 1.8014320999048426e-06,
+      "loss": 0.1718,
+      "step": 3390,
+      "task_loss": 0.2820362448692322
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16205359995365143,
+      "epoch": 1.23,
+      "learning_rate": 1.800298909367589e-06,
+      "loss": 0.1843,
+      "step": 3400,
+      "task_loss": 0.36751991510391235
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1521889865398407,
+      "epoch": 1.23,
+      "learning_rate": 1.799162853128368e-06,
+      "loss": 0.1557,
+      "step": 3410,
+      "task_loss": 0.3483598828315735
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1441453993320465,
+      "epoch": 1.24,
+      "learning_rate": 1.7980239352551582e-06,
+      "loss": 0.1681,
+      "step": 3420,
+      "task_loss": 0.5732893943786621
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1875881552696228,
+      "epoch": 1.24,
+      "learning_rate": 1.7968821598261852e-06,
+      "loss": 0.1703,
+      "step": 3430,
+      "task_loss": 0.37429314851760864
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.23559153079986572,
+      "epoch": 1.24,
+      "learning_rate": 1.7957375309299058e-06,
+      "loss": 0.177,
+      "step": 3440,
+      "task_loss": 0.503436803817749
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15299516916275024,
+      "epoch": 1.25,
+      "learning_rate": 1.7945900526649957e-06,
+      "loss": 0.1775,
+      "step": 3450,
+      "task_loss": 0.34383100271224976
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11944176256656647,
+      "epoch": 1.25,
+      "learning_rate": 1.793439729140333e-06,
+      "loss": 0.1805,
+      "step": 3460,
+      "task_loss": 0.1734773814678192
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1728697270154953,
+      "epoch": 1.25,
+      "learning_rate": 1.7922865644749843e-06,
+      "loss": 0.167,
+      "step": 3470,
+      "task_loss": 0.39709553122520447
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1935918629169464,
+      "epoch": 1.26,
+      "learning_rate": 1.7911305627981892e-06,
+      "loss": 0.1799,
+      "step": 3480,
+      "task_loss": 0.4305168092250824
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14809994399547577,
+      "epoch": 1.26,
+      "learning_rate": 1.7899717282493463e-06,
+      "loss": 0.1799,
+      "step": 3490,
+      "task_loss": 0.5099273920059204
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15830612182617188,
+      "epoch": 1.26,
+      "learning_rate": 1.7888100649779986e-06,
+      "loss": 0.1738,
+      "step": 3500,
+      "task_loss": 0.38358789682388306
+    },
+    {
+      "epoch": 1.26,
+      "eval_exact_match": 83.50047303689688,
+      "eval_f1": 89.96018049046944,
+      "step": 3500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15528270602226257,
+      "epoch": 1.27,
+      "learning_rate": 1.7876455771438178e-06,
+      "loss": 0.1765,
+      "step": 3510,
+      "task_loss": 0.24267150461673737
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14513492584228516,
+      "epoch": 1.27,
+      "learning_rate": 1.7864782689165901e-06,
+      "loss": 0.1703,
+      "step": 3520,
+      "task_loss": 0.551958441734314
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13601109385490417,
+      "epoch": 1.28,
+      "learning_rate": 1.7853081444761998e-06,
+      "loss": 0.1683,
+      "step": 3530,
+      "task_loss": 0.2686072289943695
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13815787434577942,
+      "epoch": 1.28,
+      "learning_rate": 1.7841352080126164e-06,
+      "loss": 0.1823,
+      "step": 3540,
+      "task_loss": 0.5631309747695923
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18684223294258118,
+      "epoch": 1.28,
+      "learning_rate": 1.7829594637258792e-06,
+      "loss": 0.1765,
+      "step": 3550,
+      "task_loss": 0.40622183680534363
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16199585795402527,
+      "epoch": 1.29,
+      "learning_rate": 1.7817809158260805e-06,
+      "loss": 0.1833,
+      "step": 3560,
+      "task_loss": 0.537696897983551
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13808155059814453,
+      "epoch": 1.29,
+      "learning_rate": 1.7805995685333524e-06,
+      "loss": 0.1705,
+      "step": 3570,
+      "task_loss": 0.26295095682144165
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21583780646324158,
+      "epoch": 1.29,
+      "learning_rate": 1.7794154260778507e-06,
+      "loss": 0.1735,
+      "step": 3580,
+      "task_loss": 0.4579695463180542
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22117865085601807,
+      "epoch": 1.3,
+      "learning_rate": 1.778228492699741e-06,
+      "loss": 0.1788,
+      "step": 3590,
+      "task_loss": 0.6541140079498291
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17737066745758057,
+      "epoch": 1.3,
+      "learning_rate": 1.7770387726491812e-06,
+      "loss": 0.1802,
+      "step": 3600,
+      "task_loss": 0.3846840262413025
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18559321761131287,
+      "epoch": 1.3,
+      "learning_rate": 1.7758462701863084e-06,
+      "loss": 0.1833,
+      "step": 3610,
+      "task_loss": 0.43720221519470215
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15115341544151306,
+      "epoch": 1.31,
+      "learning_rate": 1.7746509895812238e-06,
+      "loss": 0.1638,
+      "step": 3620,
+      "task_loss": 0.44333165884017944
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15191200375556946,
+      "epoch": 1.31,
+      "learning_rate": 1.773452935113975e-06,
+      "loss": 0.1797,
+      "step": 3630,
+      "task_loss": 0.5943065881729126
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1316663920879364,
+      "epoch": 1.32,
+      "learning_rate": 1.7722521110745427e-06,
+      "loss": 0.1579,
+      "step": 3640,
+      "task_loss": 0.30335086584091187
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14825601875782013,
+      "epoch": 1.32,
+      "learning_rate": 1.7710485217628262e-06,
+      "loss": 0.1763,
+      "step": 3650,
+      "task_loss": 0.2760236859321594
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1533227413892746,
+      "epoch": 1.32,
+      "learning_rate": 1.7698421714886243e-06,
+      "loss": 0.1824,
+      "step": 3660,
+      "task_loss": 0.2671685218811035
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16644388437271118,
+      "epoch": 1.33,
+      "learning_rate": 1.768633064571624e-06,
+      "loss": 0.1936,
+      "step": 3670,
+      "task_loss": 0.49052125215530396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18509739637374878,
+      "epoch": 1.33,
+      "learning_rate": 1.7674212053413822e-06,
+      "loss": 0.1649,
+      "step": 3680,
+      "task_loss": 0.2983229160308838
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14358261227607727,
+      "epoch": 1.33,
+      "learning_rate": 1.7662065981373124e-06,
+      "loss": 0.1789,
+      "step": 3690,
+      "task_loss": 0.28044524788856506
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19266170263290405,
+      "epoch": 1.34,
+      "learning_rate": 1.7649892473086674e-06,
+      "loss": 0.1825,
+      "step": 3700,
+      "task_loss": 0.2881600260734558
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15574830770492554,
+      "epoch": 1.34,
+      "learning_rate": 1.763769157214524e-06,
+      "loss": 0.1734,
+      "step": 3710,
+      "task_loss": 0.33556947112083435
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12162809073925018,
+      "epoch": 1.34,
+      "learning_rate": 1.7625463322237679e-06,
+      "loss": 0.1706,
+      "step": 3720,
+      "task_loss": 0.37808844447135925
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18673118948936462,
+      "epoch": 1.35,
+      "learning_rate": 1.7613207767150783e-06,
+      "loss": 0.1778,
+      "step": 3730,
+      "task_loss": 0.536344587802887
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12695255875587463,
+      "epoch": 1.35,
+      "learning_rate": 1.7600924950769117e-06,
+      "loss": 0.1722,
+      "step": 3740,
+      "task_loss": 0.6155173778533936
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14430446922779083,
+      "epoch": 1.36,
+      "learning_rate": 1.758861491707486e-06,
+      "loss": 0.1741,
+      "step": 3750,
+      "task_loss": 0.35061925649642944
+    },
+    {
+      "epoch": 1.36,
+      "eval_exact_match": 83.4720908230842,
+      "eval_f1": 89.95138805784273,
+      "step": 3750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1242603063583374,
+      "epoch": 1.36,
+      "learning_rate": 1.757627771014765e-06,
+      "loss": 0.1656,
+      "step": 3760,
+      "task_loss": 0.42466431856155396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1508714258670807,
+      "epoch": 1.36,
+      "learning_rate": 1.756391337416443e-06,
+      "loss": 0.1697,
+      "step": 3770,
+      "task_loss": 0.4327700436115265
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1856732964515686,
+      "epoch": 1.37,
+      "learning_rate": 1.7551521953399286e-06,
+      "loss": 0.1926,
+      "step": 3780,
+      "task_loss": 0.5305187702178955
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1641940474510193,
+      "epoch": 1.37,
+      "learning_rate": 1.7539103492223286e-06,
+      "loss": 0.164,
+      "step": 3790,
+      "task_loss": 0.3325423002243042
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15839411318302155,
+      "epoch": 1.37,
+      "learning_rate": 1.752665803510433e-06,
+      "loss": 0.1747,
+      "step": 3800,
+      "task_loss": 0.4586430788040161
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12557630240917206,
+      "epoch": 1.38,
+      "learning_rate": 1.7514185626606972e-06,
+      "loss": 0.1589,
+      "step": 3810,
+      "task_loss": 0.3240758180618286
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1498473584651947,
+      "epoch": 1.38,
+      "learning_rate": 1.7501686311392292e-06,
+      "loss": 0.1709,
+      "step": 3820,
+      "task_loss": 0.33482322096824646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14660826325416565,
+      "epoch": 1.38,
+      "learning_rate": 1.7489160134217702e-06,
+      "loss": 0.1773,
+      "step": 3830,
+      "task_loss": 0.3380383253097534
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17524400353431702,
+      "epoch": 1.39,
+      "learning_rate": 1.7476607139936807e-06,
+      "loss": 0.1801,
+      "step": 3840,
+      "task_loss": 0.5500714182853699
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18646281957626343,
+      "epoch": 1.39,
+      "learning_rate": 1.746402737349924e-06,
+      "loss": 0.1829,
+      "step": 3850,
+      "task_loss": 0.4430808126926422
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18419930338859558,
+      "epoch": 1.4,
+      "learning_rate": 1.7451420879950491e-06,
+      "loss": 0.1766,
+      "step": 3860,
+      "task_loss": 0.699094295501709
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1590745896100998,
+      "epoch": 1.4,
+      "learning_rate": 1.7438787704431765e-06,
+      "loss": 0.1794,
+      "step": 3870,
+      "task_loss": 0.5042922496795654
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16868017613887787,
+      "epoch": 1.4,
+      "learning_rate": 1.7426127892179805e-06,
+      "loss": 0.1618,
+      "step": 3880,
+      "task_loss": 0.6242218613624573
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12290704250335693,
+      "epoch": 1.41,
+      "learning_rate": 1.7413441488526734e-06,
+      "loss": 0.1671,
+      "step": 3890,
+      "task_loss": 0.33300209045410156
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1805894672870636,
+      "epoch": 1.41,
+      "learning_rate": 1.7400728538899893e-06,
+      "loss": 0.1794,
+      "step": 3900,
+      "task_loss": 0.4865798056125641
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13778156042099,
+      "epoch": 1.41,
+      "learning_rate": 1.7387989088821677e-06,
+      "loss": 0.1745,
+      "step": 3910,
+      "task_loss": 0.36040520668029785
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18057343363761902,
+      "epoch": 1.42,
+      "learning_rate": 1.7375223183909378e-06,
+      "loss": 0.1818,
+      "step": 3920,
+      "task_loss": 0.43555018305778503
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16372817754745483,
+      "epoch": 1.42,
+      "learning_rate": 1.7362430869875017e-06,
+      "loss": 0.1622,
+      "step": 3930,
+      "task_loss": 0.3211020827293396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18226927518844604,
+      "epoch": 1.42,
+      "learning_rate": 1.7349612192525176e-06,
+      "loss": 0.1748,
+      "step": 3940,
+      "task_loss": 0.39155834913253784
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17144691944122314,
+      "epoch": 1.43,
+      "learning_rate": 1.7336767197760837e-06,
+      "loss": 0.1634,
+      "step": 3950,
+      "task_loss": 0.3620833158493042
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17456424236297607,
+      "epoch": 1.43,
+      "learning_rate": 1.7323895931577228e-06,
+      "loss": 0.1813,
+      "step": 3960,
+      "task_loss": 0.5210827589035034
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1263851523399353,
+      "epoch": 1.43,
+      "learning_rate": 1.7310998440063647e-06,
+      "loss": 0.1715,
+      "step": 3970,
+      "task_loss": 0.5859290361404419
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.129383385181427,
+      "epoch": 1.44,
+      "learning_rate": 1.7298074769403285e-06,
+      "loss": 0.1638,
+      "step": 3980,
+      "task_loss": 0.31362149119377136
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.23324280977249146,
+      "epoch": 1.44,
+      "learning_rate": 1.72851249658731e-06,
+      "loss": 0.1804,
+      "step": 3990,
+      "task_loss": 0.451979398727417
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15351605415344238,
+      "epoch": 1.45,
+      "learning_rate": 1.727214907584361e-06,
+      "loss": 0.1647,
+      "step": 4000,
+      "task_loss": 0.33222532272338867
+    },
+    {
+      "epoch": 1.45,
+      "eval_exact_match": 83.66130558183538,
+      "eval_f1": 90.1062476420109,
+      "step": 4000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16170555353164673,
+      "epoch": 1.45,
+      "learning_rate": 1.725914714577874e-06,
+      "loss": 0.1619,
+      "step": 4010,
+      "task_loss": 0.5656744837760925
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14653730392456055,
+      "epoch": 1.45,
+      "learning_rate": 1.724611922223567e-06,
+      "loss": 0.172,
+      "step": 4020,
+      "task_loss": 0.5113309621810913
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13656997680664062,
+      "epoch": 1.46,
+      "learning_rate": 1.7233065351864652e-06,
+      "loss": 0.171,
+      "step": 4030,
+      "task_loss": 0.24282409250736237
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13946852087974548,
+      "epoch": 1.46,
+      "learning_rate": 1.7219985581408847e-06,
+      "loss": 0.1782,
+      "step": 4040,
+      "task_loss": 0.6446897983551025
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.27610087394714355,
+      "epoch": 1.46,
+      "learning_rate": 1.7206879957704161e-06,
+      "loss": 0.1864,
+      "step": 4050,
+      "task_loss": 0.7376024127006531
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20331989228725433,
+      "epoch": 1.47,
+      "learning_rate": 1.7193748527679074e-06,
+      "loss": 0.1816,
+      "step": 4060,
+      "task_loss": 0.6629816293716431
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15988487005233765,
+      "epoch": 1.47,
+      "learning_rate": 1.7180591338354479e-06,
+      "loss": 0.1694,
+      "step": 4070,
+      "task_loss": 0.46234872937202454
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1611352115869522,
+      "epoch": 1.47,
+      "learning_rate": 1.7167408436843493e-06,
+      "loss": 0.165,
+      "step": 4080,
+      "task_loss": 0.4623450040817261
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15372850000858307,
+      "epoch": 1.48,
+      "learning_rate": 1.7154199870351319e-06,
+      "loss": 0.1701,
+      "step": 4090,
+      "task_loss": 0.3854554295539856
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12263274192810059,
+      "epoch": 1.48,
+      "learning_rate": 1.7140965686175047e-06,
+      "loss": 0.1648,
+      "step": 4100,
+      "task_loss": 0.3795510530471802
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14757771790027618,
+      "epoch": 1.49,
+      "learning_rate": 1.7127705931703511e-06,
+      "loss": 0.1677,
+      "step": 4110,
+      "task_loss": 0.5079241991043091
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19403065741062164,
+      "epoch": 1.49,
+      "learning_rate": 1.7114420654417102e-06,
+      "loss": 0.1749,
+      "step": 4120,
+      "task_loss": 0.6132655143737793
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17154933512210846,
+      "epoch": 1.49,
+      "learning_rate": 1.7101109901887594e-06,
+      "loss": 0.1698,
+      "step": 4130,
+      "task_loss": 0.5632673501968384
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15782007575035095,
+      "epoch": 1.5,
+      "learning_rate": 1.7087773721777998e-06,
+      "loss": 0.1682,
+      "step": 4140,
+      "task_loss": 0.29379528760910034
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15191909670829773,
+      "epoch": 1.5,
+      "learning_rate": 1.7074412161842368e-06,
+      "loss": 0.1821,
+      "step": 4150,
+      "task_loss": 0.40577489137649536
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1590431034564972,
+      "epoch": 1.5,
+      "learning_rate": 1.7061025269925633e-06,
+      "loss": 0.1725,
+      "step": 4160,
+      "task_loss": 0.3673279285430908
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15804147720336914,
+      "epoch": 1.51,
+      "learning_rate": 1.704761309396344e-06,
+      "loss": 0.1744,
+      "step": 4170,
+      "task_loss": 0.3593347668647766
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22128893435001373,
+      "epoch": 1.51,
+      "learning_rate": 1.7034175681981969e-06,
+      "loss": 0.1745,
+      "step": 4180,
+      "task_loss": 0.3887554407119751
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17814043164253235,
+      "epoch": 1.51,
+      "learning_rate": 1.702071308209776e-06,
+      "loss": 0.1842,
+      "step": 4190,
+      "task_loss": 0.37278926372528076
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1720452755689621,
+      "epoch": 1.52,
+      "learning_rate": 1.7007225342517554e-06,
+      "loss": 0.1618,
+      "step": 4200,
+      "task_loss": 0.3401908576488495
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18010592460632324,
+      "epoch": 1.52,
+      "learning_rate": 1.6993712511538108e-06,
+      "loss": 0.1714,
+      "step": 4210,
+      "task_loss": 0.35429495573043823
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14852438867092133,
+      "epoch": 1.53,
+      "learning_rate": 1.6980174637546022e-06,
+      "loss": 0.176,
+      "step": 4220,
+      "task_loss": 0.2848626971244812
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12181121110916138,
+      "epoch": 1.53,
+      "learning_rate": 1.6966611769017574e-06,
+      "loss": 0.1731,
+      "step": 4230,
+      "task_loss": 0.234962597489357
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17690081894397736,
+      "epoch": 1.53,
+      "learning_rate": 1.6953023954518546e-06,
+      "loss": 0.1816,
+      "step": 4240,
+      "task_loss": 0.3170431852340698
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1582062691450119,
+      "epoch": 1.54,
+      "learning_rate": 1.6939411242704037e-06,
+      "loss": 0.1727,
+      "step": 4250,
+      "task_loss": 0.6310293674468994
+    },
+    {
+      "epoch": 1.54,
+      "eval_exact_match": 83.66130558183538,
+      "eval_f1": 90.01785833074021,
+      "step": 4250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13817504048347473,
+      "epoch": 1.54,
+      "learning_rate": 1.6925773682318312e-06,
+      "loss": 0.168,
+      "step": 4260,
+      "task_loss": 0.29341834783554077
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18749260902404785,
+      "epoch": 1.54,
+      "learning_rate": 1.6912111322194594e-06,
+      "loss": 0.1685,
+      "step": 4270,
+      "task_loss": 0.5627535581588745
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14412984251976013,
+      "epoch": 1.55,
+      "learning_rate": 1.6898424211254927e-06,
+      "loss": 0.1639,
+      "step": 4280,
+      "task_loss": 0.2700430452823639
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15190498530864716,
+      "epoch": 1.55,
+      "learning_rate": 1.6884712398509966e-06,
+      "loss": 0.1656,
+      "step": 4290,
+      "task_loss": 0.2561272382736206
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13519339263439178,
+      "epoch": 1.55,
+      "learning_rate": 1.6870975933058835e-06,
+      "loss": 0.1663,
+      "step": 4300,
+      "task_loss": 0.3266107439994812
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15758942067623138,
+      "epoch": 1.56,
+      "learning_rate": 1.6857214864088927e-06,
+      "loss": 0.1749,
+      "step": 4310,
+      "task_loss": 0.4796781837940216
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18209287524223328,
+      "epoch": 1.56,
+      "learning_rate": 1.6843429240875726e-06,
+      "loss": 0.1747,
+      "step": 4320,
+      "task_loss": 0.3897198438644409
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16047507524490356,
+      "epoch": 1.56,
+      "learning_rate": 1.6829619112782654e-06,
+      "loss": 0.1644,
+      "step": 4330,
+      "task_loss": 0.4120858609676361
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1207498162984848,
+      "epoch": 1.57,
+      "learning_rate": 1.6815784529260868e-06,
+      "loss": 0.1752,
+      "step": 4340,
+      "task_loss": 0.3987932801246643
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14837431907653809,
+      "epoch": 1.57,
+      "learning_rate": 1.6801925539849102e-06,
+      "loss": 0.1675,
+      "step": 4350,
+      "task_loss": 0.4159763753414154
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16814565658569336,
+      "epoch": 1.58,
+      "learning_rate": 1.6788042194173485e-06,
+      "loss": 0.1751,
+      "step": 4360,
+      "task_loss": 0.38205575942993164
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1617308259010315,
+      "epoch": 1.58,
+      "learning_rate": 1.6774134541947351e-06,
+      "loss": 0.1879,
+      "step": 4370,
+      "task_loss": 0.35478347539901733
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16979068517684937,
+      "epoch": 1.58,
+      "learning_rate": 1.6760202632971074e-06,
+      "loss": 0.1883,
+      "step": 4380,
+      "task_loss": 0.4965069890022278
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20151479542255402,
+      "epoch": 1.59,
+      "learning_rate": 1.6746246517131894e-06,
+      "loss": 0.1801,
+      "step": 4390,
+      "task_loss": 0.4965303838253021
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1382327377796173,
+      "epoch": 1.59,
+      "learning_rate": 1.6732266244403722e-06,
+      "loss": 0.1728,
+      "step": 4400,
+      "task_loss": 0.41574716567993164
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17530761659145355,
+      "epoch": 1.59,
+      "learning_rate": 1.6718261864846968e-06,
+      "loss": 0.1828,
+      "step": 4410,
+      "task_loss": 0.518844485282898
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15779836475849152,
+      "epoch": 1.6,
+      "learning_rate": 1.6704233428608376e-06,
+      "loss": 0.1705,
+      "step": 4420,
+      "task_loss": 0.3203689754009247
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1792672872543335,
+      "epoch": 1.6,
+      "learning_rate": 1.6690180985920818e-06,
+      "loss": 0.1742,
+      "step": 4430,
+      "task_loss": 0.34858888387680054
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15927091240882874,
+      "epoch": 1.6,
+      "learning_rate": 1.6676104587103137e-06,
+      "loss": 0.1661,
+      "step": 4440,
+      "task_loss": 0.42672163248062134
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1978459358215332,
+      "epoch": 1.61,
+      "learning_rate": 1.666200428255995e-06,
+      "loss": 0.1701,
+      "step": 4450,
+      "task_loss": 0.42373642325401306
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12445167452096939,
+      "epoch": 1.61,
+      "learning_rate": 1.6647880122781487e-06,
+      "loss": 0.1834,
+      "step": 4460,
+      "task_loss": 0.3997802138328552
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20981666445732117,
+      "epoch": 1.62,
+      "learning_rate": 1.6633732158343386e-06,
+      "loss": 0.18,
+      "step": 4470,
+      "task_loss": 0.5796436667442322
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19721180200576782,
+      "epoch": 1.62,
+      "learning_rate": 1.6619560439906533e-06,
+      "loss": 0.174,
+      "step": 4480,
+      "task_loss": 0.5064884424209595
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11864525079727173,
+      "epoch": 1.62,
+      "learning_rate": 1.6605365018216867e-06,
+      "loss": 0.1624,
+      "step": 4490,
+      "task_loss": 0.33762532472610474
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16903159022331238,
+      "epoch": 1.63,
+      "learning_rate": 1.659114594410521e-06,
+      "loss": 0.1668,
+      "step": 4500,
+      "task_loss": 0.3473363518714905
+    },
+    {
+      "epoch": 1.63,
+      "eval_exact_match": 83.71807000946073,
+      "eval_f1": 90.03319320561076,
+      "step": 4500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11900688707828522,
+      "epoch": 1.63,
+      "learning_rate": 1.6576903268487068e-06,
+      "loss": 0.1645,
+      "step": 4510,
+      "task_loss": 0.38987505435943604
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1665954291820526,
+      "epoch": 1.63,
+      "learning_rate": 1.6562637042362466e-06,
+      "loss": 0.1797,
+      "step": 4520,
+      "task_loss": 0.6573120951652527
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21217182278633118,
+      "epoch": 1.64,
+      "learning_rate": 1.6548347316815762e-06,
+      "loss": 0.1782,
+      "step": 4530,
+      "task_loss": 0.5453046560287476
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13434047996997833,
+      "epoch": 1.64,
+      "learning_rate": 1.6534034143015454e-06,
+      "loss": 0.1626,
+      "step": 4540,
+      "task_loss": 0.31057432293891907
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16948871314525604,
+      "epoch": 1.64,
+      "learning_rate": 1.6519697572214003e-06,
+      "loss": 0.1811,
+      "step": 4550,
+      "task_loss": 0.40966400504112244
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14870113134384155,
+      "epoch": 1.65,
+      "learning_rate": 1.6505337655747651e-06,
+      "loss": 0.1712,
+      "step": 4560,
+      "task_loss": 0.46824079751968384
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17549389600753784,
+      "epoch": 1.65,
+      "learning_rate": 1.649095444503624e-06,
+      "loss": 0.172,
+      "step": 4570,
+      "task_loss": 0.47035887837409973
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16029421985149384,
+      "epoch": 1.66,
+      "learning_rate": 1.647654799158302e-06,
+      "loss": 0.1705,
+      "step": 4580,
+      "task_loss": 0.556218147277832
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17698289453983307,
+      "epoch": 1.66,
+      "learning_rate": 1.6462118346974465e-06,
+      "loss": 0.1826,
+      "step": 4590,
+      "task_loss": 0.48089244961738586
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15601950883865356,
+      "epoch": 1.66,
+      "learning_rate": 1.6447665562880102e-06,
+      "loss": 0.1757,
+      "step": 4600,
+      "task_loss": 0.5369211435317993
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18061840534210205,
+      "epoch": 1.67,
+      "learning_rate": 1.6433189691052304e-06,
+      "loss": 0.1852,
+      "step": 4610,
+      "task_loss": 0.5473412275314331
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16047485172748566,
+      "epoch": 1.67,
+      "learning_rate": 1.6418690783326124e-06,
+      "loss": 0.1727,
+      "step": 4620,
+      "task_loss": 0.38301435112953186
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.213972270488739,
+      "epoch": 1.67,
+      "learning_rate": 1.6404168891619099e-06,
+      "loss": 0.1884,
+      "step": 4630,
+      "task_loss": 0.4033554196357727
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19080013036727905,
+      "epoch": 1.68,
+      "learning_rate": 1.6389624067931063e-06,
+      "loss": 0.1805,
+      "step": 4640,
+      "task_loss": 0.3459513783454895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19626328349113464,
+      "epoch": 1.68,
+      "learning_rate": 1.6375056364343976e-06,
+      "loss": 0.181,
+      "step": 4650,
+      "task_loss": 0.40217965841293335
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13872280716896057,
+      "epoch": 1.68,
+      "learning_rate": 1.6360465833021714e-06,
+      "loss": 0.1681,
+      "step": 4660,
+      "task_loss": 0.6281946301460266
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17640194296836853,
+      "epoch": 1.69,
+      "learning_rate": 1.6345852526209898e-06,
+      "loss": 0.1802,
+      "step": 4670,
+      "task_loss": 0.37003079056739807
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1716892421245575,
+      "epoch": 1.69,
+      "learning_rate": 1.6331216496235704e-06,
+      "loss": 0.1797,
+      "step": 4680,
+      "task_loss": 0.26079100370407104
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16866642236709595,
+      "epoch": 1.69,
+      "learning_rate": 1.6316557795507681e-06,
+      "loss": 0.1798,
+      "step": 4690,
+      "task_loss": 0.6609709858894348
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14990170300006866,
+      "epoch": 1.7,
+      "learning_rate": 1.6301876476515543e-06,
+      "loss": 0.1595,
+      "step": 4700,
+      "task_loss": 0.40529322624206543
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15224753320217133,
+      "epoch": 1.7,
+      "learning_rate": 1.6287172591830013e-06,
+      "loss": 0.1736,
+      "step": 4710,
+      "task_loss": 0.31739816069602966
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1693233698606491,
+      "epoch": 1.71,
+      "learning_rate": 1.62724461941026e-06,
+      "loss": 0.1736,
+      "step": 4720,
+      "task_loss": 0.27699169516563416
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14131656289100647,
+      "epoch": 1.71,
+      "learning_rate": 1.6257697336065437e-06,
+      "loss": 0.1751,
+      "step": 4730,
+      "task_loss": 0.2714840769767761
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17337501049041748,
+      "epoch": 1.71,
+      "learning_rate": 1.6242926070531081e-06,
+      "loss": 0.1853,
+      "step": 4740,
+      "task_loss": 0.4388749599456787
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1466250717639923,
+      "epoch": 1.72,
+      "learning_rate": 1.6228132450392327e-06,
+      "loss": 0.1855,
+      "step": 4750,
+      "task_loss": 0.7262935042381287
+    },
+    {
+      "epoch": 1.72,
+      "eval_exact_match": 83.65184484389782,
+      "eval_f1": 90.0956056491023,
+      "step": 4750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19323478639125824,
+      "epoch": 1.72,
+      "learning_rate": 1.6213316528622013e-06,
+      "loss": 0.192,
+      "step": 4760,
+      "task_loss": 0.5335832834243774
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20000815391540527,
+      "epoch": 1.72,
+      "learning_rate": 1.6198478358272834e-06,
+      "loss": 0.1739,
+      "step": 4770,
+      "task_loss": 0.38792669773101807
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1575516015291214,
+      "epoch": 1.73,
+      "learning_rate": 1.6183617992477161e-06,
+      "loss": 0.1754,
+      "step": 4780,
+      "task_loss": 0.6262178421020508
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12828651070594788,
+      "epoch": 1.73,
+      "learning_rate": 1.6168735484446833e-06,
+      "loss": 0.1726,
+      "step": 4790,
+      "task_loss": 0.4547956585884094
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14732638001441956,
+      "epoch": 1.73,
+      "learning_rate": 1.6153830887472983e-06,
+      "loss": 0.175,
+      "step": 4800,
+      "task_loss": 0.30394428968429565
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13601407408714294,
+      "epoch": 1.74,
+      "learning_rate": 1.6138904254925831e-06,
+      "loss": 0.1766,
+      "step": 4810,
+      "task_loss": 0.3303675651550293
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16339826583862305,
+      "epoch": 1.74,
+      "learning_rate": 1.612395564025451e-06,
+      "loss": 0.1643,
+      "step": 4820,
+      "task_loss": 0.4129944443702698
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1557186394929886,
+      "epoch": 1.75,
+      "learning_rate": 1.6108985096986862e-06,
+      "loss": 0.1655,
+      "step": 4830,
+      "task_loss": 0.3643401563167572
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16704073548316956,
+      "epoch": 1.75,
+      "learning_rate": 1.6093992678729252e-06,
+      "loss": 0.1857,
+      "step": 4840,
+      "task_loss": 0.33650100231170654
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1716494858264923,
+      "epoch": 1.75,
+      "learning_rate": 1.6078978439166372e-06,
+      "loss": 0.18,
+      "step": 4850,
+      "task_loss": 0.47747802734375
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13160017132759094,
+      "epoch": 1.76,
+      "learning_rate": 1.6063942432061062e-06,
+      "loss": 0.1681,
+      "step": 4860,
+      "task_loss": 0.3302234411239624
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14614957571029663,
+      "epoch": 1.76,
+      "learning_rate": 1.6048884711254086e-06,
+      "loss": 0.1657,
+      "step": 4870,
+      "task_loss": 0.4074876010417938
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13879385590553284,
+      "epoch": 1.76,
+      "learning_rate": 1.6033805330663987e-06,
+      "loss": 0.1656,
+      "step": 4880,
+      "task_loss": 0.5125229358673096
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1442992389202118,
+      "epoch": 1.77,
+      "learning_rate": 1.6018704344286844e-06,
+      "loss": 0.1663,
+      "step": 4890,
+      "task_loss": 0.33929747343063354
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17423328757286072,
+      "epoch": 1.77,
+      "learning_rate": 1.6003581806196117e-06,
+      "loss": 0.1806,
+      "step": 4900,
+      "task_loss": 0.6483819484710693
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16412119567394257,
+      "epoch": 1.77,
+      "learning_rate": 1.5988437770542426e-06,
+      "loss": 0.178,
+      "step": 4910,
+      "task_loss": 0.37893688678741455
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13276568055152893,
+      "epoch": 1.78,
+      "learning_rate": 1.5973272291553381e-06,
+      "loss": 0.1658,
+      "step": 4920,
+      "task_loss": 0.5486671924591064
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1630297601222992,
+      "epoch": 1.78,
+      "learning_rate": 1.5958085423533367e-06,
+      "loss": 0.1533,
+      "step": 4930,
+      "task_loss": 0.3111371695995331
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15084078907966614,
+      "epoch": 1.79,
+      "learning_rate": 1.5942877220863367e-06,
+      "loss": 0.156,
+      "step": 4940,
+      "task_loss": 0.4554649889469147
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1458296775817871,
+      "epoch": 1.79,
+      "learning_rate": 1.592764773800075e-06,
+      "loss": 0.1713,
+      "step": 4950,
+      "task_loss": 0.24363714456558228
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19936226308345795,
+      "epoch": 1.79,
+      "learning_rate": 1.5912397029479088e-06,
+      "loss": 0.179,
+      "step": 4960,
+      "task_loss": 0.42103761434555054
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15008442103862762,
+      "epoch": 1.8,
+      "learning_rate": 1.5897125149907961e-06,
+      "loss": 0.1738,
+      "step": 4970,
+      "task_loss": 0.6863405704498291
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1526724100112915,
+      "epoch": 1.8,
+      "learning_rate": 1.5881832153972757e-06,
+      "loss": 0.1757,
+      "step": 4980,
+      "task_loss": 0.24165448546409607
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15206190943717957,
+      "epoch": 1.8,
+      "learning_rate": 1.586651809643447e-06,
+      "loss": 0.1781,
+      "step": 4990,
+      "task_loss": 0.46479007601737976
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13848325610160828,
+      "epoch": 1.81,
+      "learning_rate": 1.5851183032129524e-06,
+      "loss": 0.1767,
+      "step": 5000,
+      "task_loss": 0.5114116668701172
+    },
+    {
+      "epoch": 1.81,
+      "eval_exact_match": 83.69914853358561,
+      "eval_f1": 90.02717757860586,
+      "step": 5000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15613943338394165,
+      "epoch": 1.81,
+      "learning_rate": 1.5835827015969554e-06,
+      "loss": 0.1747,
+      "step": 5010,
+      "task_loss": 0.38822025060653687
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18799282610416412,
+      "epoch": 1.81,
+      "learning_rate": 1.5820450102941225e-06,
+      "loss": 0.1926,
+      "step": 5020,
+      "task_loss": 0.5233188271522522
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15289965271949768,
+      "epoch": 1.82,
+      "learning_rate": 1.5805052348106021e-06,
+      "loss": 0.1647,
+      "step": 5030,
+      "task_loss": 0.30817002058029175
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19276724755764008,
+      "epoch": 1.82,
+      "learning_rate": 1.5789633806600064e-06,
+      "loss": 0.1794,
+      "step": 5040,
+      "task_loss": 0.6410900950431824
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1649995744228363,
+      "epoch": 1.83,
+      "learning_rate": 1.5774194533633908e-06,
+      "loss": 0.1672,
+      "step": 5050,
+      "task_loss": 0.4419615864753723
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1605244129896164,
+      "epoch": 1.83,
+      "learning_rate": 1.5758734584492338e-06,
+      "loss": 0.1971,
+      "step": 5060,
+      "task_loss": 0.5084717273712158
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18353916704654694,
+      "epoch": 1.83,
+      "learning_rate": 1.574325401453418e-06,
+      "loss": 0.1884,
+      "step": 5070,
+      "task_loss": 0.46484851837158203
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1702931821346283,
+      "epoch": 1.84,
+      "learning_rate": 1.5727752879192093e-06,
+      "loss": 0.1876,
+      "step": 5080,
+      "task_loss": 0.4551842212677002
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17121371626853943,
+      "epoch": 1.84,
+      "learning_rate": 1.5712231233972386e-06,
+      "loss": 0.1634,
+      "step": 5090,
+      "task_loss": 0.23131704330444336
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12615904211997986,
+      "epoch": 1.84,
+      "learning_rate": 1.5696689134454802e-06,
+      "loss": 0.1659,
+      "step": 5100,
+      "task_loss": 0.4349666237831116
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1561717838048935,
+      "epoch": 1.85,
+      "learning_rate": 1.5681126636292326e-06,
+      "loss": 0.182,
+      "step": 5110,
+      "task_loss": 0.5192071199417114
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16207730770111084,
+      "epoch": 1.85,
+      "learning_rate": 1.5665543795210989e-06,
+      "loss": 0.1699,
+      "step": 5120,
+      "task_loss": 1.110886573791504
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12102855741977692,
+      "epoch": 1.85,
+      "learning_rate": 1.564994066700967e-06,
+      "loss": 0.1718,
+      "step": 5130,
+      "task_loss": 0.39551660418510437
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16230420768260956,
+      "epoch": 1.86,
+      "learning_rate": 1.5634317307559882e-06,
+      "loss": 0.1865,
+      "step": 5140,
+      "task_loss": 0.47860944271087646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.183951735496521,
+      "epoch": 1.86,
+      "learning_rate": 1.561867377280559e-06,
+      "loss": 0.174,
+      "step": 5150,
+      "task_loss": 0.3939540684223175
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16964015364646912,
+      "epoch": 1.86,
+      "learning_rate": 1.5603010118762997e-06,
+      "loss": 0.1748,
+      "step": 5160,
+      "task_loss": 0.4153340458869934
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1425359845161438,
+      "epoch": 1.87,
+      "learning_rate": 1.5587326401520357e-06,
+      "loss": 0.1766,
+      "step": 5170,
+      "task_loss": 0.4296700954437256
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2204303741455078,
+      "epoch": 1.87,
+      "learning_rate": 1.5571622677237754e-06,
+      "loss": 0.1859,
+      "step": 5180,
+      "task_loss": 0.3614335060119629
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18071290850639343,
+      "epoch": 1.88,
+      "learning_rate": 1.5555899002146928e-06,
+      "loss": 0.1698,
+      "step": 5190,
+      "task_loss": 0.4687485098838806
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.174323171377182,
+      "epoch": 1.88,
+      "learning_rate": 1.5540155432551041e-06,
+      "loss": 0.172,
+      "step": 5200,
+      "task_loss": 0.45254212617874146
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14772723615169525,
+      "epoch": 1.88,
+      "learning_rate": 1.5524392024824508e-06,
+      "loss": 0.1628,
+      "step": 5210,
+      "task_loss": 0.2734772562980652
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1434626281261444,
+      "epoch": 1.89,
+      "learning_rate": 1.5508608835412773e-06,
+      "loss": 0.1659,
+      "step": 5220,
+      "task_loss": 0.3382406532764435
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1506517231464386,
+      "epoch": 1.89,
+      "learning_rate": 1.5492805920832117e-06,
+      "loss": 0.1697,
+      "step": 5230,
+      "task_loss": 0.5476049184799194
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19249403476715088,
+      "epoch": 1.89,
+      "learning_rate": 1.5476983337669451e-06,
+      "loss": 0.1781,
+      "step": 5240,
+      "task_loss": 0.4856623113155365
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16049784421920776,
+      "epoch": 1.9,
+      "learning_rate": 1.5461141142582115e-06,
+      "loss": 0.1653,
+      "step": 5250,
+      "task_loss": 0.2884122133255005
+    },
+    {
+      "epoch": 1.9,
+      "eval_exact_match": 83.64238410596026,
+      "eval_f1": 90.02509905020891,
+      "step": 5250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.145027756690979,
+      "epoch": 1.9,
+      "learning_rate": 1.5445279392297672e-06,
+      "loss": 0.1717,
+      "step": 5260,
+      "task_loss": 0.27939456701278687
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20636796951293945,
+      "epoch": 1.9,
+      "learning_rate": 1.5429398143613717e-06,
+      "loss": 0.1707,
+      "step": 5270,
+      "task_loss": 0.3808209002017975
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19634541869163513,
+      "epoch": 1.91,
+      "learning_rate": 1.5413497453397658e-06,
+      "loss": 0.1781,
+      "step": 5280,
+      "task_loss": 0.8501614332199097
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13850626349449158,
+      "epoch": 1.91,
+      "learning_rate": 1.5397577378586514e-06,
+      "loss": 0.1751,
+      "step": 5290,
+      "task_loss": 0.5088834762573242
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1705392599105835,
+      "epoch": 1.92,
+      "learning_rate": 1.5381637976186733e-06,
+      "loss": 0.1822,
+      "step": 5300,
+      "task_loss": 0.453264057636261
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14243380725383759,
+      "epoch": 1.92,
+      "learning_rate": 1.5365679303273956e-06,
+      "loss": 0.1858,
+      "step": 5310,
+      "task_loss": 0.8157292604446411
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14648321270942688,
+      "epoch": 1.92,
+      "learning_rate": 1.5349701416992828e-06,
+      "loss": 0.1604,
+      "step": 5320,
+      "task_loss": 0.44204074144363403
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13808469474315643,
+      "epoch": 1.93,
+      "learning_rate": 1.5333704374556802e-06,
+      "loss": 0.1723,
+      "step": 5330,
+      "task_loss": 0.286069393157959
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15084746479988098,
+      "epoch": 1.93,
+      "learning_rate": 1.5317688233247918e-06,
+      "loss": 0.1631,
+      "step": 5340,
+      "task_loss": 0.4517083764076233
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16623607277870178,
+      "epoch": 1.93,
+      "learning_rate": 1.5301653050416607e-06,
+      "loss": 0.1859,
+      "step": 5350,
+      "task_loss": 0.34950506687164307
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15999534726142883,
+      "epoch": 1.94,
+      "learning_rate": 1.5285598883481488e-06,
+      "loss": 0.1751,
+      "step": 5360,
+      "task_loss": 0.28156834840774536
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15565112233161926,
+      "epoch": 1.94,
+      "learning_rate": 1.526952578992915e-06,
+      "loss": 0.1744,
+      "step": 5370,
+      "task_loss": 0.561008095741272
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19666364789009094,
+      "epoch": 1.94,
+      "learning_rate": 1.5253433827313959e-06,
+      "loss": 0.187,
+      "step": 5380,
+      "task_loss": 0.5248037576675415
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12654519081115723,
+      "epoch": 1.95,
+      "learning_rate": 1.5237323053257849e-06,
+      "loss": 0.1773,
+      "step": 5390,
+      "task_loss": 0.3182612359523773
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1488625556230545,
+      "epoch": 1.95,
+      "learning_rate": 1.5221193525450105e-06,
+      "loss": 0.185,
+      "step": 5400,
+      "task_loss": 0.40940284729003906
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17843294143676758,
+      "epoch": 1.96,
+      "learning_rate": 1.5205045301647176e-06,
+      "loss": 0.1733,
+      "step": 5410,
+      "task_loss": 0.4217627942562103
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13039106130599976,
+      "epoch": 1.96,
+      "learning_rate": 1.5188878439672456e-06,
+      "loss": 0.161,
+      "step": 5420,
+      "task_loss": 0.6658985614776611
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15170055627822876,
+      "epoch": 1.96,
+      "learning_rate": 1.5172692997416074e-06,
+      "loss": 0.1821,
+      "step": 5430,
+      "task_loss": 0.37789255380630493
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1514560878276825,
+      "epoch": 1.97,
+      "learning_rate": 1.5156489032834689e-06,
+      "loss": 0.1965,
+      "step": 5440,
+      "task_loss": 0.40159061551094055
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13064901530742645,
+      "epoch": 1.97,
+      "learning_rate": 1.5140266603951288e-06,
+      "loss": 0.174,
+      "step": 5450,
+      "task_loss": 0.4346536099910736
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19731932878494263,
+      "epoch": 1.97,
+      "learning_rate": 1.5124025768854975e-06,
+      "loss": 0.1911,
+      "step": 5460,
+      "task_loss": 0.5681113600730896
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1736607700586319,
+      "epoch": 1.98,
+      "learning_rate": 1.5107766585700765e-06,
+      "loss": 0.1773,
+      "step": 5470,
+      "task_loss": 0.40363502502441406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18201759457588196,
+      "epoch": 1.98,
+      "learning_rate": 1.509148911270937e-06,
+      "loss": 0.1708,
+      "step": 5480,
+      "task_loss": 0.42472249269485474
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1587354838848114,
+      "epoch": 1.98,
+      "learning_rate": 1.5075193408166995e-06,
+      "loss": 0.1696,
+      "step": 5490,
+      "task_loss": 0.5016087889671326
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14640197157859802,
+      "epoch": 1.99,
+      "learning_rate": 1.5058879530425129e-06,
+      "loss": 0.1814,
+      "step": 5500,
+      "task_loss": 0.9462409019470215
+    },
+    {
+      "epoch": 1.99,
+      "eval_exact_match": 83.79375591296122,
+      "eval_f1": 90.06572493808123,
+      "step": 5500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17614376544952393,
+      "epoch": 1.99,
+      "learning_rate": 1.5042547537900334e-06,
+      "loss": 0.1724,
+      "step": 5510,
+      "task_loss": 0.5415596961975098
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16879351437091827,
+      "epoch": 1.99,
+      "learning_rate": 1.5026197489074038e-06,
+      "loss": 0.1792,
+      "step": 5520,
+      "task_loss": 0.7170099020004272
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13919247686862946,
+      "epoch": 2.0,
+      "learning_rate": 1.5009829442492321e-06,
+      "loss": 0.1896,
+      "step": 5530,
+      "task_loss": 0.37363719940185547
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13153812289237976,
+      "epoch": 2.0,
+      "learning_rate": 1.4993443456765722e-06,
+      "loss": 0.1611,
+      "step": 5540,
+      "task_loss": 0.27757397294044495
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20778411626815796,
+      "epoch": 2.01,
+      "learning_rate": 1.4977039590569e-06,
+      "loss": 0.1793,
+      "step": 5550,
+      "task_loss": 0.8411521315574646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17973269522190094,
+      "epoch": 2.01,
+      "learning_rate": 1.4960617902640954e-06,
+      "loss": 0.1709,
+      "step": 5560,
+      "task_loss": 0.396151065826416
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1556098610162735,
+      "epoch": 2.01,
+      "learning_rate": 1.4944178451784185e-06,
+      "loss": 0.1685,
+      "step": 5570,
+      "task_loss": 0.6039637327194214
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1373765766620636,
+      "epoch": 2.02,
+      "learning_rate": 1.4927721296864911e-06,
+      "loss": 0.1596,
+      "step": 5580,
+      "task_loss": 0.4312272071838379
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11067195981740952,
+      "epoch": 2.02,
+      "learning_rate": 1.4911246496812736e-06,
+      "loss": 0.1822,
+      "step": 5590,
+      "task_loss": 0.2303856760263443
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14561320841312408,
+      "epoch": 2.02,
+      "learning_rate": 1.4894754110620462e-06,
+      "loss": 0.1854,
+      "step": 5600,
+      "task_loss": 0.46308350563049316
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16818490624427795,
+      "epoch": 2.03,
+      "learning_rate": 1.4878244197343843e-06,
+      "loss": 0.1812,
+      "step": 5610,
+      "task_loss": 0.76872318983078
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17642438411712646,
+      "epoch": 2.03,
+      "learning_rate": 1.4861716816101408e-06,
+      "loss": 0.1649,
+      "step": 5620,
+      "task_loss": 0.31745028495788574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1748821884393692,
+      "epoch": 2.03,
+      "learning_rate": 1.4845172026074229e-06,
+      "loss": 0.181,
+      "step": 5630,
+      "task_loss": 0.5924056172370911
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1267927885055542,
+      "epoch": 2.04,
+      "learning_rate": 1.4828609886505719e-06,
+      "loss": 0.1638,
+      "step": 5640,
+      "task_loss": 0.3259366750717163
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19988219439983368,
+      "epoch": 2.04,
+      "learning_rate": 1.4812030456701412e-06,
+      "loss": 0.1733,
+      "step": 5650,
+      "task_loss": 0.5508837699890137
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15306976437568665,
+      "epoch": 2.05,
+      "learning_rate": 1.4795433796028758e-06,
+      "loss": 0.1812,
+      "step": 5660,
+      "task_loss": 0.22895438969135284
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1771416962146759,
+      "epoch": 2.05,
+      "learning_rate": 1.4778819963916909e-06,
+      "loss": 0.172,
+      "step": 5670,
+      "task_loss": 0.6265113949775696
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21116046607494354,
+      "epoch": 2.05,
+      "learning_rate": 1.4762189019856499e-06,
+      "loss": 0.1802,
+      "step": 5680,
+      "task_loss": 0.5534864664077759
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18786293268203735,
+      "epoch": 2.06,
+      "learning_rate": 1.4745541023399435e-06,
+      "loss": 0.1887,
+      "step": 5690,
+      "task_loss": 0.6557093858718872
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20581617951393127,
+      "epoch": 2.06,
+      "learning_rate": 1.4728876034158692e-06,
+      "loss": 0.1742,
+      "step": 5700,
+      "task_loss": 0.4462522268295288
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13658413290977478,
+      "epoch": 2.06,
+      "learning_rate": 1.4712194111808093e-06,
+      "loss": 0.1734,
+      "step": 5710,
+      "task_loss": 0.4286487102508545
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17904964089393616,
+      "epoch": 2.07,
+      "learning_rate": 1.4695495316082085e-06,
+      "loss": 0.1724,
+      "step": 5720,
+      "task_loss": 0.5003844499588013
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1682061105966568,
+      "epoch": 2.07,
+      "learning_rate": 1.4678779706775547e-06,
+      "loss": 0.1732,
+      "step": 5730,
+      "task_loss": 0.4084094762802124
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14257608354091644,
+      "epoch": 2.07,
+      "learning_rate": 1.466204734374355e-06,
+      "loss": 0.17,
+      "step": 5740,
+      "task_loss": 0.25102728605270386
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16918689012527466,
+      "epoch": 2.08,
+      "learning_rate": 1.4645298286901168e-06,
+      "loss": 0.1728,
+      "step": 5750,
+      "task_loss": 0.3457295298576355
+    },
+    {
+      "epoch": 2.08,
+      "eval_exact_match": 83.74645222327341,
+      "eval_f1": 89.96027080749701,
+      "step": 5750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14827761054039001,
+      "epoch": 2.08,
+      "learning_rate": 1.4628532596223252e-06,
+      "loss": 0.1802,
+      "step": 5760,
+      "task_loss": 0.2933032512664795
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14048659801483154,
+      "epoch": 2.09,
+      "learning_rate": 1.461175033174421e-06,
+      "loss": 0.1628,
+      "step": 5770,
+      "task_loss": 0.4381973147392273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14933642745018005,
+      "epoch": 2.09,
+      "learning_rate": 1.45949515535578e-06,
+      "loss": 0.1618,
+      "step": 5780,
+      "task_loss": 0.7806057929992676
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15557800233364105,
+      "epoch": 2.09,
+      "learning_rate": 1.4578136321816908e-06,
+      "loss": 0.1717,
+      "step": 5790,
+      "task_loss": 0.554169774055481
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13000071048736572,
+      "epoch": 2.1,
+      "learning_rate": 1.4561304696733342e-06,
+      "loss": 0.1656,
+      "step": 5800,
+      "task_loss": 0.22170893847942352
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18678736686706543,
+      "epoch": 2.1,
+      "learning_rate": 1.4544456738577608e-06,
+      "loss": 0.1789,
+      "step": 5810,
+      "task_loss": 0.2693910300731659
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16203993558883667,
+      "epoch": 2.1,
+      "learning_rate": 1.4527592507678702e-06,
+      "loss": 0.1692,
+      "step": 5820,
+      "task_loss": 0.4591533839702606
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17562934756278992,
+      "epoch": 2.11,
+      "learning_rate": 1.4510712064423883e-06,
+      "loss": 0.1771,
+      "step": 5830,
+      "task_loss": 0.42079657316207886
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19123172760009766,
+      "epoch": 2.11,
+      "learning_rate": 1.4493815469258466e-06,
+      "loss": 0.1712,
+      "step": 5840,
+      "task_loss": 0.33686795830726624
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13670551776885986,
+      "epoch": 2.11,
+      "learning_rate": 1.4476902782685603e-06,
+      "loss": 0.1687,
+      "step": 5850,
+      "task_loss": 0.40342459082603455
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12456159293651581,
+      "epoch": 2.12,
+      "learning_rate": 1.4459974065266062e-06,
+      "loss": 0.1907,
+      "step": 5860,
+      "task_loss": 0.29705381393432617
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15771573781967163,
+      "epoch": 2.12,
+      "learning_rate": 1.444302937761802e-06,
+      "loss": 0.1684,
+      "step": 5870,
+      "task_loss": 0.5629597306251526
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1410112977027893,
+      "epoch": 2.13,
+      "learning_rate": 1.442606878041684e-06,
+      "loss": 0.1741,
+      "step": 5880,
+      "task_loss": 0.3297852873802185
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18847446143627167,
+      "epoch": 2.13,
+      "learning_rate": 1.4409092334394845e-06,
+      "loss": 0.1759,
+      "step": 5890,
+      "task_loss": 0.48122259974479675
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15323123335838318,
+      "epoch": 2.13,
+      "learning_rate": 1.439210010034112e-06,
+      "loss": 0.1687,
+      "step": 5900,
+      "task_loss": 0.3984212875366211
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1503305733203888,
+      "epoch": 2.14,
+      "learning_rate": 1.4375092139101279e-06,
+      "loss": 0.1773,
+      "step": 5910,
+      "task_loss": 0.5217478275299072
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16366368532180786,
+      "epoch": 2.14,
+      "learning_rate": 1.4358068511577248e-06,
+      "loss": 0.1824,
+      "step": 5920,
+      "task_loss": 0.7586253881454468
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13122406601905823,
+      "epoch": 2.14,
+      "learning_rate": 1.434102927872706e-06,
+      "loss": 0.167,
+      "step": 5930,
+      "task_loss": 0.274662584066391
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17711997032165527,
+      "epoch": 2.15,
+      "learning_rate": 1.4323974501564617e-06,
+      "loss": 0.1627,
+      "step": 5940,
+      "task_loss": 0.5237435102462769
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1662512719631195,
+      "epoch": 2.15,
+      "learning_rate": 1.4306904241159488e-06,
+      "loss": 0.1883,
+      "step": 5950,
+      "task_loss": 0.2580040693283081
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15990257263183594,
+      "epoch": 2.15,
+      "learning_rate": 1.4289818558636686e-06,
+      "loss": 0.1749,
+      "step": 5960,
+      "task_loss": 0.5619537830352783
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18278679251670837,
+      "epoch": 2.16,
+      "learning_rate": 1.4272717515176443e-06,
+      "loss": 0.1619,
+      "step": 5970,
+      "task_loss": 0.32770949602127075
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18862998485565186,
+      "epoch": 2.16,
+      "learning_rate": 1.425560117201399e-06,
+      "loss": 0.1882,
+      "step": 5980,
+      "task_loss": 0.4872078597545624
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13203898072242737,
+      "epoch": 2.16,
+      "learning_rate": 1.4238469590439358e-06,
+      "loss": 0.1634,
+      "step": 5990,
+      "task_loss": 0.38844966888427734
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14819516241550446,
+      "epoch": 2.17,
+      "learning_rate": 1.4221322831797133e-06,
+      "loss": 0.1705,
+      "step": 6000,
+      "task_loss": 0.5028584003448486
+    },
+    {
+      "epoch": 2.17,
+      "eval_exact_match": 83.67076631977294,
+      "eval_f1": 89.97577151956914,
+      "step": 6000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18577471375465393,
+      "epoch": 2.17,
+      "learning_rate": 1.420416095748625e-06,
+      "loss": 0.1704,
+      "step": 6010,
+      "task_loss": 0.30688726902008057
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1723865419626236,
+      "epoch": 2.18,
+      "learning_rate": 1.4186984028959766e-06,
+      "loss": 0.1799,
+      "step": 6020,
+      "task_loss": 0.42208823561668396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14269012212753296,
+      "epoch": 2.18,
+      "learning_rate": 1.4169792107724647e-06,
+      "loss": 0.161,
+      "step": 6030,
+      "task_loss": 0.3946291506290436
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17888927459716797,
+      "epoch": 2.18,
+      "learning_rate": 1.4152585255341547e-06,
+      "loss": 0.1647,
+      "step": 6040,
+      "task_loss": 0.4846251904964447
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12159587442874908,
+      "epoch": 2.19,
+      "learning_rate": 1.4135363533424585e-06,
+      "loss": 0.168,
+      "step": 6050,
+      "task_loss": 0.4344036281108856
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15208034217357635,
+      "epoch": 2.19,
+      "learning_rate": 1.4118127003641116e-06,
+      "loss": 0.1769,
+      "step": 6060,
+      "task_loss": 0.43158042430877686
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1561131477355957,
+      "epoch": 2.19,
+      "learning_rate": 1.4100875727711533e-06,
+      "loss": 0.1698,
+      "step": 6070,
+      "task_loss": 0.627993643283844
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16031518578529358,
+      "epoch": 2.2,
+      "learning_rate": 1.4083609767409019e-06,
+      "loss": 0.1599,
+      "step": 6080,
+      "task_loss": 0.21831873059272766
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17668455839157104,
+      "epoch": 2.2,
+      "learning_rate": 1.406632918455935e-06,
+      "loss": 0.1931,
+      "step": 6090,
+      "task_loss": 0.29211580753326416
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17368084192276,
+      "epoch": 2.2,
+      "learning_rate": 1.4049034041040647e-06,
+      "loss": 0.1753,
+      "step": 6100,
+      "task_loss": 0.44469308853149414
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12126050889492035,
+      "epoch": 2.21,
+      "learning_rate": 1.4031724398783192e-06,
+      "loss": 0.1514,
+      "step": 6110,
+      "task_loss": 0.26887062191963196
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16346772015094757,
+      "epoch": 2.21,
+      "learning_rate": 1.401440031976916e-06,
+      "loss": 0.1721,
+      "step": 6120,
+      "task_loss": 0.5284141302108765
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1427915096282959,
+      "epoch": 2.22,
+      "learning_rate": 1.3997061866032439e-06,
+      "loss": 0.1686,
+      "step": 6130,
+      "task_loss": 0.5118228793144226
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1318717747926712,
+      "epoch": 2.22,
+      "learning_rate": 1.3979709099658376e-06,
+      "loss": 0.1831,
+      "step": 6140,
+      "task_loss": 0.41089510917663574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1968536078929901,
+      "epoch": 2.22,
+      "learning_rate": 1.3962342082783582e-06,
+      "loss": 0.1758,
+      "step": 6150,
+      "task_loss": 0.5051559209823608
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15244260430335999,
+      "epoch": 2.23,
+      "learning_rate": 1.3944960877595684e-06,
+      "loss": 0.1816,
+      "step": 6160,
+      "task_loss": 0.3118957281112671
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13998454809188843,
+      "epoch": 2.23,
+      "learning_rate": 1.3927565546333123e-06,
+      "loss": 0.1625,
+      "step": 6170,
+      "task_loss": 0.556923508644104
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13642212748527527,
+      "epoch": 2.23,
+      "learning_rate": 1.391015615128492e-06,
+      "loss": 0.1645,
+      "step": 6180,
+      "task_loss": 0.35751280188560486
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1508575975894928,
+      "epoch": 2.24,
+      "learning_rate": 1.3892732754790455e-06,
+      "loss": 0.1742,
+      "step": 6190,
+      "task_loss": 0.41975730657577515
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.10277068614959717,
+      "epoch": 2.24,
+      "learning_rate": 1.3875295419239242e-06,
+      "loss": 0.1581,
+      "step": 6200,
+      "task_loss": 0.3505735695362091
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21870091557502747,
+      "epoch": 2.24,
+      "learning_rate": 1.385784420707071e-06,
+      "loss": 0.1818,
+      "step": 6210,
+      "task_loss": 0.4473569691181183
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1878502368927002,
+      "epoch": 2.25,
+      "learning_rate": 1.3840379180773975e-06,
+      "loss": 0.1768,
+      "step": 6220,
+      "task_loss": 0.47854381799697876
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15077124536037445,
+      "epoch": 2.25,
+      "learning_rate": 1.3822900402887626e-06,
+      "loss": 0.1688,
+      "step": 6230,
+      "task_loss": 0.26176613569259644
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18990695476531982,
+      "epoch": 2.26,
+      "learning_rate": 1.3805407935999482e-06,
+      "loss": 0.1832,
+      "step": 6240,
+      "task_loss": 0.546806275844574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1040068119764328,
+      "epoch": 2.26,
+      "learning_rate": 1.378790184274639e-06,
+      "loss": 0.1759,
+      "step": 6250,
+      "task_loss": 0.09956555813550949
+    },
+    {
+      "epoch": 2.26,
+      "eval_exact_match": 83.85998107852413,
+      "eval_f1": 90.12192979235915,
+      "step": 6250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.159162700176239,
+      "epoch": 2.26,
+      "learning_rate": 1.3770382185813986e-06,
+      "loss": 0.1785,
+      "step": 6260,
+      "task_loss": 0.2582295536994934
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16721557080745697,
+      "epoch": 2.27,
+      "learning_rate": 1.3752849027936473e-06,
+      "loss": 0.167,
+      "step": 6270,
+      "task_loss": 0.3453947603702545
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14433017373085022,
+      "epoch": 2.27,
+      "learning_rate": 1.3735302431896396e-06,
+      "loss": 0.167,
+      "step": 6280,
+      "task_loss": 0.22514958679676056
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20126046240329742,
+      "epoch": 2.27,
+      "learning_rate": 1.3717742460524429e-06,
+      "loss": 0.1887,
+      "step": 6290,
+      "task_loss": 0.6400581002235413
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21604719758033752,
+      "epoch": 2.28,
+      "learning_rate": 1.3700169176699125e-06,
+      "loss": 0.1939,
+      "step": 6300,
+      "task_loss": 0.35505056381225586
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1490190625190735,
+      "epoch": 2.28,
+      "learning_rate": 1.3682582643346728e-06,
+      "loss": 0.173,
+      "step": 6310,
+      "task_loss": 0.566085934638977
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12886354327201843,
+      "epoch": 2.28,
+      "learning_rate": 1.36649829234409e-06,
+      "loss": 0.1792,
+      "step": 6320,
+      "task_loss": 0.32131779193878174
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14631399512290955,
+      "epoch": 2.29,
+      "learning_rate": 1.3647370080002541e-06,
+      "loss": 0.1629,
+      "step": 6330,
+      "task_loss": 0.3405493497848511
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13580074906349182,
+      "epoch": 2.29,
+      "learning_rate": 1.3629744176099535e-06,
+      "loss": 0.1617,
+      "step": 6340,
+      "task_loss": 0.2829074263572693
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16273626685142517,
+      "epoch": 2.29,
+      "learning_rate": 1.3612105274846538e-06,
+      "loss": 0.174,
+      "step": 6350,
+      "task_loss": 0.34644442796707153
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16554933786392212,
+      "epoch": 2.3,
+      "learning_rate": 1.3594453439404733e-06,
+      "loss": 0.1848,
+      "step": 6360,
+      "task_loss": 0.40179452300071716
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17596763372421265,
+      "epoch": 2.3,
+      "learning_rate": 1.357678873298164e-06,
+      "loss": 0.1648,
+      "step": 6370,
+      "task_loss": 0.5932073593139648
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15840421617031097,
+      "epoch": 2.31,
+      "learning_rate": 1.3559111218830848e-06,
+      "loss": 0.1796,
+      "step": 6380,
+      "task_loss": 0.6633092761039734
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16752852499485016,
+      "epoch": 2.31,
+      "learning_rate": 1.3541420960251813e-06,
+      "loss": 0.1728,
+      "step": 6390,
+      "task_loss": 0.6710745096206665
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1526416689157486,
+      "epoch": 2.31,
+      "learning_rate": 1.3523718020589634e-06,
+      "loss": 0.1717,
+      "step": 6400,
+      "task_loss": 0.21283848583698273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14025653898715973,
+      "epoch": 2.32,
+      "learning_rate": 1.3506002463234811e-06,
+      "loss": 0.1718,
+      "step": 6410,
+      "task_loss": 0.22466395795345306
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14743945002555847,
+      "epoch": 2.32,
+      "learning_rate": 1.348827435162302e-06,
+      "loss": 0.1761,
+      "step": 6420,
+      "task_loss": 0.40274888277053833
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18202725052833557,
+      "epoch": 2.32,
+      "learning_rate": 1.3470533749234906e-06,
+      "loss": 0.169,
+      "step": 6430,
+      "task_loss": 0.7552968859672546
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17869505286216736,
+      "epoch": 2.33,
+      "learning_rate": 1.3452780719595831e-06,
+      "loss": 0.1666,
+      "step": 6440,
+      "task_loss": 0.2956041097640991
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1480785310268402,
+      "epoch": 2.33,
+      "learning_rate": 1.3435015326275654e-06,
+      "loss": 0.1684,
+      "step": 6450,
+      "task_loss": 0.3291912376880646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15362969040870667,
+      "epoch": 2.33,
+      "learning_rate": 1.3417237632888513e-06,
+      "loss": 0.1661,
+      "step": 6460,
+      "task_loss": 0.38771361112594604
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1606786698102951,
+      "epoch": 2.34,
+      "learning_rate": 1.3399447703092584e-06,
+      "loss": 0.176,
+      "step": 6470,
+      "task_loss": 0.5447548627853394
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14728298783302307,
+      "epoch": 2.34,
+      "learning_rate": 1.3381645600589865e-06,
+      "loss": 0.1682,
+      "step": 6480,
+      "task_loss": 0.4820564091205597
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16725045442581177,
+      "epoch": 2.35,
+      "learning_rate": 1.3363831389125936e-06,
+      "loss": 0.1777,
+      "step": 6490,
+      "task_loss": 0.41131776571273804
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16478011012077332,
+      "epoch": 2.35,
+      "learning_rate": 1.3346005132489739e-06,
+      "loss": 0.1756,
+      "step": 6500,
+      "task_loss": 0.3583562970161438
+    },
+    {
+      "epoch": 2.35,
+      "eval_exact_match": 83.61400189214758,
+      "eval_f1": 89.97690778977226,
+      "step": 6500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21100406348705292,
+      "epoch": 2.35,
+      "learning_rate": 1.3328166894513346e-06,
+      "loss": 0.1659,
+      "step": 6510,
+      "task_loss": 0.41332000494003296
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14449000358581543,
+      "epoch": 2.36,
+      "learning_rate": 1.3310316739071738e-06,
+      "loss": 0.1687,
+      "step": 6520,
+      "task_loss": 0.28724896907806396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15244629979133606,
+      "epoch": 2.36,
+      "learning_rate": 1.329245473008256e-06,
+      "loss": 0.1682,
+      "step": 6530,
+      "task_loss": 0.37325456738471985
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1374513804912567,
+      "epoch": 2.36,
+      "learning_rate": 1.3274580931505911e-06,
+      "loss": 0.1838,
+      "step": 6540,
+      "task_loss": 0.47368472814559937
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1499250829219818,
+      "epoch": 2.37,
+      "learning_rate": 1.3256695407344103e-06,
+      "loss": 0.1662,
+      "step": 6550,
+      "task_loss": 0.4007405638694763
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17637519538402557,
+      "epoch": 2.37,
+      "learning_rate": 1.3238798221641427e-06,
+      "loss": 0.1872,
+      "step": 6560,
+      "task_loss": 0.4767989218235016
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19467362761497498,
+      "epoch": 2.37,
+      "learning_rate": 1.3220889438483944e-06,
+      "loss": 0.168,
+      "step": 6570,
+      "task_loss": 0.5928551554679871
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1555582582950592,
+      "epoch": 2.38,
+      "learning_rate": 1.3202969121999234e-06,
+      "loss": 0.1708,
+      "step": 6580,
+      "task_loss": 0.5098388195037842
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13599567115306854,
+      "epoch": 2.38,
+      "learning_rate": 1.3185037336356182e-06,
+      "loss": 0.1658,
+      "step": 6590,
+      "task_loss": 0.3146175146102905
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1555548906326294,
+      "epoch": 2.39,
+      "learning_rate": 1.316709414576474e-06,
+      "loss": 0.1726,
+      "step": 6600,
+      "task_loss": 0.5938575863838196
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12219253927469254,
+      "epoch": 2.39,
+      "learning_rate": 1.3149139614475693e-06,
+      "loss": 0.174,
+      "step": 6610,
+      "task_loss": 0.3089248538017273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1555480659008026,
+      "epoch": 2.39,
+      "learning_rate": 1.3131173806780443e-06,
+      "loss": 0.1676,
+      "step": 6620,
+      "task_loss": 0.42747241258621216
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17220956087112427,
+      "epoch": 2.4,
+      "learning_rate": 1.311319678701076e-06,
+      "loss": 0.1887,
+      "step": 6630,
+      "task_loss": 0.4911194443702698
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.197723388671875,
+      "epoch": 2.4,
+      "learning_rate": 1.3095208619538574e-06,
+      "loss": 0.1714,
+      "step": 6640,
+      "task_loss": 0.36501121520996094
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14832803606987,
+      "epoch": 2.4,
+      "learning_rate": 1.3077209368775724e-06,
+      "loss": 0.1724,
+      "step": 6650,
+      "task_loss": 0.4433749318122864
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17430132627487183,
+      "epoch": 2.41,
+      "learning_rate": 1.3059199099173741e-06,
+      "loss": 0.1818,
+      "step": 6660,
+      "task_loss": 0.5781666040420532
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16755987703800201,
+      "epoch": 2.41,
+      "learning_rate": 1.3041177875223612e-06,
+      "loss": 0.1678,
+      "step": 6670,
+      "task_loss": 0.6399859189987183
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16882233321666718,
+      "epoch": 2.41,
+      "learning_rate": 1.302314576145554e-06,
+      "loss": 0.1698,
+      "step": 6680,
+      "task_loss": 0.6496683359146118
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1583394557237625,
+      "epoch": 2.42,
+      "learning_rate": 1.3005102822438738e-06,
+      "loss": 0.1789,
+      "step": 6690,
+      "task_loss": 0.32157063484191895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13417063653469086,
+      "epoch": 2.42,
+      "learning_rate": 1.2987049122781171e-06,
+      "loss": 0.1802,
+      "step": 6700,
+      "task_loss": 0.2793649435043335
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15821221470832825,
+      "epoch": 2.43,
+      "learning_rate": 1.2968984727129332e-06,
+      "loss": 0.1818,
+      "step": 6710,
+      "task_loss": 0.34716230630874634
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16095976531505585,
+      "epoch": 2.43,
+      "learning_rate": 1.295090970016803e-06,
+      "loss": 0.1825,
+      "step": 6720,
+      "task_loss": 0.19834813475608826
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14987853169441223,
+      "epoch": 2.43,
+      "learning_rate": 1.2932824106620125e-06,
+      "loss": 0.1635,
+      "step": 6730,
+      "task_loss": 0.7775259613990784
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16203686594963074,
+      "epoch": 2.44,
+      "learning_rate": 1.291472801124632e-06,
+      "loss": 0.1696,
+      "step": 6740,
+      "task_loss": 0.39739635586738586
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14740723371505737,
+      "epoch": 2.44,
+      "learning_rate": 1.2896621478844931e-06,
+      "loss": 0.1799,
+      "step": 6750,
+      "task_loss": 0.3119643032550812
+    },
+    {
+      "epoch": 2.44,
+      "eval_exact_match": 83.70860927152317,
+      "eval_f1": 89.9757275904899,
+      "step": 6750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18803681433200836,
+      "epoch": 2.44,
+      "learning_rate": 1.2878504574251637e-06,
+      "loss": 0.1717,
+      "step": 6760,
+      "task_loss": 0.4526791572570801
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17158998548984528,
+      "epoch": 2.45,
+      "learning_rate": 1.2860377362339257e-06,
+      "loss": 0.1711,
+      "step": 6770,
+      "task_loss": 0.4078561067581177
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13310539722442627,
+      "epoch": 2.45,
+      "learning_rate": 1.2842239908017526e-06,
+      "loss": 0.1676,
+      "step": 6780,
+      "task_loss": 0.27124446630477905
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.166331946849823,
+      "epoch": 2.45,
+      "learning_rate": 1.2824092276232853e-06,
+      "loss": 0.1686,
+      "step": 6790,
+      "task_loss": 0.6495641469955444
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16789960861206055,
+      "epoch": 2.46,
+      "learning_rate": 1.280593453196808e-06,
+      "loss": 0.1742,
+      "step": 6800,
+      "task_loss": 0.4059957265853882
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1527012437582016,
+      "epoch": 2.46,
+      "learning_rate": 1.2787766740242277e-06,
+      "loss": 0.1686,
+      "step": 6810,
+      "task_loss": 0.3953001797199249
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16180524230003357,
+      "epoch": 2.46,
+      "learning_rate": 1.2769588966110476e-06,
+      "loss": 0.1789,
+      "step": 6820,
+      "task_loss": 0.49090176820755005
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1586184799671173,
+      "epoch": 2.47,
+      "learning_rate": 1.2751401274663463e-06,
+      "loss": 0.158,
+      "step": 6830,
+      "task_loss": 0.24430197477340698
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12404391914606094,
+      "epoch": 2.47,
+      "learning_rate": 1.2733203731027534e-06,
+      "loss": 0.1605,
+      "step": 6840,
+      "task_loss": 0.253868043422699
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17260029911994934,
+      "epoch": 2.48,
+      "learning_rate": 1.2714996400364262e-06,
+      "loss": 0.1541,
+      "step": 6850,
+      "task_loss": 0.4611034691333771
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1461942195892334,
+      "epoch": 2.48,
+      "learning_rate": 1.2696779347870265e-06,
+      "loss": 0.1741,
+      "step": 6860,
+      "task_loss": 0.5523576736450195
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12024559080600739,
+      "epoch": 2.48,
+      "learning_rate": 1.2678552638776979e-06,
+      "loss": 0.1755,
+      "step": 6870,
+      "task_loss": 0.3268803060054779
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18247783184051514,
+      "epoch": 2.49,
+      "learning_rate": 1.2660316338350408e-06,
+      "loss": 0.1767,
+      "step": 6880,
+      "task_loss": 0.3315047025680542
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21110492944717407,
+      "epoch": 2.49,
+      "learning_rate": 1.2642070511890905e-06,
+      "loss": 0.1858,
+      "step": 6890,
+      "task_loss": 0.6726840734481812
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13523760437965393,
+      "epoch": 2.49,
+      "learning_rate": 1.2623815224732941e-06,
+      "loss": 0.1731,
+      "step": 6900,
+      "task_loss": 0.17781083285808563
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13068142533302307,
+      "epoch": 2.5,
+      "learning_rate": 1.2605550542244854e-06,
+      "loss": 0.1613,
+      "step": 6910,
+      "task_loss": 0.41651782393455505
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13178616762161255,
+      "epoch": 2.5,
+      "learning_rate": 1.2587276529828628e-06,
+      "loss": 0.1858,
+      "step": 6920,
+      "task_loss": 0.48381632566452026
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1575162410736084,
+      "epoch": 2.5,
+      "learning_rate": 1.2568993252919652e-06,
+      "loss": 0.1753,
+      "step": 6930,
+      "task_loss": 0.27174267172813416
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21238577365875244,
+      "epoch": 2.51,
+      "learning_rate": 1.25507007769865e-06,
+      "loss": 0.1898,
+      "step": 6940,
+      "task_loss": 0.3620792031288147
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15523602068424225,
+      "epoch": 2.51,
+      "learning_rate": 1.2532399167530674e-06,
+      "loss": 0.1751,
+      "step": 6950,
+      "task_loss": 0.24264416098594666
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20205236971378326,
+      "epoch": 2.52,
+      "learning_rate": 1.2514088490086387e-06,
+      "loss": 0.1882,
+      "step": 6960,
+      "task_loss": 0.49486780166625977
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1760149896144867,
+      "epoch": 2.52,
+      "learning_rate": 1.2495768810220321e-06,
+      "loss": 0.1753,
+      "step": 6970,
+      "task_loss": 0.5111973881721497
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1396222710609436,
+      "epoch": 2.52,
+      "learning_rate": 1.2477440193531393e-06,
+      "loss": 0.1635,
+      "step": 6980,
+      "task_loss": 0.4071466624736786
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21526896953582764,
+      "epoch": 2.53,
+      "learning_rate": 1.2459102705650523e-06,
+      "loss": 0.184,
+      "step": 6990,
+      "task_loss": 0.43278732895851135
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15099546313285828,
+      "epoch": 2.53,
+      "learning_rate": 1.24407564122404e-06,
+      "loss": 0.1687,
+      "step": 7000,
+      "task_loss": 0.4598119854927063
+    },
+    {
+      "epoch": 2.53,
+      "eval_exact_match": 83.38694418164617,
+      "eval_f1": 89.83912379851094,
+      "step": 7000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13700950145721436,
+      "epoch": 2.53,
+      "learning_rate": 1.2422401378995231e-06,
+      "loss": 0.1684,
+      "step": 7010,
+      "task_loss": 0.23394280672073364
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19724495708942413,
+      "epoch": 2.54,
+      "learning_rate": 1.2404037671640534e-06,
+      "loss": 0.1905,
+      "step": 7020,
+      "task_loss": 0.5948208570480347
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17370860278606415,
+      "epoch": 2.54,
+      "learning_rate": 1.2385665355932874e-06,
+      "loss": 0.1626,
+      "step": 7030,
+      "task_loss": 0.5977954268455505
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15155650675296783,
+      "epoch": 2.54,
+      "learning_rate": 1.2367284497659659e-06,
+      "loss": 0.179,
+      "step": 7040,
+      "task_loss": 0.7188633680343628
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.26555588841438293,
+      "epoch": 2.55,
+      "learning_rate": 1.2348895162638862e-06,
+      "loss": 0.1875,
+      "step": 7050,
+      "task_loss": 0.5506167411804199
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1538572609424591,
+      "epoch": 2.55,
+      "learning_rate": 1.2330497416718824e-06,
+      "loss": 0.1718,
+      "step": 7060,
+      "task_loss": 0.6333431601524353
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17727243900299072,
+      "epoch": 2.56,
+      "learning_rate": 1.2312091325778004e-06,
+      "loss": 0.1747,
+      "step": 7070,
+      "task_loss": 0.6085351705551147
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1532391905784607,
+      "epoch": 2.56,
+      "learning_rate": 1.229367695572474e-06,
+      "loss": 0.1628,
+      "step": 7080,
+      "task_loss": 0.14348584413528442
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19841280579566956,
+      "epoch": 2.56,
+      "learning_rate": 1.2275254372497012e-06,
+      "loss": 0.1637,
+      "step": 7090,
+      "task_loss": 0.5597392916679382
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1571100950241089,
+      "epoch": 2.57,
+      "learning_rate": 1.225682364206222e-06,
+      "loss": 0.1766,
+      "step": 7100,
+      "task_loss": 0.44082239270210266
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1467963010072708,
+      "epoch": 2.57,
+      "learning_rate": 1.2238384830416926e-06,
+      "loss": 0.1659,
+      "step": 7110,
+      "task_loss": 0.31584417819976807
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1948840469121933,
+      "epoch": 2.57,
+      "learning_rate": 1.2219938003586635e-06,
+      "loss": 0.1776,
+      "step": 7120,
+      "task_loss": 0.32976752519607544
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1948937028646469,
+      "epoch": 2.58,
+      "learning_rate": 1.2201483227625549e-06,
+      "loss": 0.1675,
+      "step": 7130,
+      "task_loss": 0.6085909008979797
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1637001782655716,
+      "epoch": 2.58,
+      "learning_rate": 1.2183020568616342e-06,
+      "loss": 0.1846,
+      "step": 7140,
+      "task_loss": 0.47807058691978455
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16208887100219727,
+      "epoch": 2.58,
+      "learning_rate": 1.2164550092669906e-06,
+      "loss": 0.177,
+      "step": 7150,
+      "task_loss": 0.4254646599292755
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13784141838550568,
+      "epoch": 2.59,
+      "learning_rate": 1.214607186592513e-06,
+      "loss": 0.17,
+      "step": 7160,
+      "task_loss": 0.6249512434005737
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17609910666942596,
+      "epoch": 2.59,
+      "learning_rate": 1.212758595454866e-06,
+      "loss": 0.1824,
+      "step": 7170,
+      "task_loss": 0.6437938213348389
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1495467573404312,
+      "epoch": 2.59,
+      "learning_rate": 1.210909242473464e-06,
+      "loss": 0.1638,
+      "step": 7180,
+      "task_loss": 0.3057920038700104
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22128623723983765,
+      "epoch": 2.6,
+      "learning_rate": 1.2090591342704523e-06,
+      "loss": 0.1908,
+      "step": 7190,
+      "task_loss": 0.3862370252609253
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2089284509420395,
+      "epoch": 2.6,
+      "learning_rate": 1.2072082774706783e-06,
+      "loss": 0.1803,
+      "step": 7200,
+      "task_loss": 0.3655293583869934
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1751350313425064,
+      "epoch": 2.61,
+      "learning_rate": 1.205356678701671e-06,
+      "loss": 0.1847,
+      "step": 7210,
+      "task_loss": 0.6336475610733032
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14995576441287994,
+      "epoch": 2.61,
+      "learning_rate": 1.2035043445936158e-06,
+      "loss": 0.1643,
+      "step": 7220,
+      "task_loss": 0.5754516124725342
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.191546231508255,
+      "epoch": 2.61,
+      "learning_rate": 1.201651281779331e-06,
+      "loss": 0.1847,
+      "step": 7230,
+      "task_loss": 0.5577281713485718
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17802578210830688,
+      "epoch": 2.62,
+      "learning_rate": 1.1997974968942448e-06,
+      "loss": 0.1745,
+      "step": 7240,
+      "task_loss": 0.45092934370040894
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1552976369857788,
+      "epoch": 2.62,
+      "learning_rate": 1.1979429965763707e-06,
+      "loss": 0.1731,
+      "step": 7250,
+      "task_loss": 0.5546841621398926
+    },
+    {
+      "epoch": 2.62,
+      "eval_exact_match": 83.4720908230842,
+      "eval_f1": 89.94530706324616,
+      "step": 7250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12661629915237427,
+      "epoch": 2.62,
+      "learning_rate": 1.1960877874662842e-06,
+      "loss": 0.159,
+      "step": 7260,
+      "task_loss": 0.24371370673179626
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17779144644737244,
+      "epoch": 2.63,
+      "learning_rate": 1.1942318762070984e-06,
+      "loss": 0.1738,
+      "step": 7270,
+      "task_loss": 0.29593953490257263
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1766924411058426,
+      "epoch": 2.63,
+      "learning_rate": 1.1923752694444413e-06,
+      "loss": 0.1862,
+      "step": 7280,
+      "task_loss": 0.5446988344192505
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13910958170890808,
+      "epoch": 2.63,
+      "learning_rate": 1.1905179738264307e-06,
+      "loss": 0.1742,
+      "step": 7290,
+      "task_loss": 0.2903839349746704
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15694880485534668,
+      "epoch": 2.64,
+      "learning_rate": 1.1886599960036514e-06,
+      "loss": 0.1825,
+      "step": 7300,
+      "task_loss": 0.37020811438560486
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1348649561405182,
+      "epoch": 2.64,
+      "learning_rate": 1.186801342629131e-06,
+      "loss": 0.1704,
+      "step": 7310,
+      "task_loss": 0.31780362129211426
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13491874933242798,
+      "epoch": 2.65,
+      "learning_rate": 1.184942020358316e-06,
+      "loss": 0.1796,
+      "step": 7320,
+      "task_loss": 0.2244960069656372
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1295914649963379,
+      "epoch": 2.65,
+      "learning_rate": 1.1830820358490481e-06,
+      "loss": 0.1742,
+      "step": 7330,
+      "task_loss": 0.24627065658569336
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1553851217031479,
+      "epoch": 2.65,
+      "learning_rate": 1.1812213957615407e-06,
+      "loss": 0.1855,
+      "step": 7340,
+      "task_loss": 0.3259097635746002
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16126763820648193,
+      "epoch": 2.66,
+      "learning_rate": 1.179360106758354e-06,
+      "loss": 0.1701,
+      "step": 7350,
+      "task_loss": 0.48443925380706787
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16280007362365723,
+      "epoch": 2.66,
+      "learning_rate": 1.1774981755043721e-06,
+      "loss": 0.1779,
+      "step": 7360,
+      "task_loss": 0.5628104209899902
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2028045356273651,
+      "epoch": 2.66,
+      "learning_rate": 1.1756356086667795e-06,
+      "loss": 0.1779,
+      "step": 7370,
+      "task_loss": 0.4160672724246979
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13652898371219635,
+      "epoch": 2.67,
+      "learning_rate": 1.1737724129150357e-06,
+      "loss": 0.1713,
+      "step": 7380,
+      "task_loss": 0.46745267510414124
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18952497839927673,
+      "epoch": 2.67,
+      "learning_rate": 1.1719085949208525e-06,
+      "loss": 0.1726,
+      "step": 7390,
+      "task_loss": 0.7140260934829712
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1258544772863388,
+      "epoch": 2.67,
+      "learning_rate": 1.1700441613581702e-06,
+      "loss": 0.1553,
+      "step": 7400,
+      "task_loss": 0.26404812932014465
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13442295789718628,
+      "epoch": 2.68,
+      "learning_rate": 1.168179118903133e-06,
+      "loss": 0.1707,
+      "step": 7410,
+      "task_loss": 0.4021362066268921
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16747888922691345,
+      "epoch": 2.68,
+      "learning_rate": 1.1663134742340648e-06,
+      "loss": 0.1748,
+      "step": 7420,
+      "task_loss": 0.2707682251930237
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13281439244747162,
+      "epoch": 2.69,
+      "learning_rate": 1.164447234031447e-06,
+      "loss": 0.1679,
+      "step": 7430,
+      "task_loss": 0.4617811143398285
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1636105477809906,
+      "epoch": 2.69,
+      "learning_rate": 1.1625804049778931e-06,
+      "loss": 0.1688,
+      "step": 7440,
+      "task_loss": 0.6173032522201538
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18871071934700012,
+      "epoch": 2.69,
+      "learning_rate": 1.160712993758125e-06,
+      "loss": 0.1944,
+      "step": 7450,
+      "task_loss": 0.4313560724258423
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.143826425075531,
+      "epoch": 2.7,
+      "learning_rate": 1.1588450070589492e-06,
+      "loss": 0.1692,
+      "step": 7460,
+      "task_loss": 0.496171236038208
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12385374307632446,
+      "epoch": 2.7,
+      "learning_rate": 1.1569764515692334e-06,
+      "loss": 0.1574,
+      "step": 7470,
+      "task_loss": 0.521141529083252
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1483931839466095,
+      "epoch": 2.7,
+      "learning_rate": 1.1551073339798803e-06,
+      "loss": 0.1631,
+      "step": 7480,
+      "task_loss": 0.30746322870254517
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1397826075553894,
+      "epoch": 2.71,
+      "learning_rate": 1.1532376609838079e-06,
+      "loss": 0.1604,
+      "step": 7490,
+      "task_loss": 0.2872992753982544
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18801283836364746,
+      "epoch": 2.71,
+      "learning_rate": 1.151367439275921e-06,
+      "loss": 0.1768,
+      "step": 7500,
+      "task_loss": 0.588277280330658
+    },
+    {
+      "epoch": 2.71,
+      "eval_exact_match": 83.66130558183538,
+      "eval_f1": 90.07695887230169,
+      "step": 7500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15823519229888916,
+      "epoch": 2.71,
+      "learning_rate": 1.1494966755530901e-06,
+      "loss": 0.1851,
+      "step": 7510,
+      "task_loss": 0.3757522404193878
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14509174227714539,
+      "epoch": 2.72,
+      "learning_rate": 1.1476253765141267e-06,
+      "loss": 0.1717,
+      "step": 7520,
+      "task_loss": 0.15500980615615845
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.147189199924469,
+      "epoch": 2.72,
+      "learning_rate": 1.1457535488597587e-06,
+      "loss": 0.1668,
+      "step": 7530,
+      "task_loss": 0.34534624218940735
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14676904678344727,
+      "epoch": 2.72,
+      "learning_rate": 1.1438811992926067e-06,
+      "loss": 0.1817,
+      "step": 7540,
+      "task_loss": 0.49516406655311584
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.195867121219635,
+      "epoch": 2.73,
+      "learning_rate": 1.1420083345171608e-06,
+      "loss": 0.1738,
+      "step": 7550,
+      "task_loss": 0.6467814445495605
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11699579656124115,
+      "epoch": 2.73,
+      "learning_rate": 1.140134961239755e-06,
+      "loss": 0.1672,
+      "step": 7560,
+      "task_loss": 0.3284699022769928
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14966784417629242,
+      "epoch": 2.74,
+      "learning_rate": 1.1382610861685456e-06,
+      "loss": 0.1768,
+      "step": 7570,
+      "task_loss": 0.33868739008903503
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16117683053016663,
+      "epoch": 2.74,
+      "learning_rate": 1.1363867160134843e-06,
+      "loss": 0.1679,
+      "step": 7580,
+      "task_loss": 0.37554022669792175
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1663319170475006,
+      "epoch": 2.74,
+      "learning_rate": 1.1345118574862967e-06,
+      "loss": 0.1682,
+      "step": 7590,
+      "task_loss": 0.5620455741882324
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1660982072353363,
+      "epoch": 2.75,
+      "learning_rate": 1.1326365173004555e-06,
+      "loss": 0.1822,
+      "step": 7600,
+      "task_loss": 0.4505634307861328
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13936099410057068,
+      "epoch": 2.75,
+      "learning_rate": 1.1307607021711606e-06,
+      "loss": 0.1681,
+      "step": 7610,
+      "task_loss": 0.3778277635574341
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17037974298000336,
+      "epoch": 2.75,
+      "learning_rate": 1.12888441881531e-06,
+      "loss": 0.1794,
+      "step": 7620,
+      "task_loss": 0.3082660436630249
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19312995672225952,
+      "epoch": 2.76,
+      "learning_rate": 1.1270076739514805e-06,
+      "loss": 0.1784,
+      "step": 7630,
+      "task_loss": 0.6790364980697632
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14956381916999817,
+      "epoch": 2.76,
+      "learning_rate": 1.1251304742998999e-06,
+      "loss": 0.1646,
+      "step": 7640,
+      "task_loss": 0.3310818672180176
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1720355749130249,
+      "epoch": 2.76,
+      "learning_rate": 1.1232528265824252e-06,
+      "loss": 0.1871,
+      "step": 7650,
+      "task_loss": 0.5396093130111694
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12346095591783524,
+      "epoch": 2.77,
+      "learning_rate": 1.1213747375225178e-06,
+      "loss": 0.1782,
+      "step": 7660,
+      "task_loss": 0.5943026542663574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17838293313980103,
+      "epoch": 2.77,
+      "learning_rate": 1.1194962138452194e-06,
+      "loss": 0.1751,
+      "step": 7670,
+      "task_loss": 0.49117571115493774
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15319928526878357,
+      "epoch": 2.78,
+      "learning_rate": 1.1176172622771276e-06,
+      "loss": 0.1701,
+      "step": 7680,
+      "task_loss": 0.2504529356956482
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12942051887512207,
+      "epoch": 2.78,
+      "learning_rate": 1.115737889546373e-06,
+      "loss": 0.1704,
+      "step": 7690,
+      "task_loss": 0.8131101131439209
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17500701546669006,
+      "epoch": 2.78,
+      "learning_rate": 1.1138581023825937e-06,
+      "loss": 0.1713,
+      "step": 7700,
+      "task_loss": 0.3743223249912262
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15439695119857788,
+      "epoch": 2.79,
+      "learning_rate": 1.1119779075169117e-06,
+      "loss": 0.1639,
+      "step": 7710,
+      "task_loss": 0.5529880523681641
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15999752283096313,
+      "epoch": 2.79,
+      "learning_rate": 1.1100973116819092e-06,
+      "loss": 0.1556,
+      "step": 7720,
+      "task_loss": 0.3388964533805847
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18036921322345734,
+      "epoch": 2.79,
+      "learning_rate": 1.1082163216116044e-06,
+      "loss": 0.1663,
+      "step": 7730,
+      "task_loss": 0.5201153755187988
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14596882462501526,
+      "epoch": 2.8,
+      "learning_rate": 1.1063349440414265e-06,
+      "loss": 0.1598,
+      "step": 7740,
+      "task_loss": 0.3204638361930847
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1631544828414917,
+      "epoch": 2.8,
+      "learning_rate": 1.1044531857081927e-06,
+      "loss": 0.1804,
+      "step": 7750,
+      "task_loss": 0.8809808492660522
+    },
+    {
+      "epoch": 2.8,
+      "eval_exact_match": 83.52885525070955,
+      "eval_f1": 89.94545472443673,
+      "step": 7750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18084211647510529,
+      "epoch": 2.8,
+      "learning_rate": 1.1025710533500838e-06,
+      "loss": 0.1682,
+      "step": 7760,
+      "task_loss": 0.5090347528457642
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1455087661743164,
+      "epoch": 2.81,
+      "learning_rate": 1.1006885537066194e-06,
+      "loss": 0.1893,
+      "step": 7770,
+      "task_loss": 0.32133185863494873
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12667664885520935,
+      "epoch": 2.81,
+      "learning_rate": 1.0988056935186346e-06,
+      "loss": 0.1586,
+      "step": 7780,
+      "task_loss": 0.2582120895385742
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16505160927772522,
+      "epoch": 2.82,
+      "learning_rate": 1.0969224795282556e-06,
+      "loss": 0.1773,
+      "step": 7790,
+      "task_loss": 0.6498008966445923
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12269654124975204,
+      "epoch": 2.82,
+      "learning_rate": 1.0950389184788754e-06,
+      "loss": 0.1786,
+      "step": 7800,
+      "task_loss": 0.7851200103759766
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15462878346443176,
+      "epoch": 2.82,
+      "learning_rate": 1.0931550171151295e-06,
+      "loss": 0.1717,
+      "step": 7810,
+      "task_loss": 0.45008930563926697
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17051701247692108,
+      "epoch": 2.83,
+      "learning_rate": 1.0912707821828724e-06,
+      "loss": 0.1914,
+      "step": 7820,
+      "task_loss": 0.40274274349212646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14285723865032196,
+      "epoch": 2.83,
+      "learning_rate": 1.089386220429153e-06,
+      "loss": 0.1757,
+      "step": 7830,
+      "task_loss": 0.513251543045044
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19114567339420319,
+      "epoch": 2.83,
+      "learning_rate": 1.0875013386021893e-06,
+      "loss": 0.1888,
+      "step": 7840,
+      "task_loss": 0.5363246202468872
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1428094506263733,
+      "epoch": 2.84,
+      "learning_rate": 1.0856161434513475e-06,
+      "loss": 0.1713,
+      "step": 7850,
+      "task_loss": 0.4419270157814026
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15643715858459473,
+      "epoch": 2.84,
+      "learning_rate": 1.0837306417271147e-06,
+      "loss": 0.1681,
+      "step": 7860,
+      "task_loss": 0.44533056020736694
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13387146592140198,
+      "epoch": 2.84,
+      "learning_rate": 1.0818448401810753e-06,
+      "loss": 0.1737,
+      "step": 7870,
+      "task_loss": 0.4950907230377197
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15607303380966187,
+      "epoch": 2.85,
+      "learning_rate": 1.079958745565888e-06,
+      "loss": 0.1749,
+      "step": 7880,
+      "task_loss": 0.6860287189483643
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1685732752084732,
+      "epoch": 2.85,
+      "learning_rate": 1.0780723646352605e-06,
+      "loss": 0.1731,
+      "step": 7890,
+      "task_loss": 0.5070062875747681
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15234628319740295,
+      "epoch": 2.86,
+      "learning_rate": 1.076185704143926e-06,
+      "loss": 0.1662,
+      "step": 7900,
+      "task_loss": 0.32623738050460815
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14870676398277283,
+      "epoch": 2.86,
+      "learning_rate": 1.0742987708476185e-06,
+      "loss": 0.1779,
+      "step": 7910,
+      "task_loss": 0.43853697180747986
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11807222664356232,
+      "epoch": 2.86,
+      "learning_rate": 1.0724115715030495e-06,
+      "loss": 0.1545,
+      "step": 7920,
+      "task_loss": 0.3483704626560211
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1611451804637909,
+      "epoch": 2.87,
+      "learning_rate": 1.0705241128678824e-06,
+      "loss": 0.1668,
+      "step": 7930,
+      "task_loss": 0.4193282723426819
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15785019099712372,
+      "epoch": 2.87,
+      "learning_rate": 1.0686364017007093e-06,
+      "loss": 0.1789,
+      "step": 7940,
+      "task_loss": 0.315855473279953
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19590085744857788,
+      "epoch": 2.87,
+      "learning_rate": 1.0667484447610261e-06,
+      "loss": 0.1817,
+      "step": 7950,
+      "task_loss": 0.45036888122558594
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1536681354045868,
+      "epoch": 2.88,
+      "learning_rate": 1.0648602488092104e-06,
+      "loss": 0.1783,
+      "step": 7960,
+      "task_loss": 0.39551639556884766
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12338414788246155,
+      "epoch": 2.88,
+      "learning_rate": 1.0629718206064935e-06,
+      "loss": 0.151,
+      "step": 7970,
+      "task_loss": 0.35970136523246765
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12747308611869812,
+      "epoch": 2.88,
+      "learning_rate": 1.06108316691494e-06,
+      "loss": 0.1743,
+      "step": 7980,
+      "task_loss": 0.3183417320251465
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15406057238578796,
+      "epoch": 2.89,
+      "learning_rate": 1.0591942944974212e-06,
+      "loss": 0.1725,
+      "step": 7990,
+      "task_loss": 0.7116891145706177
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1521359086036682,
+      "epoch": 2.89,
+      "learning_rate": 1.0573052101175915e-06,
+      "loss": 0.1804,
+      "step": 8000,
+      "task_loss": 0.45792704820632935
+    },
+    {
+      "epoch": 2.89,
+      "eval_exact_match": 83.81267738883633,
+      "eval_f1": 90.15074155517108,
+      "step": 8000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19931340217590332,
+      "epoch": 2.89,
+      "learning_rate": 1.0554159205398643e-06,
+      "loss": 0.1716,
+      "step": 8010,
+      "task_loss": 0.7359171509742737
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1555495262145996,
+      "epoch": 2.9,
+      "learning_rate": 1.0535264325293885e-06,
+      "loss": 0.1763,
+      "step": 8020,
+      "task_loss": 0.5659838914871216
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18331894278526306,
+      "epoch": 2.9,
+      "learning_rate": 1.0516367528520227e-06,
+      "loss": 0.1768,
+      "step": 8030,
+      "task_loss": 0.6728960871696472
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19219288229942322,
+      "epoch": 2.91,
+      "learning_rate": 1.0497468882743122e-06,
+      "loss": 0.1806,
+      "step": 8040,
+      "task_loss": 0.504513144493103
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12473896145820618,
+      "epoch": 2.91,
+      "learning_rate": 1.0478568455634641e-06,
+      "loss": 0.1709,
+      "step": 8050,
+      "task_loss": 0.22338946163654327
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15949636697769165,
+      "epoch": 2.91,
+      "learning_rate": 1.045966631487324e-06,
+      "loss": 0.1682,
+      "step": 8060,
+      "task_loss": 0.4108890891075134
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16450482606887817,
+      "epoch": 2.92,
+      "learning_rate": 1.0440762528143505e-06,
+      "loss": 0.1658,
+      "step": 8070,
+      "task_loss": 0.38757970929145813
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14186137914657593,
+      "epoch": 2.92,
+      "learning_rate": 1.042185716313592e-06,
+      "loss": 0.1741,
+      "step": 8080,
+      "task_loss": 0.3712804913520813
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16010576486587524,
+      "epoch": 2.92,
+      "learning_rate": 1.040295028754661e-06,
+      "loss": 0.1657,
+      "step": 8090,
+      "task_loss": 0.2653946876525879
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1634744256734848,
+      "epoch": 2.93,
+      "learning_rate": 1.0384041969077125e-06,
+      "loss": 0.1678,
+      "step": 8100,
+      "task_loss": 0.37681901454925537
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17398503422737122,
+      "epoch": 2.93,
+      "learning_rate": 1.0365132275434175e-06,
+      "loss": 0.1694,
+      "step": 8110,
+      "task_loss": 0.5321211814880371
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14301329851150513,
+      "epoch": 2.93,
+      "learning_rate": 1.0346221274329392e-06,
+      "loss": 0.1627,
+      "step": 8120,
+      "task_loss": 0.2358737289905548
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19131416082382202,
+      "epoch": 2.94,
+      "learning_rate": 1.0327309033479087e-06,
+      "loss": 0.1897,
+      "step": 8130,
+      "task_loss": 0.35499224066734314
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1476271152496338,
+      "epoch": 2.94,
+      "learning_rate": 1.0308395620604016e-06,
+      "loss": 0.1682,
+      "step": 8140,
+      "task_loss": 0.42450767755508423
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17429782450199127,
+      "epoch": 2.95,
+      "learning_rate": 1.0289481103429135e-06,
+      "loss": 0.1829,
+      "step": 8150,
+      "task_loss": 0.4377296566963196
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16124795377254486,
+      "epoch": 2.95,
+      "learning_rate": 1.0270565549683342e-06,
+      "loss": 0.1786,
+      "step": 8160,
+      "task_loss": 0.3876572549343109
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15951263904571533,
+      "epoch": 2.95,
+      "learning_rate": 1.0251649027099262e-06,
+      "loss": 0.1673,
+      "step": 8170,
+      "task_loss": 0.4029073119163513
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1840726137161255,
+      "epoch": 2.96,
+      "learning_rate": 1.0232731603412972e-06,
+      "loss": 0.1927,
+      "step": 8180,
+      "task_loss": 0.4143099784851074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18531106412410736,
+      "epoch": 2.96,
+      "learning_rate": 1.0213813346363792e-06,
+      "loss": 0.1768,
+      "step": 8190,
+      "task_loss": 0.6813019514083862
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18536627292633057,
+      "epoch": 2.96,
+      "learning_rate": 1.0194894323694014e-06,
+      "loss": 0.176,
+      "step": 8200,
+      "task_loss": 0.5788917541503906
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1379977911710739,
+      "epoch": 2.97,
+      "learning_rate": 1.0175974603148683e-06,
+      "loss": 0.1811,
+      "step": 8210,
+      "task_loss": 0.8245267271995544
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14147508144378662,
+      "epoch": 2.97,
+      "learning_rate": 1.0157054252475335e-06,
+      "loss": 0.1668,
+      "step": 8220,
+      "task_loss": 0.48868924379348755
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17832288146018982,
+      "epoch": 2.97,
+      "learning_rate": 1.0138133339423757e-06,
+      "loss": 0.1748,
+      "step": 8230,
+      "task_loss": 0.48949164152145386
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15996500849723816,
+      "epoch": 2.98,
+      "learning_rate": 1.0119211931745766e-06,
+      "loss": 0.1719,
+      "step": 8240,
+      "task_loss": 0.4312325716018677
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15269511938095093,
+      "epoch": 2.98,
+      "learning_rate": 1.0100290097194932e-06,
+      "loss": 0.1666,
+      "step": 8250,
+      "task_loss": 0.543391227722168
+    },
+    {
+      "epoch": 2.98,
+      "eval_exact_match": 83.62346263008514,
+      "eval_f1": 90.03105862224157,
+      "step": 8250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16537584364414215,
+      "epoch": 2.99,
+      "learning_rate": 1.0081367903526367e-06,
+      "loss": 0.1708,
+      "step": 8260,
+      "task_loss": 0.23162506520748138
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1359395980834961,
+      "epoch": 2.99,
+      "learning_rate": 1.0062445418496466e-06,
+      "loss": 0.1698,
+      "step": 8270,
+      "task_loss": 0.4973392188549042
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18227165937423706,
+      "epoch": 2.99,
+      "learning_rate": 1.0043522709862663e-06,
+      "loss": 0.1872,
+      "step": 8280,
+      "task_loss": 0.4104633331298828
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1791878640651703,
+      "epoch": 3.0,
+      "learning_rate": 1.0024599845383195e-06,
+      "loss": 0.1789,
+      "step": 8290,
+      "task_loss": 0.4813977777957916
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0,
+      "compression/movement_sparsity/importance_threshold": -Infinity,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15984641015529633,
+      "epoch": 3.0,
+      "learning_rate": 1.0005676892816859e-06,
+      "loss": 0.1717,
+      "step": 8300,
+      "task_loss": 0.5337830781936646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 8.050780939351022e-05,
+      "compression/movement_sparsity/importance_threshold": -0.8842994279815715,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18141396343708038,
+      "epoch": 3.0,
+      "learning_rate": 9.986753919922763e-07,
+      "loss": 0.1893,
+      "step": 8310,
+      "task_loss": 0.4816855788230896
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00018104905245944604,
+      "compression/movement_sparsity/importance_threshold": -0.8829299076613767,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17543792724609375,
+      "epoch": 3.01,
+      "learning_rate": 9.967830994460091e-07,
+      "loss": 0.1674,
+      "step": 8320,
+      "task_loss": 0.7297599911689758
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0002814864359787489,
+      "compression/movement_sparsity/importance_threshold": -0.8815618020617008,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14357587695121765,
+      "epoch": 3.01,
+      "learning_rate": 9.94890818418786e-07,
+      "loss": 0.1749,
+      "step": 8330,
+      "task_loss": 0.4249134957790375
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00038182001362283225,
+      "compression/movement_sparsity/importance_threshold": -0.8801951104514598,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15991082787513733,
+      "epoch": 3.01,
+      "learning_rate": 9.929985556864669e-07,
+      "loss": 0.162,
+      "step": 8340,
+      "task_loss": 0.3581671714782715
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00048204983906308785,
+      "compression/movement_sparsity/importance_threshold": -0.87882983209957,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16143129765987396,
+      "epoch": 3.02,
+      "learning_rate": 9.911063180248462e-07,
+      "loss": 0.1693,
+      "step": 8350,
+      "task_loss": 0.6364099383354187
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0005821759659709508,
+      "compression/movement_sparsity/importance_threshold": -0.8774659662749472,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14541073143482208,
+      "epoch": 3.02,
+      "learning_rate": 9.89214112209629e-07,
+      "loss": 0.1719,
+      "step": 8360,
+      "task_loss": 0.2846934497356415
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0006821984480178128,
+      "compression/movement_sparsity/importance_threshold": -0.8761035122465077,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14429126679897308,
+      "epoch": 3.02,
+      "learning_rate": 9.873219450164061e-07,
+      "loss": 0.1838,
+      "step": 8370,
+      "task_loss": 0.33501607179641724
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0007821173388750946,
+      "compression/movement_sparsity/importance_threshold": -0.8747424692831676,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19137001037597656,
+      "epoch": 3.03,
+      "learning_rate": 9.854298232206296e-07,
+      "loss": 0.1799,
+      "step": 8380,
+      "task_loss": 0.4200936555862427
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0008819326922142095,
+      "compression/movement_sparsity/importance_threshold": -0.8733828366538425,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18857447803020477,
+      "epoch": 3.03,
+      "learning_rate": 9.835377535975905e-07,
+      "loss": 0.1761,
+      "step": 8390,
+      "task_loss": 0.4611113667488098
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0009816445617065568,
+      "compression/movement_sparsity/importance_threshold": -0.872024613627449,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.139084130525589,
+      "epoch": 3.04,
+      "learning_rate": 9.816457429223905e-07,
+      "loss": 0.1636,
+      "step": 8400,
+      "task_loss": 0.5555346012115479
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0010812530010235349,
+      "compression/movement_sparsity/importance_threshold": -0.8706677994729032,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12424302101135254,
+      "epoch": 3.04,
+      "learning_rate": 9.797537979699225e-07,
+      "loss": 0.1682,
+      "step": 8410,
+      "task_loss": 0.3569965064525604
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0011807580638365867,
+      "compression/movement_sparsity/importance_threshold": -0.8693123934591207,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13371171057224274,
+      "epoch": 3.04,
+      "learning_rate": 9.778619255148434e-07,
+      "loss": 0.1677,
+      "step": 8420,
+      "task_loss": 0.4002540707588196
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.001280159803817118,
+      "compression/movement_sparsity/importance_threshold": -0.8679583948550178,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15741753578186035,
+      "epoch": 3.05,
+      "learning_rate": 9.759701323315496e-07,
+      "loss": 0.1722,
+      "step": 8430,
+      "task_loss": 0.4664173722267151
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.001379458274636528,
+      "compression/movement_sparsity/importance_threshold": -0.8666058029295104,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16380411386489868,
+      "epoch": 3.05,
+      "learning_rate": 9.740784251941549e-07,
+      "loss": 0.1842,
+      "step": 8440,
+      "task_loss": 0.3489740490913391
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.001478653529966223,
+      "compression/movement_sparsity/importance_threshold": -0.865254616951515,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2031557559967041,
+      "epoch": 3.05,
+      "learning_rate": 9.721868108764637e-07,
+      "loss": 0.1717,
+      "step": 8450,
+      "task_loss": 0.8436130881309509
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0015777456234776306,
+      "compression/movement_sparsity/importance_threshold": -0.8639048361899471,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19330856204032898,
+      "epoch": 3.06,
+      "learning_rate": 9.702952961519502e-07,
+      "loss": 0.1723,
+      "step": 8460,
+      "task_loss": 0.9914184808731079
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0016767346088421425,
+      "compression/movement_sparsity/importance_threshold": -0.8625564599137232,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16919749975204468,
+      "epoch": 3.06,
+      "learning_rate": 9.68403887793729e-07,
+      "loss": 0.1642,
+      "step": 8470,
+      "task_loss": 0.4527369737625122
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0017756205397311798,
+      "compression/movement_sparsity/importance_threshold": -0.8612094873917593,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16218455135822296,
+      "epoch": 3.06,
+      "learning_rate": 9.66512592574536e-07,
+      "loss": 0.1842,
+      "step": 8480,
+      "task_loss": 0.23674465715885162
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0018744034698161484,
+      "compression/movement_sparsity/importance_threshold": -0.8598639178929713,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14123575389385223,
+      "epoch": 3.07,
+      "learning_rate": 9.646214172667018e-07,
+      "loss": 0.1799,
+      "step": 8490,
+      "task_loss": 0.442488431930542
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.001973083452768469,
+      "compression/movement_sparsity/importance_threshold": -0.8585197506862754,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13976861536502838,
+      "epoch": 3.07,
+      "learning_rate": 9.627303686421263e-07,
+      "loss": 0.17,
+      "step": 8500,
+      "task_loss": 0.23940631747245789
+    },
+    {
+      "epoch": 3.07,
+      "eval_exact_match": 83.62346263008514,
+      "eval_f1": 90.07971472160804,
+      "step": 8500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.002071660542259533,
+      "compression/movement_sparsity/importance_threshold": -0.8571769850405877,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15648941695690155,
+      "epoch": 3.08,
+      "learning_rate": 9.608394534722578e-07,
+      "loss": 0.1894,
+      "step": 8510,
+      "task_loss": 0.293619304895401
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.002170134791960769,
+      "compression/movement_sparsity/importance_threshold": -0.8558356202248242,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16870902478694916,
+      "epoch": 3.08,
+      "learning_rate": 9.58948678528064e-07,
+      "loss": 0.1768,
+      "step": 8520,
+      "task_loss": 0.6857977509498596
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.002268506255543583,
+      "compression/movement_sparsity/importance_threshold": -0.8544956555079009,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14667314291000366,
+      "epoch": 3.08,
+      "learning_rate": 9.570580505800134e-07,
+      "loss": 0.1685,
+      "step": 8530,
+      "task_loss": 0.3974134922027588
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0023667749866793804,
+      "compression/movement_sparsity/importance_threshold": -0.8531570901587339,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2171468436717987,
+      "epoch": 3.09,
+      "learning_rate": 9.551675763980463e-07,
+      "loss": 0.1824,
+      "step": 8540,
+      "task_loss": 0.7033668160438538
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.002464941039039561,
+      "compression/movement_sparsity/importance_threshold": -0.8518199234462395,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15260061621665955,
+      "epoch": 3.09,
+      "learning_rate": 9.532772627515527e-07,
+      "loss": 0.1665,
+      "step": 8550,
+      "task_loss": 0.22714334726333618
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0025630044662955597,
+      "compression/movement_sparsity/importance_threshold": -0.8504841546393335,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14580965042114258,
+      "epoch": 3.09,
+      "learning_rate": 9.513871164093483e-07,
+      "loss": 0.1718,
+      "step": 8560,
+      "task_loss": 0.3902367949485779
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.002660965322118783,
+      "compression/movement_sparsity/importance_threshold": -0.8491497830069319,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22626420855522156,
+      "epoch": 3.1,
+      "learning_rate": 9.494971441396488e-07,
+      "loss": 0.1679,
+      "step": 8570,
+      "task_loss": 0.6860054731369019
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.002758823660180637,
+      "compression/movement_sparsity/importance_threshold": -0.8478168078179509,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13325051963329315,
+      "epoch": 3.1,
+      "learning_rate": 9.476073527100477e-07,
+      "loss": 0.1708,
+      "step": 8580,
+      "task_loss": 0.5953207612037659
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.002856579534152527,
+      "compression/movement_sparsity/importance_threshold": -0.8464852283413066,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14980527758598328,
+      "epoch": 3.1,
+      "learning_rate": 9.457177488874907e-07,
+      "loss": 0.175,
+      "step": 8590,
+      "task_loss": 0.5516312122344971
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0029542329977058674,
+      "compression/movement_sparsity/importance_threshold": -0.845155043845915,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14336633682250977,
+      "epoch": 3.11,
+      "learning_rate": 9.438283394382505e-07,
+      "loss": 0.1727,
+      "step": 8600,
+      "task_loss": 0.43941259384155273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0030517841045120714,
+      "compression/movement_sparsity/importance_threshold": -0.8438262536006922,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.138885036110878,
+      "epoch": 3.11,
+      "learning_rate": 9.419391311279053e-07,
+      "loss": 0.1608,
+      "step": 8610,
+      "task_loss": 0.4903583824634552
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0031492329082425455,
+      "compression/movement_sparsity/importance_threshold": -0.8424988568745543,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14071306586265564,
+      "epoch": 3.12,
+      "learning_rate": 9.40050130721312e-07,
+      "loss": 0.1671,
+      "step": 8620,
+      "task_loss": 0.4048214554786682
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0032465794625687024,
+      "compression/movement_sparsity/importance_threshold": -0.8411728529364173,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16939450800418854,
+      "epoch": 3.12,
+      "learning_rate": 9.381613449825843e-07,
+      "loss": 0.1777,
+      "step": 8630,
+      "task_loss": 0.5866584777832031
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.003343823821161949,
+      "compression/movement_sparsity/importance_threshold": -0.8398482410551974,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11506274342536926,
+      "epoch": 3.12,
+      "learning_rate": 9.362727806750654e-07,
+      "loss": 0.1697,
+      "step": 8640,
+      "task_loss": 0.45650506019592285
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.003440966037693698,
+      "compression/movement_sparsity/importance_threshold": -0.8385250204998105,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18618786334991455,
+      "epoch": 3.13,
+      "learning_rate": 9.343844445613072e-07,
+      "loss": 0.1852,
+      "step": 8650,
+      "task_loss": 0.341508150100708
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0035380061658353635,
+      "compression/movement_sparsity/importance_threshold": -0.8372031905391728,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15694350004196167,
+      "epoch": 3.13,
+      "learning_rate": 9.324963434030442e-07,
+      "loss": 0.1587,
+      "step": 8660,
+      "task_loss": 0.6575144529342651
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.003634944259258359,
+      "compression/movement_sparsity/importance_threshold": -0.8358827504422001,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1654762327671051,
+      "epoch": 3.13,
+      "learning_rate": 9.306084839611687e-07,
+      "loss": 0.1746,
+      "step": 8670,
+      "task_loss": 0.257068395614624
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0037317803716340825,
+      "compression/movement_sparsity/importance_threshold": -0.8345636994778088,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1543157696723938,
+      "epoch": 3.14,
+      "learning_rate": 9.287208729957085e-07,
+      "loss": 0.1791,
+      "step": 8680,
+      "task_loss": 0.6083182096481323
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.003828514556633934,
+      "compression/movement_sparsity/importance_threshold": -0.8332460369149152,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15461325645446777,
+      "epoch": 3.14,
+      "learning_rate": 9.268335172658008e-07,
+      "loss": 0.1743,
+      "step": 8690,
+      "task_loss": 0.3445891737937927
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.003925146867929356,
+      "compression/movement_sparsity/importance_threshold": -0.8319297620224346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14635170996189117,
+      "epoch": 3.14,
+      "learning_rate": 9.249464235296695e-07,
+      "loss": 0.1698,
+      "step": 8700,
+      "task_loss": 0.3346456289291382
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004021677359191753,
+      "compression/movement_sparsity/importance_threshold": -0.8306148740692835,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17073814570903778,
+      "epoch": 3.15,
+      "learning_rate": 9.230595985446003e-07,
+      "loss": 0.1737,
+      "step": 8710,
+      "task_loss": 0.5876675844192505
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004118106084092519,
+      "compression/movement_sparsity/importance_threshold": -0.8293013723243781,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20534959435462952,
+      "epoch": 3.15,
+      "learning_rate": 9.21173049066916e-07,
+      "loss": 0.1693,
+      "step": 8720,
+      "task_loss": 0.382878839969635
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00421443309630308,
+      "compression/movement_sparsity/importance_threshold": -0.827989256056634,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12774941325187683,
+      "epoch": 3.16,
+      "learning_rate": 9.192867818519535e-07,
+      "loss": 0.1775,
+      "step": 8730,
+      "task_loss": 0.19287356734275818
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0043106584494948365,
+      "compression/movement_sparsity/importance_threshold": -0.8266785245349677,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1298234462738037,
+      "epoch": 3.16,
+      "learning_rate": 9.174008036540384e-07,
+      "loss": 0.1682,
+      "step": 8740,
+      "task_loss": 0.2842978239059448
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004406782197339201,
+      "compression/movement_sparsity/importance_threshold": -0.8253691770282953,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1581944227218628,
+      "epoch": 3.16,
+      "learning_rate": 9.155151212264625e-07,
+      "loss": 0.1603,
+      "step": 8750,
+      "task_loss": 0.26196685433387756
+    },
+    {
+      "epoch": 3.16,
+      "eval_exact_match": 83.49101229895932,
+      "eval_f1": 89.91894198656578,
+      "step": 8750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004502804393507587,
+      "compression/movement_sparsity/importance_threshold": -0.8240612128055325,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13445620238780975,
+      "epoch": 3.17,
+      "learning_rate": 9.136297413214566e-07,
+      "loss": 0.1729,
+      "step": 8760,
+      "task_loss": 0.1746811419725418
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004598725091671408,
+      "compression/movement_sparsity/importance_threshold": -0.8227546311355955,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12342646718025208,
+      "epoch": 3.17,
+      "learning_rate": 9.1174467069017e-07,
+      "loss": 0.1721,
+      "step": 8770,
+      "task_loss": 0.33239758014678955
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004694544345502063,
+      "compression/movement_sparsity/importance_threshold": -0.8214494312874007,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15459150075912476,
+      "epoch": 3.17,
+      "learning_rate": 9.098599160826441e-07,
+      "loss": 0.1722,
+      "step": 8780,
+      "task_loss": 0.3906312584877014
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004790262208670973,
+      "compression/movement_sparsity/importance_threshold": -0.8201456125298637,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16902866959571838,
+      "epoch": 3.18,
+      "learning_rate": 9.079754842477879e-07,
+      "loss": 0.1756,
+      "step": 8790,
+      "task_loss": 0.3516932725906372
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.004885878734849544,
+      "compression/movement_sparsity/importance_threshold": -0.8188431741319009,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1674996316432953,
+      "epoch": 3.18,
+      "learning_rate": 9.060913819333559e-07,
+      "loss": 0.1744,
+      "step": 8800,
+      "task_loss": 0.5219091176986694
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0049813939777091885,
+      "compression/movement_sparsity/importance_threshold": -0.8175421153624282,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14921870827674866,
+      "epoch": 3.18,
+      "learning_rate": 9.042076158859214e-07,
+      "loss": 0.1648,
+      "step": 8810,
+      "task_loss": 0.5738848447799683
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.005076807990921315,
+      "compression/movement_sparsity/importance_threshold": -0.8162424354903617,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14361397922039032,
+      "epoch": 3.19,
+      "learning_rate": 9.023241928508542e-07,
+      "loss": 0.1649,
+      "step": 8820,
+      "task_loss": 0.5719636678695679
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.005172120828157334,
+      "compression/movement_sparsity/importance_threshold": -0.8149441337846175,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1588568091392517,
+      "epoch": 3.19,
+      "learning_rate": 9.004411195722965e-07,
+      "loss": 0.1811,
+      "step": 8830,
+      "task_loss": 0.39752593636512756
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00526733254308864,
+      "compression/movement_sparsity/importance_threshold": -0.8136472095141118,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2179379165172577,
+      "epoch": 3.19,
+      "learning_rate": 8.985584027931364e-07,
+      "loss": 0.1771,
+      "step": 8840,
+      "task_loss": 0.455571711063385
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00536244318938668,
+      "compression/movement_sparsity/importance_threshold": -0.8123516619477603,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15764448046684265,
+      "epoch": 3.2,
+      "learning_rate": 8.966760492549872e-07,
+      "loss": 0.1683,
+      "step": 8850,
+      "task_loss": 0.5573818683624268
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.005457452820722847,
+      "compression/movement_sparsity/importance_threshold": -0.8110574903544794,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15336552262306213,
+      "epoch": 3.2,
+      "learning_rate": 8.947940656981603e-07,
+      "loss": 0.1729,
+      "step": 8860,
+      "task_loss": 0.30682915449142456
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.005552361490768549,
+      "compression/movement_sparsity/importance_threshold": -0.8097646940031848,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15846428275108337,
+      "epoch": 3.21,
+      "learning_rate": 8.929124588616429e-07,
+      "loss": 0.1706,
+      "step": 8870,
+      "task_loss": 0.5824536681175232
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.005647169253195196,
+      "compression/movement_sparsity/importance_threshold": -0.8084732721627931,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13658425211906433,
+      "epoch": 3.21,
+      "learning_rate": 8.910312354830736e-07,
+      "loss": 0.1763,
+      "step": 8880,
+      "task_loss": 0.7418199777603149
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0057418761616742035,
+      "compression/movement_sparsity/importance_threshold": -0.8071832241022199,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21933336555957794,
+      "epoch": 3.21,
+      "learning_rate": 8.891504022987165e-07,
+      "loss": 0.1868,
+      "step": 8890,
+      "task_loss": 0.48175936937332153
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.005836482269876977,
+      "compression/movement_sparsity/importance_threshold": -0.8058945490903814,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12823690474033356,
+      "epoch": 3.22,
+      "learning_rate": 8.8726996604344e-07,
+      "loss": 0.1711,
+      "step": 8900,
+      "task_loss": 0.35165947675704956
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.005930987631474931,
+      "compression/movement_sparsity/importance_threshold": -0.8046072463961937,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1561659872531891,
+      "epoch": 3.22,
+      "learning_rate": 8.853899334506904e-07,
+      "loss": 0.1773,
+      "step": 8910,
+      "task_loss": 0.23708105087280273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00602539230013947,
+      "compression/movement_sparsity/importance_threshold": -0.803321315288573,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1587158590555191,
+      "epoch": 3.22,
+      "learning_rate": 8.835103112524691e-07,
+      "loss": 0.1701,
+      "step": 8920,
+      "task_loss": 0.3867292106151581
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006119696329542016,
+      "compression/movement_sparsity/importance_threshold": -0.8020367550364351,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13717815279960632,
+      "epoch": 3.23,
+      "learning_rate": 8.816311061793068e-07,
+      "loss": 0.1711,
+      "step": 8930,
+      "task_loss": 0.31392791867256165
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006213899773353968,
+      "compression/movement_sparsity/importance_threshold": -0.8007535649086963,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16188368201255798,
+      "epoch": 3.23,
+      "learning_rate": 8.79752324960242e-07,
+      "loss": 0.1637,
+      "step": 8940,
+      "task_loss": 0.5714429616928101
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006308002685246738,
+      "compression/movement_sparsity/importance_threshold": -0.7994717441742726,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1368107795715332,
+      "epoch": 3.23,
+      "learning_rate": 8.778739743227951e-07,
+      "loss": 0.179,
+      "step": 8950,
+      "task_loss": 0.36976689100265503
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006402005118891741,
+      "compression/movement_sparsity/importance_threshold": -0.7981912921020801,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1518588364124298,
+      "epoch": 3.24,
+      "learning_rate": 8.759960609929435e-07,
+      "loss": 0.1639,
+      "step": 8960,
+      "task_loss": 0.6866006255149841
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00649590712796039,
+      "compression/movement_sparsity/importance_threshold": -0.7969122079610346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20307350158691406,
+      "epoch": 3.24,
+      "learning_rate": 8.741185916951006e-07,
+      "loss": 0.1676,
+      "step": 8970,
+      "task_loss": 0.28236985206604004
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006589708766124069,
+      "compression/movement_sparsity/importance_threshold": -0.7956344910200528,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16698408126831055,
+      "epoch": 3.25,
+      "learning_rate": 8.72241573152088e-07,
+      "loss": 0.1652,
+      "step": 8980,
+      "task_loss": 0.30868786573410034
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006683410087054235,
+      "compression/movement_sparsity/importance_threshold": -0.79435814054805,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15856650471687317,
+      "epoch": 3.25,
+      "learning_rate": 8.703650120851146e-07,
+      "loss": 0.1839,
+      "step": 8990,
+      "task_loss": 0.16748939454555511
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006777011144422273,
+      "compression/movement_sparsity/importance_threshold": -0.7930831558139426,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15102289617061615,
+      "epoch": 3.25,
+      "learning_rate": 8.684889152137508e-07,
+      "loss": 0.1715,
+      "step": 9000,
+      "task_loss": 0.4023663103580475
+    },
+    {
+      "epoch": 3.25,
+      "eval_exact_match": 83.50047303689688,
+      "eval_f1": 89.90574516831549,
+      "step": 9000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.006870511991899589,
+      "compression/movement_sparsity/importance_threshold": -0.7918095360866468,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12239585816860199,
+      "epoch": 3.26,
+      "learning_rate": 8.66613289255904e-07,
+      "loss": 0.1694,
+      "step": 9010,
+      "task_loss": 0.3852020502090454
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00696391268315761,
+      "compression/movement_sparsity/importance_threshold": -0.7905372806350783,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17271217703819275,
+      "epoch": 3.26,
+      "learning_rate": 8.647381409277966e-07,
+      "loss": 0.1749,
+      "step": 9020,
+      "task_loss": 0.48539960384368896
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007057213271867729,
+      "compression/movement_sparsity/importance_threshold": -0.7892663887281537,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17906677722930908,
+      "epoch": 3.26,
+      "learning_rate": 8.628634769439398e-07,
+      "loss": 0.172,
+      "step": 9030,
+      "task_loss": 0.44566771388053894
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007150413811701367,
+      "compression/movement_sparsity/importance_threshold": -0.7879968596347886,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18354880809783936,
+      "epoch": 3.27,
+      "learning_rate": 8.609893040171112e-07,
+      "loss": 0.1751,
+      "step": 9040,
+      "task_loss": 0.3899494707584381
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0072435143563299356,
+      "compression/movement_sparsity/importance_threshold": -0.7867286926238993,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17823264002799988,
+      "epoch": 3.27,
+      "learning_rate": 8.59115628858329e-07,
+      "loss": 0.1753,
+      "step": 9050,
+      "task_loss": 0.3264240622520447
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007336514959424835,
+      "compression/movement_sparsity/importance_threshold": -0.7854618869644019,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16943280398845673,
+      "epoch": 3.27,
+      "learning_rate": 8.5724245817683e-07,
+      "loss": 0.1781,
+      "step": 9060,
+      "task_loss": 0.31149184703826904
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007429415674657485,
+      "compression/movement_sparsity/importance_threshold": -0.7841964419252122,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13426220417022705,
+      "epoch": 3.28,
+      "learning_rate": 8.553697986800444e-07,
+      "loss": 0.1806,
+      "step": 9070,
+      "task_loss": 0.3615609109401703
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007522216555699301,
+      "compression/movement_sparsity/importance_threshold": -0.7829323567752465,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14723095297813416,
+      "epoch": 3.28,
+      "learning_rate": 8.534976570735711e-07,
+      "loss": 0.1751,
+      "step": 9080,
+      "task_loss": 0.2963823676109314
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007614917656221679,
+      "compression/movement_sparsity/importance_threshold": -0.7816696307834208,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1296226531267166,
+      "epoch": 3.29,
+      "learning_rate": 8.516260400611559e-07,
+      "loss": 0.1796,
+      "step": 9090,
+      "task_loss": 0.4440094828605652
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007707519029896036,
+      "compression/movement_sparsity/importance_threshold": -0.7804082632186513,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1356373429298401,
+      "epoch": 3.29,
+      "learning_rate": 8.497549543446649e-07,
+      "loss": 0.1669,
+      "step": 9100,
+      "task_loss": 0.3411458134651184
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0078000207303937814,
+      "compression/movement_sparsity/importance_threshold": -0.7791482533498539,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15570493042469025,
+      "epoch": 3.29,
+      "learning_rate": 8.478844066240624e-07,
+      "loss": 0.1928,
+      "step": 9110,
+      "task_loss": 0.35819387435913086
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007892422811386331,
+      "compression/movement_sparsity/importance_threshold": -0.7778896004459447,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16601881384849548,
+      "epoch": 3.3,
+      "learning_rate": 8.460144035973866e-07,
+      "loss": 0.1692,
+      "step": 9120,
+      "task_loss": 0.5100635290145874
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.007984725326545077,
+      "compression/movement_sparsity/importance_threshold": -0.7766323037758399,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17528662085533142,
+      "epoch": 3.3,
+      "learning_rate": 8.44144951960724e-07,
+      "loss": 0.1646,
+      "step": 9130,
+      "task_loss": 0.4419068396091461
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00807692832954146,
+      "compression/movement_sparsity/importance_threshold": -0.7753763626084553,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13393300771713257,
+      "epoch": 3.3,
+      "learning_rate": 8.422760584081881e-07,
+      "loss": 0.1774,
+      "step": 9140,
+      "task_loss": 0.16897660493850708
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008169031874046875,
+      "compression/movement_sparsity/importance_threshold": -0.7741217762127072,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13365423679351807,
+      "epoch": 3.31,
+      "learning_rate": 8.404077296318928e-07,
+      "loss": 0.1632,
+      "step": 9150,
+      "task_loss": 0.30446919798851013
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008261036013732738,
+      "compression/movement_sparsity/importance_threshold": -0.7728685438575115,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2315337210893631,
+      "epoch": 3.31,
+      "learning_rate": 8.385399723219313e-07,
+      "loss": 0.191,
+      "step": 9160,
+      "task_loss": 0.4761585593223572
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008352940802270453,
+      "compression/movement_sparsity/importance_threshold": -0.7716166648117844,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16882847249507904,
+      "epoch": 3.31,
+      "learning_rate": 8.366727931663481e-07,
+      "loss": 0.1695,
+      "step": 9170,
+      "task_loss": 0.2730327248573303
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008444746293331428,
+      "compression/movement_sparsity/importance_threshold": -0.7703661383444418,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1654556542634964,
+      "epoch": 3.32,
+      "learning_rate": 8.348061988511194e-07,
+      "loss": 0.1676,
+      "step": 9180,
+      "task_loss": 0.7155327796936035
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00853645254058708,
+      "compression/movement_sparsity/importance_threshold": -0.7691169637244,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20778971910476685,
+      "epoch": 3.32,
+      "learning_rate": 8.329401960601273e-07,
+      "loss": 0.1829,
+      "step": 9190,
+      "task_loss": 0.5636166930198669
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008628059597708822,
+      "compression/movement_sparsity/importance_threshold": -0.7678691402205748,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16762343049049377,
+      "epoch": 3.32,
+      "learning_rate": 8.310747914751339e-07,
+      "loss": 0.1736,
+      "step": 9200,
+      "task_loss": 0.32610780000686646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008719567518368061,
+      "compression/movement_sparsity/importance_threshold": -0.7666226671018825,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1574648916721344,
+      "epoch": 3.33,
+      "learning_rate": 8.292099917757612e-07,
+      "loss": 0.1756,
+      "step": 9210,
+      "task_loss": 0.43395519256591797
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0088109763562362,
+      "compression/movement_sparsity/importance_threshold": -0.7653775436372391,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15642675757408142,
+      "epoch": 3.33,
+      "learning_rate": 8.273458036394641e-07,
+      "loss": 0.1819,
+      "step": 9220,
+      "task_loss": 0.3005210757255554
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008902286164984664,
+      "compression/movement_sparsity/importance_threshold": -0.7641337690955606,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15306097269058228,
+      "epoch": 3.34,
+      "learning_rate": 8.254822337415079e-07,
+      "loss": 0.1736,
+      "step": 9230,
+      "task_loss": 0.3201584815979004
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.008993496998284847,
+      "compression/movement_sparsity/importance_threshold": -0.7628913427457633,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11628354340791702,
+      "epoch": 3.34,
+      "learning_rate": 8.23619288754945e-07,
+      "loss": 0.1631,
+      "step": 9240,
+      "task_loss": 0.29428863525390625
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009084608909808174,
+      "compression/movement_sparsity/importance_threshold": -0.7616502638567629,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13086993992328644,
+      "epoch": 3.34,
+      "learning_rate": 8.217569753505883e-07,
+      "loss": 0.1668,
+      "step": 9250,
+      "task_loss": 0.3168758749961853
+    },
+    {
+      "epoch": 3.34,
+      "eval_exact_match": 83.52885525070955,
+      "eval_f1": 89.96188168895662,
+      "step": 9250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009175621953226057,
+      "compression/movement_sparsity/importance_threshold": -0.7604105316974756,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1549527943134308,
+      "epoch": 3.35,
+      "learning_rate": 8.198953001969908e-07,
+      "loss": 0.1774,
+      "step": 9260,
+      "task_loss": 0.35443389415740967
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009266536182209873,
+      "compression/movement_sparsity/importance_threshold": -0.7591721455368179,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11498824506998062,
+      "epoch": 3.35,
+      "learning_rate": 8.180342699604192e-07,
+      "loss": 0.1719,
+      "step": 9270,
+      "task_loss": 0.29143670201301575
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009357351650431077,
+      "compression/movement_sparsity/importance_threshold": -0.7579351046437052,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1407342255115509,
+      "epoch": 3.35,
+      "learning_rate": 8.161738913048309e-07,
+      "loss": 0.1843,
+      "step": 9280,
+      "task_loss": 0.46949753165245056
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009448068411561065,
+      "compression/movement_sparsity/importance_threshold": -0.7566994082870538,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1577707827091217,
+      "epoch": 3.36,
+      "learning_rate": 8.145001131224242e-07,
+      "loss": 0.1688,
+      "step": 9290,
+      "task_loss": 0.2751985192298889
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009538686519271247,
+      "compression/movement_sparsity/importance_threshold": -0.7554650557357798,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14712263643741608,
+      "epoch": 3.36,
+      "learning_rate": 8.126409908215325e-07,
+      "loss": 0.1608,
+      "step": 9300,
+      "task_loss": 0.28362199664115906
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.00962920602723303,
+      "compression/movement_sparsity/importance_threshold": -0.7542320462587994,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17634797096252441,
+      "epoch": 3.36,
+      "learning_rate": 8.107825394138224e-07,
+      "loss": 0.1866,
+      "step": 9310,
+      "task_loss": 0.7741411924362183
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009719626989117821,
+      "compression/movement_sparsity/importance_threshold": -0.7530003791250285,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1491977721452713,
+      "epoch": 3.37,
+      "learning_rate": 8.089247655540163e-07,
+      "loss": 0.175,
+      "step": 9320,
+      "task_loss": 0.3922104239463806
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009809949458597039,
+      "compression/movement_sparsity/importance_threshold": -0.7517700536033832,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16116444766521454,
+      "epoch": 3.37,
+      "learning_rate": 8.070676758944122e-07,
+      "loss": 0.1655,
+      "step": 9330,
+      "task_loss": 0.5367953777313232
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009900173489342093,
+      "compression/movement_sparsity/importance_threshold": -0.7505410689627796,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1759243607521057,
+      "epoch": 3.38,
+      "learning_rate": 8.052112770848568e-07,
+      "loss": 0.1672,
+      "step": 9340,
+      "task_loss": 0.2593398094177246
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.009990299135024385,
+      "compression/movement_sparsity/importance_threshold": -0.7493134244721338,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17565186321735382,
+      "epoch": 3.38,
+      "learning_rate": 8.033555757727237e-07,
+      "loss": 0.1661,
+      "step": 9350,
+      "task_loss": 0.4808293581008911
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01008032644931534,
+      "compression/movement_sparsity/importance_threshold": -0.7480871194003618,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18272629380226135,
+      "epoch": 3.38,
+      "learning_rate": 8.015005786028893e-07,
+      "loss": 0.1827,
+      "step": 9360,
+      "task_loss": 0.47488927841186523
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010170255485886355,
+      "compression/movement_sparsity/importance_threshold": -0.7468621530163796,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17263399064540863,
+      "epoch": 3.39,
+      "learning_rate": 7.996462922177072e-07,
+      "loss": 0.1621,
+      "step": 9370,
+      "task_loss": 0.4343196749687195
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010260086298408851,
+      "compression/movement_sparsity/importance_threshold": -0.7456385245891034,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16438047587871552,
+      "epoch": 3.39,
+      "learning_rate": 7.977927232569877e-07,
+      "loss": 0.1699,
+      "step": 9380,
+      "task_loss": 0.4834184944629669
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010349818940554234,
+      "compression/movement_sparsity/importance_threshold": -0.7444162333874491,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19111394882202148,
+      "epoch": 3.39,
+      "learning_rate": 7.959398783579698e-07,
+      "loss": 0.1637,
+      "step": 9390,
+      "task_loss": 0.6939228177070618
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01043945346599391,
+      "compression/movement_sparsity/importance_threshold": -0.7431952786803331,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1576661765575409,
+      "epoch": 3.4,
+      "learning_rate": 7.940877641553021e-07,
+      "loss": 0.1579,
+      "step": 9400,
+      "task_loss": 0.4254157543182373
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0105289899283993,
+      "compression/movement_sparsity/importance_threshold": -0.7419756597366711,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13320744037628174,
+      "epoch": 3.4,
+      "learning_rate": 7.922363872810159e-07,
+      "loss": 0.1813,
+      "step": 9410,
+      "task_loss": 0.3047106862068176
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010618428381441787,
+      "compression/movement_sparsity/importance_threshold": -0.7407573758253796,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16407856345176697,
+      "epoch": 3.4,
+      "learning_rate": 7.903857543645014e-07,
+      "loss": 0.1708,
+      "step": 9420,
+      "task_loss": 0.44201624393463135
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010707768878792823,
+      "compression/movement_sparsity/importance_threshold": -0.7395404262153742,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16521432995796204,
+      "epoch": 3.41,
+      "learning_rate": 7.885358720324865e-07,
+      "loss": 0.1759,
+      "step": 9430,
+      "task_loss": 0.3065508008003235
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010797011474123798,
+      "compression/movement_sparsity/importance_threshold": -0.7383248101755712,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1531199812889099,
+      "epoch": 3.41,
+      "learning_rate": 7.866867469090096e-07,
+      "loss": 0.1814,
+      "step": 9440,
+      "task_loss": 0.6985189318656921
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010886156221106119,
+      "compression/movement_sparsity/importance_threshold": -0.7371105269748865,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14802789688110352,
+      "epoch": 3.42,
+      "learning_rate": 7.848383856153991e-07,
+      "loss": 0.1597,
+      "step": 9450,
+      "task_loss": 0.40684616565704346
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.010975203173411207,
+      "compression/movement_sparsity/importance_threshold": -0.7358975758822364,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1340632140636444,
+      "epoch": 3.42,
+      "learning_rate": 7.829907947702478e-07,
+      "loss": 0.1784,
+      "step": 9460,
+      "task_loss": 0.5496231317520142
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011064152384710467,
+      "compression/movement_sparsity/importance_threshold": -0.7346859561665366,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12589387595653534,
+      "epoch": 3.42,
+      "learning_rate": 7.811439809893896e-07,
+      "loss": 0.162,
+      "step": 9470,
+      "task_loss": 0.3624046742916107
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011153003908675308,
+      "compression/movement_sparsity/importance_threshold": -0.7334756670967038,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1687452495098114,
+      "epoch": 3.43,
+      "learning_rate": 7.792979508858765e-07,
+      "loss": 0.1767,
+      "step": 9480,
+      "task_loss": 0.4035765826702118
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01124175779897714,
+      "compression/movement_sparsity/importance_threshold": -0.7322667079416534,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16020125150680542,
+      "epoch": 3.43,
+      "learning_rate": 7.774527110699527e-07,
+      "loss": 0.1603,
+      "step": 9490,
+      "task_loss": 0.41458970308303833
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011330414109287378,
+      "compression/movement_sparsity/importance_threshold": -0.7310590779703019,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.132632777094841,
+      "epoch": 3.43,
+      "learning_rate": 7.756082681490345e-07,
+      "loss": 0.1682,
+      "step": 9500,
+      "task_loss": 0.3918096423149109
+    },
+    {
+      "epoch": 3.43,
+      "eval_exact_match": 83.57615894039735,
+      "eval_f1": 89.99568658968761,
+      "step": 9500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011418972893277427,
+      "compression/movement_sparsity/importance_threshold": -0.7298527764515652,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14293313026428223,
+      "epoch": 3.44,
+      "learning_rate": 7.737646287276834e-07,
+      "loss": 0.1846,
+      "step": 9510,
+      "task_loss": 0.34345972537994385
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011507434204618703,
+      "compression/movement_sparsity/importance_threshold": -0.7286478026543594,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.158808171749115,
+      "epoch": 3.44,
+      "learning_rate": 7.719217994075842e-07,
+      "loss": 0.1825,
+      "step": 9520,
+      "task_loss": 0.3061710596084595
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011595798096982617,
+      "compression/movement_sparsity/importance_threshold": -0.7274441558476004,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1777794063091278,
+      "epoch": 3.44,
+      "learning_rate": 7.700797867875215e-07,
+      "loss": 0.1779,
+      "step": 9530,
+      "task_loss": 0.43014687299728394
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011684064624040575,
+      "compression/movement_sparsity/importance_threshold": -0.7262418353002045,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14890308678150177,
+      "epoch": 3.45,
+      "learning_rate": 7.682385974633539e-07,
+      "loss": 0.1667,
+      "step": 9540,
+      "task_loss": 0.4941771626472473
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011772233839463965,
+      "compression/movement_sparsity/importance_threshold": -0.7250408402810881,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13499748706817627,
+      "epoch": 3.45,
+      "learning_rate": 7.663982380279936e-07,
+      "loss": 0.1855,
+      "step": 9550,
+      "task_loss": 0.5359944105148315
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011860305796924247,
+      "compression/movement_sparsity/importance_threshold": -0.7238411700591665,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17753419280052185,
+      "epoch": 3.46,
+      "learning_rate": 7.645587150713797e-07,
+      "loss": 0.1758,
+      "step": 9560,
+      "task_loss": 0.2920956611633301
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.011948280550092807,
+      "compression/movement_sparsity/importance_threshold": -0.722642823903356,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1481466293334961,
+      "epoch": 3.46,
+      "learning_rate": 7.627200351804573e-07,
+      "loss": 0.167,
+      "step": 9570,
+      "task_loss": 0.4186212122440338
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012036158152641053,
+      "compression/movement_sparsity/importance_threshold": -0.721445801082573,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1611461639404297,
+      "epoch": 3.46,
+      "learning_rate": 7.608822049391522e-07,
+      "loss": 0.1624,
+      "step": 9580,
+      "task_loss": 0.5867197513580322
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012123938658240395,
+      "compression/movement_sparsity/importance_threshold": -0.7202501008657333,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17020216584205627,
+      "epoch": 3.47,
+      "learning_rate": 7.590452309283473e-07,
+      "loss": 0.1777,
+      "step": 9590,
+      "task_loss": 0.5484004020690918
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012211622120562255,
+      "compression/movement_sparsity/importance_threshold": -0.7190557225217529,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16823932528495789,
+      "epoch": 3.47,
+      "learning_rate": 7.572091197258605e-07,
+      "loss": 0.1712,
+      "step": 9600,
+      "task_loss": 0.42677053809165955
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012299208593278026,
+      "compression/movement_sparsity/importance_threshold": -0.7178626653195481,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1810576617717743,
+      "epoch": 3.47,
+      "learning_rate": 7.553738779064191e-07,
+      "loss": 0.1867,
+      "step": 9610,
+      "task_loss": 0.6101388931274414
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012386698130059135,
+      "compression/movement_sparsity/importance_threshold": -0.7166709285280347,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15320083498954773,
+      "epoch": 3.48,
+      "learning_rate": 7.53539512041638e-07,
+      "loss": 0.1972,
+      "step": 9620,
+      "task_loss": 0.45958250761032104
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012474090784576982,
+      "compression/movement_sparsity/importance_threshold": -0.7154805114161291,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17546682059764862,
+      "epoch": 3.48,
+      "learning_rate": 7.51706028699995e-07,
+      "loss": 0.1772,
+      "step": 9630,
+      "task_loss": 0.44312983751296997
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012561386610502979,
+      "compression/movement_sparsity/importance_threshold": -0.7142914132527471,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1869005411863327,
+      "epoch": 3.48,
+      "learning_rate": 7.498734344468085e-07,
+      "loss": 0.1721,
+      "step": 9640,
+      "task_loss": 0.4443809986114502
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012648585661508538,
+      "compression/movement_sparsity/importance_threshold": -0.713103633306805,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21304626762866974,
+      "epoch": 3.49,
+      "learning_rate": 7.480417358442131e-07,
+      "loss": 0.1735,
+      "step": 9650,
+      "task_loss": 0.4839943051338196
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012735687991265069,
+      "compression/movement_sparsity/importance_threshold": -0.7119171708472186,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1490074098110199,
+      "epoch": 3.49,
+      "learning_rate": 7.462109394511352e-07,
+      "loss": 0.1827,
+      "step": 9660,
+      "task_loss": 0.6885297298431396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01282269365344399,
+      "compression/movement_sparsity/importance_threshold": -0.7107320251429041,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14718842506408691,
+      "epoch": 3.49,
+      "learning_rate": 7.443810518232723e-07,
+      "loss": 0.1786,
+      "step": 9670,
+      "task_loss": 0.34075993299484253
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012909602701716701,
+      "compression/movement_sparsity/importance_threshold": -0.7095481954627776,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2005831003189087,
+      "epoch": 3.5,
+      "learning_rate": 7.425520795130658e-07,
+      "loss": 0.1759,
+      "step": 9680,
+      "task_loss": 0.5733194351196289
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.012996415189754616,
+      "compression/movement_sparsity/importance_threshold": -0.7083656810757551,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13851837813854218,
+      "epoch": 3.5,
+      "learning_rate": 7.407240290696813e-07,
+      "loss": 0.1682,
+      "step": 9690,
+      "task_loss": 0.24197955429553986
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.013083131171229131,
+      "compression/movement_sparsity/importance_threshold": -0.707184481250753,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15892581641674042,
+      "epoch": 3.51,
+      "learning_rate": 7.388969070389828e-07,
+      "loss": 0.1781,
+      "step": 9700,
+      "task_loss": 0.3478658199310303
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.013169750699811683,
+      "compression/movement_sparsity/importance_threshold": -0.7060045952566868,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13390114903450012,
+      "epoch": 3.51,
+      "learning_rate": 7.370707199635094e-07,
+      "loss": 0.1746,
+      "step": 9710,
+      "task_loss": 0.46922826766967773
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01325627382917368,
+      "compression/movement_sparsity/importance_threshold": -0.7048260223624727,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14467637240886688,
+      "epoch": 3.51,
+      "learning_rate": 7.352454743824531e-07,
+      "loss": 0.16,
+      "step": 9720,
+      "task_loss": 0.2225886881351471
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01334270061298652,
+      "compression/movement_sparsity/importance_threshold": -0.7036487618370271,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14436565339565277,
+      "epoch": 3.52,
+      "learning_rate": 7.334211768316338e-07,
+      "loss": 0.1733,
+      "step": 9730,
+      "task_loss": 0.7009656429290771
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.013429031104921623,
+      "compression/movement_sparsity/importance_threshold": -0.7024728129492657,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1612703502178192,
+      "epoch": 3.52,
+      "learning_rate": 7.315978338434773e-07,
+      "loss": 0.1794,
+      "step": 9740,
+      "task_loss": 0.45459383726119995
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.013515265358650386,
+      "compression/movement_sparsity/importance_threshold": -0.7012981749681048,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1257527470588684,
+      "epoch": 3.52,
+      "learning_rate": 7.297754519469909e-07,
+      "loss": 0.1659,
+      "step": 9750,
+      "task_loss": 0.6451063752174377
+    },
+    {
+      "epoch": 3.52,
+      "eval_exact_match": 83.50993377483444,
+      "eval_f1": 89.97423247909468,
+      "step": 9750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.013601403427844234,
+      "compression/movement_sparsity/importance_threshold": -0.7001248471624604,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1723412126302719,
+      "epoch": 3.53,
+      "learning_rate": 7.279540376677407e-07,
+      "loss": 0.1644,
+      "step": 9760,
+      "task_loss": 0.5570217370986938
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01368744536617457,
+      "compression/movement_sparsity/importance_threshold": -0.6989528288012485,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1490807831287384,
+      "epoch": 3.53,
+      "learning_rate": 7.263155975197417e-07,
+      "loss": 0.1819,
+      "step": 9770,
+      "task_loss": 0.36897680163383484
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0137733912273128,
+      "compression/movement_sparsity/importance_threshold": -0.6977821191533853,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15225452184677124,
+      "epoch": 3.53,
+      "learning_rate": 7.244960396787469e-07,
+      "loss": 0.1688,
+      "step": 9780,
+      "task_loss": 0.27469679713249207
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.013859241064930345,
+      "compression/movement_sparsity/importance_threshold": -0.6966127174877867,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.161770761013031,
+      "epoch": 3.54,
+      "learning_rate": 7.226774683594532e-07,
+      "loss": 0.1737,
+      "step": 9790,
+      "task_loss": 0.562671422958374
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.013944994932698615,
+      "compression/movement_sparsity/importance_threshold": -0.695444623073369,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1080978512763977,
+      "epoch": 3.54,
+      "learning_rate": 7.208598900737806e-07,
+      "loss": 0.1776,
+      "step": 9800,
+      "task_loss": 0.15812508761882782
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014030652884289011,
+      "compression/movement_sparsity/importance_threshold": -0.6942778351790481,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12826144695281982,
+      "epoch": 3.55,
+      "learning_rate": 7.190433113300952e-07,
+      "loss": 0.1663,
+      "step": 9810,
+      "task_loss": 0.3542582392692566
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014116214973372957,
+      "compression/movement_sparsity/importance_threshold": -0.69311235307374,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16906192898750305,
+      "epoch": 3.55,
+      "learning_rate": 7.172277386331832e-07,
+      "loss": 0.1832,
+      "step": 9820,
+      "task_loss": 0.47162115573883057
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01420168125362185,
+      "compression/movement_sparsity/importance_threshold": -0.6919481760263608,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16506068408489227,
+      "epoch": 3.55,
+      "learning_rate": 7.154131784842279e-07,
+      "loss": 0.1837,
+      "step": 9830,
+      "task_loss": 0.5075066089630127
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014287051778707111,
+      "compression/movement_sparsity/importance_threshold": -0.6907853033058268,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18274077773094177,
+      "epoch": 3.56,
+      "learning_rate": 7.13599637380788e-07,
+      "loss": 0.1698,
+      "step": 9840,
+      "task_loss": 0.5426364541053772
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014372326602300119,
+      "compression/movement_sparsity/importance_threshold": -0.6896237341810542,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1831640601158142,
+      "epoch": 3.56,
+      "learning_rate": 7.117871218167716e-07,
+      "loss": 0.1616,
+      "step": 9850,
+      "task_loss": 0.7144515514373779
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014457505778072335,
+      "compression/movement_sparsity/importance_threshold": -0.6884634679209584,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1759902834892273,
+      "epoch": 3.56,
+      "learning_rate": 7.09975638282416e-07,
+      "loss": 0.1769,
+      "step": 9860,
+      "task_loss": 0.35797786712646484
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014542589359695154,
+      "compression/movement_sparsity/importance_threshold": -0.6873045037944556,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1537725031375885,
+      "epoch": 3.57,
+      "learning_rate": 7.081651932642628e-07,
+      "loss": 0.1887,
+      "step": 9870,
+      "task_loss": 0.23532593250274658
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014627577400839973,
+      "compression/movement_sparsity/importance_threshold": -0.6861468410704624,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17610417306423187,
+      "epoch": 3.57,
+      "learning_rate": 7.06355793245134e-07,
+      "loss": 0.164,
+      "step": 9880,
+      "task_loss": 0.4238791763782501
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014712469955178206,
+      "compression/movement_sparsity/importance_threshold": -0.6849904790178946,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.191780686378479,
+      "epoch": 3.57,
+      "learning_rate": 7.045474447041106e-07,
+      "loss": 0.1914,
+      "step": 9890,
+      "task_loss": 0.7447193264961243
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014797267076381265,
+      "compression/movement_sparsity/importance_threshold": -0.6838354169056681,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18503516912460327,
+      "epoch": 3.58,
+      "learning_rate": 7.027401541165079e-07,
+      "loss": 0.1899,
+      "step": 9900,
+      "task_loss": 0.3769063651561737
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014881968818120567,
+      "compression/movement_sparsity/importance_threshold": -0.6826816540026991,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16122739017009735,
+      "epoch": 3.58,
+      "learning_rate": 7.009339279538536e-07,
+      "loss": 0.1648,
+      "step": 9910,
+      "task_loss": 0.8050833344459534
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.014966575234067515,
+      "compression/movement_sparsity/importance_threshold": -0.6815291895779036,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17400379478931427,
+      "epoch": 3.59,
+      "learning_rate": 6.991287726838628e-07,
+      "loss": 0.192,
+      "step": 9920,
+      "task_loss": 0.508493959903717
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015051086377893522,
+      "compression/movement_sparsity/importance_threshold": -0.6803780229001979,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15540730953216553,
+      "epoch": 3.59,
+      "learning_rate": 6.973246947704171e-07,
+      "loss": 0.1824,
+      "step": 9930,
+      "task_loss": 0.4139855206012726
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015135502303269998,
+      "compression/movement_sparsity/importance_threshold": -0.6792281532384978,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15979820489883423,
+      "epoch": 3.59,
+      "learning_rate": 6.955217006735398e-07,
+      "loss": 0.1839,
+      "step": 9940,
+      "task_loss": 0.5479603409767151
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015219823063868352,
+      "compression/movement_sparsity/importance_threshold": -0.6780795798617196,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21421319246292114,
+      "epoch": 3.6,
+      "learning_rate": 6.937197968493731e-07,
+      "loss": 0.1756,
+      "step": 9950,
+      "task_loss": 0.8114826083183289
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01530404871336,
+      "compression/movement_sparsity/importance_threshold": -0.6769323020387791,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18751713633537292,
+      "epoch": 3.6,
+      "learning_rate": 6.919189897501558e-07,
+      "loss": 0.182,
+      "step": 9960,
+      "task_loss": 0.3587406575679779
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015388179305416349,
+      "compression/movement_sparsity/importance_threshold": -0.6757863190385925,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18434390425682068,
+      "epoch": 3.6,
+      "learning_rate": 6.901192858241987e-07,
+      "loss": 0.1779,
+      "step": 9970,
+      "task_loss": 0.2552274465560913
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01547221489370881,
+      "compression/movement_sparsity/importance_threshold": -0.6746416301300759,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14075002074241638,
+      "epoch": 3.61,
+      "learning_rate": 6.883206915158626e-07,
+      "loss": 0.1716,
+      "step": 9980,
+      "task_loss": 0.3761569857597351
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015556155531908776,
+      "compression/movement_sparsity/importance_threshold": -0.6734982345821456,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19011226296424866,
+      "epoch": 3.61,
+      "learning_rate": 6.865232132655361e-07,
+      "loss": 0.1753,
+      "step": 9990,
+      "task_loss": 0.5310980081558228
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015640001273687695,
+      "compression/movement_sparsity/importance_threshold": -0.6723561316637171,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1842782199382782,
+      "epoch": 3.61,
+      "learning_rate": 6.847268575096094e-07,
+      "loss": 0.1791,
+      "step": 10000,
+      "task_loss": 0.4414299428462982
+    },
+    {
+      "epoch": 3.61,
+      "eval_exact_match": 83.61400189214758,
+      "eval_f1": 90.00351389360986,
+      "step": 10000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015723752172716956,
+      "compression/movement_sparsity/importance_threshold": -0.6712153206437068,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17395688593387604,
+      "epoch": 3.62,
+      "learning_rate": 6.829316306804554e-07,
+      "loss": 0.1791,
+      "step": 10010,
+      "task_loss": 0.4833320379257202
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.015807408282667967,
+      "compression/movement_sparsity/importance_threshold": -0.6700758007910308,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13925310969352722,
+      "epoch": 3.62,
+      "learning_rate": 6.811375392064027e-07,
+      "loss": 0.1643,
+      "step": 10020,
+      "task_loss": 0.34654271602630615
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01589096965721215,
+      "compression/movement_sparsity/importance_threshold": -0.6689375713746049,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1650667041540146,
+      "epoch": 3.62,
+      "learning_rate": 6.793445895117156e-07,
+      "loss": 0.1744,
+      "step": 10030,
+      "task_loss": 0.395840048789978
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0159744363500209,
+      "compression/movement_sparsity/importance_threshold": -0.6678006316633456,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16980409622192383,
+      "epoch": 3.63,
+      "learning_rate": 6.775527880165703e-07,
+      "loss": 0.1817,
+      "step": 10040,
+      "task_loss": 0.44540518522262573
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016057808414765642,
+      "compression/movement_sparsity/importance_threshold": -0.6666649809261685,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.181473508477211,
+      "epoch": 3.63,
+      "learning_rate": 6.7576214113703e-07,
+      "loss": 0.1781,
+      "step": 10050,
+      "task_loss": 0.4364219307899475
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016141085905117782,
+      "compression/movement_sparsity/importance_threshold": -0.66553061843199,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1557856649160385,
+      "epoch": 3.64,
+      "learning_rate": 6.739726552850247e-07,
+      "loss": 0.1582,
+      "step": 10060,
+      "task_loss": 0.31843990087509155
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016224268874748718,
+      "compression/movement_sparsity/importance_threshold": -0.6643975434497262,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1424463987350464,
+      "epoch": 3.64,
+      "learning_rate": 6.721843368683263e-07,
+      "loss": 0.1705,
+      "step": 10070,
+      "task_loss": 0.5333583354949951
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016307357377329884,
+      "compression/movement_sparsity/importance_threshold": -0.663265755248293,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17959821224212646,
+      "epoch": 3.64,
+      "learning_rate": 6.703971922905274e-07,
+      "loss": 0.182,
+      "step": 10080,
+      "task_loss": 0.6014090776443481
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016390351466532678,
+      "compression/movement_sparsity/importance_threshold": -0.6621352530966064,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1679791957139969,
+      "epoch": 3.65,
+      "learning_rate": 6.686112279510157e-07,
+      "loss": 0.1826,
+      "step": 10090,
+      "task_loss": 0.3521926999092102
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016473251196028507,
+      "compression/movement_sparsity/importance_threshold": -0.6610060362635826,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14580708742141724,
+      "epoch": 3.65,
+      "learning_rate": 6.668264502449541e-07,
+      "loss": 0.1765,
+      "step": 10100,
+      "task_loss": 0.39751163125038147
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016556056619488783,
+      "compression/movement_sparsity/importance_threshold": -0.6598781040181376,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13637031614780426,
+      "epoch": 3.65,
+      "learning_rate": 6.650428655632563e-07,
+      "loss": 0.1668,
+      "step": 10110,
+      "task_loss": 0.51078200340271
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01663876779058492,
+      "compression/movement_sparsity/importance_threshold": -0.6587514556291877,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15260596573352814,
+      "epoch": 3.66,
+      "learning_rate": 6.63260480292563e-07,
+      "loss": 0.1765,
+      "step": 10120,
+      "task_loss": 0.2957655191421509
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016721384762988314,
+      "compression/movement_sparsity/importance_threshold": -0.6576260903656488,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1376221477985382,
+      "epoch": 3.66,
+      "learning_rate": 6.614793008152212e-07,
+      "loss": 0.1603,
+      "step": 10130,
+      "task_loss": 0.33394917845726013
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016803907590370405,
+      "compression/movement_sparsity/importance_threshold": -0.6565020074964367,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16349947452545166,
+      "epoch": 3.66,
+      "learning_rate": 6.596993335092593e-07,
+      "loss": 0.1774,
+      "step": 10140,
+      "task_loss": 0.5207610726356506
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016886336326402594,
+      "compression/movement_sparsity/importance_threshold": -0.6553792062904678,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15152761340141296,
+      "epoch": 3.67,
+      "learning_rate": 6.57920584748366e-07,
+      "loss": 0.1672,
+      "step": 10150,
+      "task_loss": 0.5067110657691956
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.016968671024756275,
+      "compression/movement_sparsity/importance_threshold": -0.6542576860166581,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15529385209083557,
+      "epoch": 3.67,
+      "learning_rate": 6.561430609018667e-07,
+      "loss": 0.1685,
+      "step": 10160,
+      "task_loss": 0.34697654843330383
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017050911739102878,
+      "compression/movement_sparsity/importance_threshold": -0.6531374459439235,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19189101457595825,
+      "epoch": 3.68,
+      "learning_rate": 6.543667683346991e-07,
+      "loss": 0.1928,
+      "step": 10170,
+      "task_loss": 0.45649850368499756
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0171330585231138,
+      "compression/movement_sparsity/importance_threshold": -0.6520184853411803,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16808871924877167,
+      "epoch": 3.68,
+      "learning_rate": 6.52591713407394e-07,
+      "loss": 0.1602,
+      "step": 10180,
+      "task_loss": 0.37760788202285767
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017215111430460457,
+      "compression/movement_sparsity/importance_threshold": -0.6509008034773445,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1413610577583313,
+      "epoch": 3.68,
+      "learning_rate": 6.508179024760487e-07,
+      "loss": 0.1723,
+      "step": 10190,
+      "task_loss": 0.2622392773628235
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01729707051481426,
+      "compression/movement_sparsity/importance_threshold": -0.649784399621332,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1771795153617859,
+      "epoch": 3.69,
+      "learning_rate": 6.49045341892308e-07,
+      "loss": 0.1769,
+      "step": 10200,
+      "task_loss": 0.6021856069564819
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017378935829846617,
+      "compression/movement_sparsity/importance_threshold": -0.6486692730420591,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1472265124320984,
+      "epoch": 3.69,
+      "learning_rate": 6.47274038003337e-07,
+      "loss": 0.1614,
+      "step": 10210,
+      "task_loss": 0.36952024698257446
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017460707429228936,
+      "compression/movement_sparsity/importance_threshold": -0.6475554230084418,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12765908241271973,
+      "epoch": 3.69,
+      "learning_rate": 6.455039971518029e-07,
+      "loss": 0.1698,
+      "step": 10220,
+      "task_loss": 0.42384105920791626
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017542385366632635,
+      "compression/movement_sparsity/importance_threshold": -0.6464428487893962,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17819051444530487,
+      "epoch": 3.7,
+      "learning_rate": 6.437352256758495e-07,
+      "loss": 0.1721,
+      "step": 10230,
+      "task_loss": 0.4150475859642029
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017623969695729123,
+      "compression/movement_sparsity/importance_threshold": -0.6453315496538382,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1502448171377182,
+      "epoch": 3.7,
+      "learning_rate": 6.419677299090748e-07,
+      "loss": 0.1764,
+      "step": 10240,
+      "task_loss": 0.268942266702652
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017705460470189813,
+      "compression/movement_sparsity/importance_threshold": -0.644221524870684,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22100843489170074,
+      "epoch": 3.7,
+      "learning_rate": 6.402015161805097e-07,
+      "loss": 0.1917,
+      "step": 10250,
+      "task_loss": 0.2643333077430725
+    },
+    {
+      "epoch": 3.7,
+      "eval_exact_match": 83.61400189214758,
+      "eval_f1": 89.94770097613869,
+      "step": 10250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01778685774368611,
+      "compression/movement_sparsity/importance_threshold": -0.6431127737088496,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1667742282152176,
+      "epoch": 3.71,
+      "learning_rate": 6.384365908145933e-07,
+      "loss": 0.1676,
+      "step": 10260,
+      "task_loss": 0.3106589913368225
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017868161569889417,
+      "compression/movement_sparsity/importance_threshold": -0.6420052954372512,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15289315581321716,
+      "epoch": 3.71,
+      "learning_rate": 6.366729601311521e-07,
+      "loss": 0.1596,
+      "step": 10270,
+      "task_loss": 0.24741002917289734
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.017949372002471143,
+      "compression/movement_sparsity/importance_threshold": -0.6408990893248049,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17078140377998352,
+      "epoch": 3.72,
+      "learning_rate": 6.349106304453769e-07,
+      "loss": 0.1687,
+      "step": 10280,
+      "task_loss": 0.1850242167711258
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018030489095102725,
+      "compression/movement_sparsity/importance_threshold": -0.6397941546404264,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15359310805797577,
+      "epoch": 3.72,
+      "learning_rate": 6.331496080677985e-07,
+      "loss": 0.1632,
+      "step": 10290,
+      "task_loss": 0.2576896548271179
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01811151290145556,
+      "compression/movement_sparsity/importance_threshold": -0.6386904906530321,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1645045280456543,
+      "epoch": 3.72,
+      "learning_rate": 6.313898993042681e-07,
+      "loss": 0.177,
+      "step": 10300,
+      "task_loss": 0.43283289670944214
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018192443475201055,
+      "compression/movement_sparsity/importance_threshold": -0.6375880966315379,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1887405514717102,
+      "epoch": 3.73,
+      "learning_rate": 6.29631510455932e-07,
+      "loss": 0.1839,
+      "step": 10310,
+      "task_loss": 0.36919164657592773
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018273280870010622,
+      "compression/movement_sparsity/importance_threshold": -0.63648697184486,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17336630821228027,
+      "epoch": 3.73,
+      "learning_rate": 6.278744478192113e-07,
+      "loss": 0.172,
+      "step": 10320,
+      "task_loss": 0.5593419075012207
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018354025139555672,
+      "compression/movement_sparsity/importance_threshold": -0.6353871155619144,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18160130083560944,
+      "epoch": 3.73,
+      "learning_rate": 6.261187176857765e-07,
+      "loss": 0.17,
+      "step": 10330,
+      "task_loss": 0.3647115230560303
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018434676337507616,
+      "compression/movement_sparsity/importance_threshold": -0.6342885270516171,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1591804027557373,
+      "epoch": 3.74,
+      "learning_rate": 6.243643263425285e-07,
+      "loss": 0.1672,
+      "step": 10340,
+      "task_loss": 0.6932095289230347
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018515234517537865,
+      "compression/movement_sparsity/importance_threshold": -0.6331912055828843,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17311957478523254,
+      "epoch": 3.74,
+      "learning_rate": 6.226112800715733e-07,
+      "loss": 0.1676,
+      "step": 10350,
+      "task_loss": 0.2462514042854309
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018595699733317827,
+      "compression/movement_sparsity/importance_threshold": -0.632095150424632,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14102676510810852,
+      "epoch": 3.74,
+      "learning_rate": 6.208595851502003e-07,
+      "loss": 0.1857,
+      "step": 10360,
+      "task_loss": 0.4470866024494171
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01867607203851891,
+      "compression/movement_sparsity/importance_threshold": -0.6310003608457764,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15304112434387207,
+      "epoch": 3.75,
+      "learning_rate": 6.191092478508611e-07,
+      "loss": 0.1751,
+      "step": 10370,
+      "task_loss": 0.49549001455307007
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018756351486812525,
+      "compression/movement_sparsity/importance_threshold": -0.6299068361152333,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17790237069129944,
+      "epoch": 3.75,
+      "learning_rate": 6.173602744411445e-07,
+      "loss": 0.1745,
+      "step": 10380,
+      "task_loss": 0.38540562987327576
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018836538131870098,
+      "compression/movement_sparsity/importance_threshold": -0.628814575501919,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18003492057323456,
+      "epoch": 3.75,
+      "learning_rate": 6.156126711837563e-07,
+      "loss": 0.1702,
+      "step": 10390,
+      "task_loss": 0.5601201057434082
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018916632027363017,
+      "compression/movement_sparsity/importance_threshold": -0.6277235782747494,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19177278876304626,
+      "epoch": 3.76,
+      "learning_rate": 6.138664443364964e-07,
+      "loss": 0.1847,
+      "step": 10400,
+      "task_loss": 0.6107884049415588
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.018996633226962715,
+      "compression/movement_sparsity/importance_threshold": -0.6266338437026406,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15945954620838165,
+      "epoch": 3.76,
+      "learning_rate": 6.121216001522353e-07,
+      "loss": 0.1776,
+      "step": 10410,
+      "task_loss": 0.47822341322898865
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.019076541784340567,
+      "compression/movement_sparsity/importance_threshold": -0.625545371054509,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17401601374149323,
+      "epoch": 3.77,
+      "learning_rate": 6.103781448788929e-07,
+      "loss": 0.1751,
+      "step": 10420,
+      "task_loss": 0.3851965665817261
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.019156357753168023,
+      "compression/movement_sparsity/importance_threshold": -0.6244581595992702,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1592417061328888,
+      "epoch": 3.77,
+      "learning_rate": 6.086360847594153e-07,
+      "loss": 0.1729,
+      "step": 10430,
+      "task_loss": 0.5951048135757446
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01923608118711648,
+      "compression/movement_sparsity/importance_threshold": -0.6233722086058404,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17043137550354004,
+      "epoch": 3.77,
+      "learning_rate": 6.068954260317535e-07,
+      "loss": 0.1583,
+      "step": 10440,
+      "task_loss": 0.355490505695343
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01931571213985735,
+      "compression/movement_sparsity/importance_threshold": -0.6222875173431357,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1629900336265564,
+      "epoch": 3.78,
+      "learning_rate": 6.051561749288404e-07,
+      "loss": 0.1891,
+      "step": 10450,
+      "task_loss": 0.36418741941452026
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.019395250665062033,
+      "compression/movement_sparsity/importance_threshold": -0.6212040850800722,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1411941647529602,
+      "epoch": 3.78,
+      "learning_rate": 6.034183376785675e-07,
+      "loss": 0.1646,
+      "step": 10460,
+      "task_loss": 0.45510485768318176
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.019474696816401953,
+      "compression/movement_sparsity/importance_threshold": -0.620121911085566,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15264548361301422,
+      "epoch": 3.78,
+      "learning_rate": 6.016819205037645e-07,
+      "loss": 0.1679,
+      "step": 10470,
+      "task_loss": 0.4522840976715088
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.019554050647548515,
+      "compression/movement_sparsity/importance_threshold": -0.6190409946285329,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16963550448417664,
+      "epoch": 3.79,
+      "learning_rate": 5.999469296221759e-07,
+      "loss": 0.1836,
+      "step": 10480,
+      "task_loss": 0.4056473970413208
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.019633312212173126,
+      "compression/movement_sparsity/importance_threshold": -0.6179613349778894,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15899108350276947,
+      "epoch": 3.79,
+      "learning_rate": 5.982133712464392e-07,
+      "loss": 0.1595,
+      "step": 10490,
+      "task_loss": 0.291488379240036
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0197124815639472,
+      "compression/movement_sparsity/importance_threshold": -0.6168829314025512,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15133503079414368,
+      "epoch": 3.79,
+      "learning_rate": 5.964812515840616e-07,
+      "loss": 0.1754,
+      "step": 10500,
+      "task_loss": 0.2718963325023651
+    },
+    {
+      "epoch": 3.79,
+      "eval_exact_match": 83.65184484389782,
+      "eval_f1": 90.02195293125705,
+      "step": 10500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01979155875654215,
+      "compression/movement_sparsity/importance_threshold": -0.6158057831714346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16352495551109314,
+      "epoch": 3.8,
+      "learning_rate": 5.947505768373991e-07,
+      "loss": 0.1724,
+      "step": 10510,
+      "task_loss": 0.27979862689971924
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.01987054384362938,
+      "compression/movement_sparsity/importance_threshold": -0.6147298895534556,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15177211165428162,
+      "epoch": 3.8,
+      "learning_rate": 5.930213532036344e-07,
+      "loss": 0.1713,
+      "step": 10520,
+      "task_loss": 0.4249712824821472
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0199494368788803,
+      "compression/movement_sparsity/importance_threshold": -0.6136552498175303,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1794542670249939,
+      "epoch": 3.81,
+      "learning_rate": 5.912935868747525e-07,
+      "loss": 0.1846,
+      "step": 10530,
+      "task_loss": 0.4833950400352478
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02002823791596634,
+      "compression/movement_sparsity/importance_threshold": -0.6125818632325746,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15238790214061737,
+      "epoch": 3.81,
+      "learning_rate": 5.895672840375216e-07,
+      "loss": 0.1683,
+      "step": 10540,
+      "task_loss": 0.34725263714790344
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02010694700855888,
+      "compression/movement_sparsity/importance_threshold": -0.6115097290675047,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19352784752845764,
+      "epoch": 3.81,
+      "learning_rate": 5.878424508734687e-07,
+      "loss": 0.1865,
+      "step": 10550,
+      "task_loss": 0.4109495282173157
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02018556421032935,
+      "compression/movement_sparsity/importance_threshold": -0.6104388465912367,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1467682123184204,
+      "epoch": 3.82,
+      "learning_rate": 5.861190935588583e-07,
+      "loss": 0.1751,
+      "step": 10560,
+      "task_loss": 0.39710533618927
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.020264089574949143,
+      "compression/movement_sparsity/importance_threshold": -0.6093692150726868,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17885571718215942,
+      "epoch": 3.82,
+      "learning_rate": 5.843972182646706e-07,
+      "loss": 0.1743,
+      "step": 10570,
+      "task_loss": 0.4837023913860321
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0203425231560897,
+      "compression/movement_sparsity/importance_threshold": -0.6083008337807706,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1784561276435852,
+      "epoch": 3.82,
+      "learning_rate": 5.826768311565777e-07,
+      "loss": 0.1766,
+      "step": 10580,
+      "task_loss": 0.4210522174835205
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02042086500742242,
+      "compression/movement_sparsity/importance_threshold": -0.6072337019844045,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14249750971794128,
+      "epoch": 3.83,
+      "learning_rate": 5.809579383949251e-07,
+      "loss": 0.1779,
+      "step": 10590,
+      "task_loss": 0.330593079328537
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0204991151826187,
+      "compression/movement_sparsity/importance_threshold": -0.6061678189525045,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17461369931697845,
+      "epoch": 3.83,
+      "learning_rate": 5.792405461347049e-07,
+      "loss": 0.1777,
+      "step": 10600,
+      "task_loss": 0.40263602137565613
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02057727373534996,
+      "compression/movement_sparsity/importance_threshold": -0.6051031839539867,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18333062529563904,
+      "epoch": 3.83,
+      "learning_rate": 5.775246605255384e-07,
+      "loss": 0.181,
+      "step": 10610,
+      "task_loss": 0.541496992111206
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.020655340719287613,
+      "compression/movement_sparsity/importance_threshold": -0.6040397962577672,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18711034953594208,
+      "epoch": 3.84,
+      "learning_rate": 5.758102877116498e-07,
+      "loss": 0.1763,
+      "step": 10620,
+      "task_loss": 0.3023425340652466
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.020733316188103066,
+      "compression/movement_sparsity/importance_threshold": -0.6029776551327619,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16456711292266846,
+      "epoch": 3.84,
+      "learning_rate": 5.740974338318476e-07,
+      "loss": 0.1626,
+      "step": 10630,
+      "task_loss": 0.5074876546859741
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.020811200195467734,
+      "compression/movement_sparsity/importance_threshold": -0.601916759847887,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14603650569915771,
+      "epoch": 3.85,
+      "learning_rate": 5.723861050195018e-07,
+      "loss": 0.1859,
+      "step": 10640,
+      "task_loss": 0.5426656007766724
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02088899279505301,
+      "compression/movement_sparsity/importance_threshold": -0.6008571096720587,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19825714826583862,
+      "epoch": 3.85,
+      "learning_rate": 5.706763074025198e-07,
+      "loss": 0.1859,
+      "step": 10650,
+      "task_loss": 0.45735934376716614
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02096669404053033,
+      "compression/movement_sparsity/importance_threshold": -0.5997987038741928,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12421312928199768,
+      "epoch": 3.85,
+      "learning_rate": 5.689680471033278e-07,
+      "loss": 0.1666,
+      "step": 10660,
+      "task_loss": 0.292208194732666
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021044303985571094,
+      "compression/movement_sparsity/importance_threshold": -0.5987415417232054,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1720031499862671,
+      "epoch": 3.86,
+      "learning_rate": 5.672613302388456e-07,
+      "loss": 0.1797,
+      "step": 10670,
+      "task_loss": 0.4465997815132141
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021121822683846707,
+      "compression/movement_sparsity/importance_threshold": -0.5976856224880127,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13473817706108093,
+      "epoch": 3.86,
+      "learning_rate": 5.655561629204675e-07,
+      "loss": 0.1779,
+      "step": 10680,
+      "task_loss": 0.5434313416481018
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021199250189028584,
+      "compression/movement_sparsity/importance_threshold": -0.5966309454375308,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1842292696237564,
+      "epoch": 3.86,
+      "learning_rate": 5.638525512540389e-07,
+      "loss": 0.1743,
+      "step": 10690,
+      "task_loss": 0.846764326095581
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021276586554788132,
+      "compression/movement_sparsity/importance_threshold": -0.5955775098406757,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12809939682483673,
+      "epoch": 3.87,
+      "learning_rate": 5.621505013398344e-07,
+      "loss": 0.1692,
+      "step": 10700,
+      "task_loss": 0.359587699174881
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021353831834796756,
+      "compression/movement_sparsity/importance_threshold": -0.5945253149663636,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17134542763233185,
+      "epoch": 3.87,
+      "learning_rate": 5.604500192725374e-07,
+      "loss": 0.184,
+      "step": 10710,
+      "task_loss": 0.6001778841018677
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021430986082725884,
+      "compression/movement_sparsity/importance_threshold": -0.5934743600835102,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1271722912788391,
+      "epoch": 3.87,
+      "learning_rate": 5.587511111412151e-07,
+      "loss": 0.1631,
+      "step": 10720,
+      "task_loss": 0.2941231429576874
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021508049352246924,
+      "compression/movement_sparsity/importance_threshold": -0.5924246444610318,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14123263955116272,
+      "epoch": 3.88,
+      "learning_rate": 5.570537830293006e-07,
+      "loss": 0.1617,
+      "step": 10730,
+      "task_loss": 0.2916907072067261
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02158502169703128,
+      "compression/movement_sparsity/importance_threshold": -0.5913761673678445,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13426288962364197,
+      "epoch": 3.88,
+      "learning_rate": 5.553580410145688e-07,
+      "loss": 0.1659,
+      "step": 10740,
+      "task_loss": 0.5448470115661621
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02166190317075037,
+      "compression/movement_sparsity/importance_threshold": -0.5903289280728642,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13951101899147034,
+      "epoch": 3.89,
+      "learning_rate": 5.536638911691143e-07,
+      "loss": 0.1793,
+      "step": 10750,
+      "task_loss": 0.40928834676742554
+    },
+    {
+      "epoch": 3.89,
+      "eval_exact_match": 83.57615894039735,
+      "eval_f1": 89.997904877457,
+      "step": 10750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02173869382707558,
+      "compression/movement_sparsity/importance_threshold": -0.5892829258450072,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1252758651971817,
+      "epoch": 3.89,
+      "learning_rate": 5.519713395593321e-07,
+      "loss": 0.172,
+      "step": 10760,
+      "task_loss": 0.2951388359069824
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021815393719678354,
+      "compression/movement_sparsity/importance_threshold": -0.5882381599531894,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2374802976846695,
+      "epoch": 3.89,
+      "learning_rate": 5.502803922458924e-07,
+      "loss": 0.1794,
+      "step": 10770,
+      "task_loss": 0.4524235725402832
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021892002902230083,
+      "compression/movement_sparsity/importance_threshold": -0.5871946296663269,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19318094849586487,
+      "epoch": 3.9,
+      "learning_rate": 5.485910552837225e-07,
+      "loss": 0.176,
+      "step": 10780,
+      "task_loss": 0.4039768576622009
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.021968521428402183,
+      "compression/movement_sparsity/importance_threshold": -0.5861523342533359,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13738399744033813,
+      "epoch": 3.9,
+      "learning_rate": 5.469033347219816e-07,
+      "loss": 0.1636,
+      "step": 10790,
+      "task_loss": 0.5032458901405334
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02204494935186606,
+      "compression/movement_sparsity/importance_threshold": -0.5851112729831323,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17375808954238892,
+      "epoch": 3.9,
+      "learning_rate": 5.452172366040423e-07,
+      "loss": 0.1675,
+      "step": 10800,
+      "task_loss": 0.6967633962631226
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022121286726293127,
+      "compression/movement_sparsity/importance_threshold": -0.5840714451246322,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17048680782318115,
+      "epoch": 3.91,
+      "learning_rate": 5.435327669674672e-07,
+      "loss": 0.1687,
+      "step": 10810,
+      "task_loss": 0.30930009484291077
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022197533605354803,
+      "compression/movement_sparsity/importance_threshold": -0.5830328499467516,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1512829065322876,
+      "epoch": 3.91,
+      "learning_rate": 5.418499318439875e-07,
+      "loss": 0.1747,
+      "step": 10820,
+      "task_loss": 0.35338839888572693
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022273690042722484,
+      "compression/movement_sparsity/importance_threshold": -0.5819954867184067,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.186394602060318,
+      "epoch": 3.91,
+      "learning_rate": 5.401687372594819e-07,
+      "loss": 0.1737,
+      "step": 10830,
+      "task_loss": 0.25927868485450745
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022349756092067595,
+      "compression/movement_sparsity/importance_threshold": -0.5809593547085136,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20156210660934448,
+      "epoch": 3.92,
+      "learning_rate": 5.384891892339539e-07,
+      "loss": 0.1807,
+      "step": 10840,
+      "task_loss": 0.5239515900611877
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022425731807061536,
+      "compression/movement_sparsity/importance_threshold": -0.5799244531859882,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15591740608215332,
+      "epoch": 3.92,
+      "learning_rate": 5.368112937815114e-07,
+      "loss": 0.1818,
+      "step": 10850,
+      "task_loss": 0.2408059537410736
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022501617241375716,
+      "compression/movement_sparsity/importance_threshold": -0.5788907814197467,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.147825688123703,
+      "epoch": 3.92,
+      "learning_rate": 5.351350569103459e-07,
+      "loss": 0.1575,
+      "step": 10860,
+      "task_loss": 0.3448067009449005
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022577412448681538,
+      "compression/movement_sparsity/importance_threshold": -0.5778583386787053,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21096472442150116,
+      "epoch": 3.93,
+      "learning_rate": 5.334604846227077e-07,
+      "loss": 0.1845,
+      "step": 10870,
+      "task_loss": 0.7965984344482422
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022653117482650437,
+      "compression/movement_sparsity/importance_threshold": -0.5768271242317797,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18514427542686462,
+      "epoch": 3.93,
+      "learning_rate": 5.317875829148885e-07,
+      "loss": 0.1687,
+      "step": 10880,
+      "task_loss": 0.43882808089256287
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02272873239695382,
+      "compression/movement_sparsity/importance_threshold": -0.5757971373478863,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1756231188774109,
+      "epoch": 3.94,
+      "learning_rate": 5.301163577771966e-07,
+      "loss": 0.1893,
+      "step": 10890,
+      "task_loss": 0.36089468002319336
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02280425724526309,
+      "compression/movement_sparsity/importance_threshold": -0.5747683772959408,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13075178861618042,
+      "epoch": 3.94,
+      "learning_rate": 5.284468151939383e-07,
+      "loss": 0.178,
+      "step": 10900,
+      "task_loss": 0.5520082712173462
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022879692081249646,
+      "compression/movement_sparsity/importance_threshold": -0.5737408433448596,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15874437987804413,
+      "epoch": 3.94,
+      "learning_rate": 5.267789611433934e-07,
+      "loss": 0.1804,
+      "step": 10910,
+      "task_loss": 0.3404083847999573
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.022955036958584914,
+      "compression/movement_sparsity/importance_threshold": -0.5727145347635587,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12918061017990112,
+      "epoch": 3.95,
+      "learning_rate": 5.251128015977966e-07,
+      "loss": 0.1761,
+      "step": 10920,
+      "task_loss": 0.1778661012649536
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02303029193094031,
+      "compression/movement_sparsity/importance_threshold": -0.5716894508209539,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17667776346206665,
+      "epoch": 3.95,
+      "learning_rate": 5.234483425233145e-07,
+      "loss": 0.1753,
+      "step": 10930,
+      "task_loss": 0.5118983387947083
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023105457051987223,
+      "compression/movement_sparsity/importance_threshold": -0.5706655907859617,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18898850679397583,
+      "epoch": 3.95,
+      "learning_rate": 5.217855898800249e-07,
+      "loss": 0.1735,
+      "step": 10940,
+      "task_loss": 0.4475729465484619
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023180532375397078,
+      "compression/movement_sparsity/importance_threshold": -0.5696429539274979,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1563543677330017,
+      "epoch": 3.96,
+      "learning_rate": 5.201245496218955e-07,
+      "loss": 0.1829,
+      "step": 10950,
+      "task_loss": 0.5748417377471924
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023255517954841286,
+      "compression/movement_sparsity/importance_threshold": -0.5686215395144786,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1615605354309082,
+      "epoch": 3.96,
+      "learning_rate": 5.18465227696761e-07,
+      "loss": 0.18,
+      "step": 10960,
+      "task_loss": 0.3879707455635071
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02333041384399125,
+      "compression/movement_sparsity/importance_threshold": -0.56760134681582,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16784200072288513,
+      "epoch": 3.96,
+      "learning_rate": 5.168076300463044e-07,
+      "loss": 0.1823,
+      "step": 10970,
+      "task_loss": 0.72287917137146
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02340522009651837,
+      "compression/movement_sparsity/importance_threshold": -0.5665823751004382,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17279008030891418,
+      "epoch": 3.97,
+      "learning_rate": 5.151517626060346e-07,
+      "loss": 0.1768,
+      "step": 10980,
+      "task_loss": 0.4392220973968506
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023479936766094087,
+      "compression/movement_sparsity/importance_threshold": -0.5655646236372489,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16514915227890015,
+      "epoch": 3.97,
+      "learning_rate": 5.134976313052633e-07,
+      "loss": 0.1753,
+      "step": 10990,
+      "task_loss": 0.7647157907485962
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023554563906389804,
+      "compression/movement_sparsity/importance_threshold": -0.5645480916951683,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15675148367881775,
+      "epoch": 3.98,
+      "learning_rate": 5.118452420670876e-07,
+      "loss": 0.1832,
+      "step": 11000,
+      "task_loss": 0.43583187460899353
+    },
+    {
+      "epoch": 3.98,
+      "eval_exact_match": 83.6329233680227,
+      "eval_f1": 90.05063824812734,
+      "step": 11000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023629101571076915,
+      "compression/movement_sparsity/importance_threshold": -0.5635327785431127,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14564642310142517,
+      "epoch": 3.98,
+      "learning_rate": 5.101946008083647e-07,
+      "loss": 0.1726,
+      "step": 11010,
+      "task_loss": 0.4629361033439636
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023703549813826847,
+      "compression/movement_sparsity/importance_threshold": -0.5625186834499979,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13881969451904297,
+      "epoch": 3.98,
+      "learning_rate": 5.085457134396945e-07,
+      "loss": 0.1657,
+      "step": 11020,
+      "task_loss": 0.4461815357208252
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.023777908688310995,
+      "compression/movement_sparsity/importance_threshold": -0.5615058056847402,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16499027609825134,
+      "epoch": 3.99,
+      "learning_rate": 5.068985858653947e-07,
+      "loss": 0.1757,
+      "step": 11030,
+      "task_loss": 0.237386554479599
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02385217824820078,
+      "compression/movement_sparsity/importance_threshold": -0.5604941445162555,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14505073428153992,
+      "epoch": 3.99,
+      "learning_rate": 5.052532239834831e-07,
+      "loss": 0.1756,
+      "step": 11040,
+      "task_loss": 0.3913651406764984
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02392635854716761,
+      "compression/movement_sparsity/importance_threshold": -0.55948369921346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16279101371765137,
+      "epoch": 3.99,
+      "learning_rate": 5.036096336856539e-07,
+      "loss": 0.1736,
+      "step": 11050,
+      "task_loss": 0.2173888087272644
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0240004496388829,
+      "compression/movement_sparsity/importance_threshold": -0.5584744690452697,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19913247227668762,
+      "epoch": 4.0,
+      "learning_rate": 5.019678208572585e-07,
+      "loss": 0.1781,
+      "step": 11060,
+      "task_loss": 0.4576454758644104
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024074451577018048,
+      "compression/movement_sparsity/importance_threshold": -0.5574664532806006,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1983916163444519,
+      "epoch": 4.0,
+      "learning_rate": 5.003277913772834e-07,
+      "loss": 0.1729,
+      "step": 11070,
+      "task_loss": 0.3344120383262634
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024148364415244483,
+      "compression/movement_sparsity/importance_threshold": -0.5564596511883687,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13938963413238525,
+      "epoch": 4.0,
+      "learning_rate": 4.986895511183282e-07,
+      "loss": 0.1749,
+      "step": 11080,
+      "task_loss": 0.34267091751098633
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024222188207233597,
+      "compression/movement_sparsity/importance_threshold": -0.5554540620374904,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15878230333328247,
+      "epoch": 4.01,
+      "learning_rate": 4.970531059465865e-07,
+      "loss": 0.1706,
+      "step": 11090,
+      "task_loss": 0.41367635130882263
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024295923006656818,
+      "compression/movement_sparsity/importance_threshold": -0.5544496850968814,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18763568997383118,
+      "epoch": 4.01,
+      "learning_rate": 4.954184617218251e-07,
+      "loss": 0.1847,
+      "step": 11100,
+      "task_loss": 0.38458868861198425
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024369568867185543,
+      "compression/movement_sparsity/importance_threshold": -0.5534465196354581,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1669691503047943,
+      "epoch": 4.02,
+      "learning_rate": 4.937856242973598e-07,
+      "loss": 0.1704,
+      "step": 11110,
+      "task_loss": 0.40393808484077454
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024443125842491187,
+      "compression/movement_sparsity/importance_threshold": -0.5524445649221362,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1612987220287323,
+      "epoch": 4.02,
+      "learning_rate": 4.921545995200387e-07,
+      "loss": 0.1749,
+      "step": 11120,
+      "task_loss": 0.3647257089614868
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024516593986245158,
+      "compression/movement_sparsity/importance_threshold": -0.5514438202258322,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1850115805864334,
+      "epoch": 4.02,
+      "learning_rate": 4.905253932302173e-07,
+      "loss": 0.1773,
+      "step": 11130,
+      "task_loss": 0.6843971014022827
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02458997335211887,
+      "compression/movement_sparsity/importance_threshold": -0.5504442848154618,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19363956153392792,
+      "epoch": 4.03,
+      "learning_rate": 4.88898011261741e-07,
+      "loss": 0.1652,
+      "step": 11140,
+      "task_loss": 0.40217435359954834
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024663263993783737,
+      "compression/movement_sparsity/importance_threshold": -0.5494459579599411,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1595451831817627,
+      "epoch": 4.03,
+      "learning_rate": 4.872724594419225e-07,
+      "loss": 0.1616,
+      "step": 11150,
+      "task_loss": 0.29367250204086304
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.024736465964911164,
+      "compression/movement_sparsity/importance_threshold": -0.5484488389281864,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16744457185268402,
+      "epoch": 4.03,
+      "learning_rate": 4.8564874359152e-07,
+      "loss": 0.1756,
+      "step": 11160,
+      "task_loss": 0.3866707682609558
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02480957931917255,
+      "compression/movement_sparsity/importance_threshold": -0.5474529269891137,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1353551745414734,
+      "epoch": 4.04,
+      "learning_rate": 4.840268695247185e-07,
+      "loss": 0.1662,
+      "step": 11170,
+      "task_loss": 0.4497717022895813
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02488260411023933,
+      "compression/movement_sparsity/importance_threshold": -0.5464582214116389,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16634535789489746,
+      "epoch": 4.04,
+      "learning_rate": 4.824068430491079e-07,
+      "loss": 0.1605,
+      "step": 11180,
+      "task_loss": 0.4282223582267761
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02495554039178291,
+      "compression/movement_sparsity/importance_threshold": -0.5454647214646782,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16130493581295013,
+      "epoch": 4.04,
+      "learning_rate": 4.807886699656621e-07,
+      "loss": 0.1793,
+      "step": 11190,
+      "task_loss": 0.6635265350341797
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.025028388217474686,
+      "compression/movement_sparsity/importance_threshold": -0.5444724264171475,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16918551921844482,
+      "epoch": 4.05,
+      "learning_rate": 4.791723560687181e-07,
+      "loss": 0.1759,
+      "step": 11200,
+      "task_loss": 0.30166515707969666
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02510114764098608,
+      "compression/movement_sparsity/importance_threshold": -0.5434813355379631,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14573919773101807,
+      "epoch": 4.05,
+      "learning_rate": 4.775579071459558e-07,
+      "loss": 0.1725,
+      "step": 11210,
+      "task_loss": 0.3856244385242462
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0251738187159885,
+      "compression/movement_sparsity/importance_threshold": -0.542491448096041,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14356495440006256,
+      "epoch": 4.05,
+      "learning_rate": 4.759453289783776e-07,
+      "loss": 0.1684,
+      "step": 11220,
+      "task_loss": 0.2242923080921173
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.025246401496153356,
+      "compression/movement_sparsity/importance_threshold": -0.5415027633602971,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18279266357421875,
+      "epoch": 4.06,
+      "learning_rate": 4.7433462734028563e-07,
+      "loss": 0.1697,
+      "step": 11230,
+      "task_loss": 0.33016282320022583
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.025318896035152062,
+      "compression/movement_sparsity/importance_threshold": -0.5405152805996476,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13953736424446106,
+      "epoch": 4.06,
+      "learning_rate": 4.727258079992643e-07,
+      "loss": 0.1646,
+      "step": 11240,
+      "task_loss": 0.4277157187461853
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02539130238665602,
+      "compression/movement_sparsity/importance_threshold": -0.5395289990830087,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1368265450000763,
+      "epoch": 4.07,
+      "learning_rate": 4.7111887671615635e-07,
+      "loss": 0.1765,
+      "step": 11250,
+      "task_loss": 0.3417168855667114
+    },
+    {
+      "epoch": 4.07,
+      "eval_exact_match": 83.65184484389782,
+      "eval_f1": 90.03112152658635,
+      "step": 11250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.025463620604336632,
+      "compression/movement_sparsity/importance_threshold": -0.5385439180792964,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13024994730949402,
+      "epoch": 4.07,
+      "learning_rate": 4.6951383924504486e-07,
+      "loss": 0.1765,
+      "step": 11260,
+      "task_loss": 0.21580921113491058
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02553585074186534,
+      "compression/movement_sparsity/importance_threshold": -0.5375600368574266,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15584993362426758,
+      "epoch": 4.07,
+      "learning_rate": 4.679107013332316e-07,
+      "loss": 0.1693,
+      "step": 11270,
+      "task_loss": 0.18834367394447327
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02560799285291353,
+      "compression/movement_sparsity/importance_threshold": -0.5365773546863154,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14209944009780884,
+      "epoch": 4.08,
+      "learning_rate": 4.6630946872121534e-07,
+      "loss": 0.1894,
+      "step": 11280,
+      "task_loss": 0.28304344415664673
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.025680046991152623,
+      "compression/movement_sparsity/importance_threshold": -0.5355958708348789,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1544867753982544,
+      "epoch": 4.08,
+      "learning_rate": 4.6471014714267353e-07,
+      "loss": 0.1669,
+      "step": 11290,
+      "task_loss": 0.34882280230522156
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.025752013210254023,
+      "compression/movement_sparsity/importance_threshold": -0.5346155845720333,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15384814143180847,
+      "epoch": 4.08,
+      "learning_rate": 4.6311274232443984e-07,
+      "loss": 0.1769,
+      "step": 11300,
+      "task_loss": 0.6888493299484253
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02582389156388915,
+      "compression/movement_sparsity/importance_threshold": -0.5336364951666945,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14584749937057495,
+      "epoch": 4.09,
+      "learning_rate": 4.615172599864855e-07,
+      "loss": 0.1893,
+      "step": 11310,
+      "task_loss": 0.42334309220314026
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0258956821057294,
+      "compression/movement_sparsity/importance_threshold": -0.5326586018877787,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17131412029266357,
+      "epoch": 4.09,
+      "learning_rate": 4.59923705841896e-07,
+      "loss": 0.1795,
+      "step": 11320,
+      "task_loss": 0.6292405128479004
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0259673848894462,
+      "compression/movement_sparsity/importance_threshold": -0.5316819040042018,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1550251841545105,
+      "epoch": 4.09,
+      "learning_rate": 4.5833208559685377e-07,
+      "loss": 0.179,
+      "step": 11330,
+      "task_loss": 0.7897596955299377
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026038999968710952,
+      "compression/movement_sparsity/importance_threshold": -0.5307064007848801,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1730719804763794,
+      "epoch": 4.1,
+      "learning_rate": 4.5674240495061643e-07,
+      "loss": 0.1749,
+      "step": 11340,
+      "task_loss": 0.46178561449050903
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02611052739719506,
+      "compression/movement_sparsity/importance_threshold": -0.5297320914987294,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19655971229076385,
+      "epoch": 4.1,
+      "learning_rate": 4.5515466959549486e-07,
+      "loss": 0.1767,
+      "step": 11350,
+      "task_loss": 0.7543710470199585
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026181967228569945,
+      "compression/movement_sparsity/importance_threshold": -0.528758975414666,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12220363318920135,
+      "epoch": 4.11,
+      "learning_rate": 4.5356888521683613e-07,
+      "loss": 0.1517,
+      "step": 11360,
+      "task_loss": 0.3255242705345154
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02625331951650702,
+      "compression/movement_sparsity/importance_threshold": -0.5277870518016057,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15358072519302368,
+      "epoch": 4.11,
+      "learning_rate": 4.519850574929996e-07,
+      "loss": 0.1836,
+      "step": 11370,
+      "task_loss": 0.28549590706825256
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02632458431467768,
+      "compression/movement_sparsity/importance_threshold": -0.5268163199284649,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16602346301078796,
+      "epoch": 4.11,
+      "learning_rate": 4.504031920953394e-07,
+      "loss": 0.1814,
+      "step": 11380,
+      "task_loss": 0.48657315969467163
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02639576167675335,
+      "compression/movement_sparsity/importance_threshold": -0.5258467790641594,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12628331780433655,
+      "epoch": 4.12,
+      "learning_rate": 4.4882329468818246e-07,
+      "loss": 0.1836,
+      "step": 11390,
+      "task_loss": 0.2578519582748413
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026466851656405437,
+      "compression/movement_sparsity/importance_threshold": -0.5248784284776054,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15595079958438873,
+      "epoch": 4.12,
+      "learning_rate": 4.472453709288091e-07,
+      "loss": 0.1813,
+      "step": 11400,
+      "task_loss": 0.5081670880317688
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026537854307305344,
+      "compression/movement_sparsity/importance_threshold": -0.523911267437719,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16610749065876007,
+      "epoch": 4.12,
+      "learning_rate": 4.4566942646743246e-07,
+      "loss": 0.1716,
+      "step": 11410,
+      "task_loss": 0.43464046716690063
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026608769683124495,
+      "compression/movement_sparsity/importance_threshold": -0.5229452952134162,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17217926681041718,
+      "epoch": 4.13,
+      "learning_rate": 4.4409546694717736e-07,
+      "loss": 0.1618,
+      "step": 11420,
+      "task_loss": 0.38427919149398804
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026679597837534295,
+      "compression/movement_sparsity/importance_threshold": -0.5219805110736129,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14132100343704224,
+      "epoch": 4.13,
+      "learning_rate": 4.425234980040622e-07,
+      "loss": 0.1756,
+      "step": 11430,
+      "task_loss": 0.49500393867492676
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026750338824206146,
+      "compression/movement_sparsity/importance_threshold": -0.5210169142872255,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.180766299366951,
+      "epoch": 4.13,
+      "learning_rate": 4.409535252669763e-07,
+      "loss": 0.1809,
+      "step": 11440,
+      "task_loss": 0.47744685411453247
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026820992696811475,
+      "compression/movement_sparsity/importance_threshold": -0.5200545041231699,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16767911612987518,
+      "epoch": 4.14,
+      "learning_rate": 4.3938555435766187e-07,
+      "loss": 0.172,
+      "step": 11450,
+      "task_loss": 0.4917362332344055
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026891559509021664,
+      "compression/movement_sparsity/importance_threshold": -0.5190932798503622,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16706699132919312,
+      "epoch": 4.14,
+      "learning_rate": 4.378195908906932e-07,
+      "loss": 0.1763,
+      "step": 11460,
+      "task_loss": 0.25731348991394043
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.026962039314508152,
+      "compression/movement_sparsity/importance_threshold": -0.5181332407377185,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1750440001487732,
+      "epoch": 4.15,
+      "learning_rate": 4.362556404734552e-07,
+      "loss": 0.1642,
+      "step": 11470,
+      "task_loss": 0.6891375184059143
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02703243216694235,
+      "compression/movement_sparsity/importance_threshold": -0.5171743860541547,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1234075054526329,
+      "epoch": 4.15,
+      "learning_rate": 4.346937087061259e-07,
+      "loss": 0.1645,
+      "step": 11480,
+      "task_loss": 0.4213874936103821
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027102738119995654,
+      "compression/movement_sparsity/importance_threshold": -0.5162167150685868,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1771700531244278,
+      "epoch": 4.15,
+      "learning_rate": 4.3313380118165345e-07,
+      "loss": 0.1784,
+      "step": 11490,
+      "task_loss": 0.4768829345703125
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02717295722733948,
+      "compression/movement_sparsity/importance_threshold": -0.5152602270499311,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17060580849647522,
+      "epoch": 4.16,
+      "learning_rate": 4.315759234857388e-07,
+      "loss": 0.1732,
+      "step": 11500,
+      "task_loss": 0.7726600170135498
+    },
+    {
+      "epoch": 4.16,
+      "eval_exact_match": 83.6802270577105,
+      "eval_f1": 90.00678546584051,
+      "step": 11500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02724308954264524,
+      "compression/movement_sparsity/importance_threshold": -0.5143049212671038,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19148531556129456,
+      "epoch": 4.16,
+      "learning_rate": 4.300200811968141e-07,
+      "loss": 0.1736,
+      "step": 11510,
+      "task_loss": 0.3507334887981415
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02731313511958434,
+      "compression/movement_sparsity/importance_threshold": -0.5133507969890206,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1210765391588211,
+      "epoch": 4.16,
+      "learning_rate": 4.284662798860232e-07,
+      "loss": 0.1682,
+      "step": 11520,
+      "task_loss": 0.20562471449375153
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027383094011828195,
+      "compression/movement_sparsity/importance_threshold": -0.5123978534845979,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14142274856567383,
+      "epoch": 4.17,
+      "learning_rate": 4.2691452511720194e-07,
+      "loss": 0.1691,
+      "step": 11530,
+      "task_loss": 0.3383503556251526
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027452966273048215,
+      "compression/movement_sparsity/importance_threshold": -0.5114460900227514,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1510867178440094,
+      "epoch": 4.17,
+      "learning_rate": 4.253648224468567e-07,
+      "loss": 0.1818,
+      "step": 11540,
+      "task_loss": 0.7619709968566895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027522751956915795,
+      "compression/movement_sparsity/importance_threshold": -0.5104955058723977,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17000426352024078,
+      "epoch": 4.17,
+      "learning_rate": 4.238171774241471e-07,
+      "loss": 0.1604,
+      "step": 11550,
+      "task_loss": 0.3821756839752197
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027592451117102377,
+      "compression/movement_sparsity/importance_threshold": -0.5095461003024523,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12718622386455536,
+      "epoch": 4.18,
+      "learning_rate": 4.2227159559086466e-07,
+      "loss": 0.1767,
+      "step": 11560,
+      "task_loss": 0.3057350814342499
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02766206380727935,
+      "compression/movement_sparsity/importance_threshold": -0.5085978725818315,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13876132667064667,
+      "epoch": 4.18,
+      "learning_rate": 4.207280824814119e-07,
+      "loss": 0.1755,
+      "step": 11570,
+      "task_loss": 0.48780569434165955
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027731590081118137,
+      "compression/movement_sparsity/importance_threshold": -0.5076508219794513,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15152356028556824,
+      "epoch": 4.19,
+      "learning_rate": 4.191866436227851e-07,
+      "loss": 0.1602,
+      "step": 11580,
+      "task_loss": 0.29727867245674133
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027801029992290137,
+      "compression/movement_sparsity/importance_threshold": -0.506704947764228,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17890770733356476,
+      "epoch": 4.19,
+      "learning_rate": 4.1764728453455167e-07,
+      "loss": 0.1692,
+      "step": 11590,
+      "task_loss": 0.46190762519836426
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.027870383594466763,
+      "compression/movement_sparsity/importance_threshold": -0.5057602492050775,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16518770158290863,
+      "epoch": 4.19,
+      "learning_rate": 4.1611001072883323e-07,
+      "loss": 0.1793,
+      "step": 11600,
+      "task_loss": 0.6467550992965698
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02793965094131943,
+      "compression/movement_sparsity/importance_threshold": -0.5048167255709157,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12185207009315491,
+      "epoch": 4.2,
+      "learning_rate": 4.1457482771028305e-07,
+      "loss": 0.1653,
+      "step": 11610,
+      "task_loss": 0.3818345069885254
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02800883208651955,
+      "compression/movement_sparsity/importance_threshold": -0.5038743761306589,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1789764165878296,
+      "epoch": 4.2,
+      "learning_rate": 4.130417409760689e-07,
+      "loss": 0.1788,
+      "step": 11620,
+      "task_loss": 0.6418240666389465
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02807792708373852,
+      "compression/movement_sparsity/importance_threshold": -0.5029332001532232,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1454584151506424,
+      "epoch": 4.2,
+      "learning_rate": 4.1151075601585174e-07,
+      "loss": 0.1828,
+      "step": 11630,
+      "task_loss": 0.43138134479522705
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02814693598664776,
+      "compression/movement_sparsity/importance_threshold": -0.5019931969075245,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16067031025886536,
+      "epoch": 4.21,
+      "learning_rate": 4.0998187831176636e-07,
+      "loss": 0.1775,
+      "step": 11640,
+      "task_loss": 0.32413339614868164
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02821585884891869,
+      "compression/movement_sparsity/importance_threshold": -0.5010543656624789,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17555850744247437,
+      "epoch": 4.21,
+      "learning_rate": 4.084551133384024e-07,
+      "loss": 0.1691,
+      "step": 11650,
+      "task_loss": 0.5207797884941101
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028284695724222705,
+      "compression/movement_sparsity/importance_threshold": -0.5001167056870026,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12386974692344666,
+      "epoch": 4.21,
+      "learning_rate": 4.069304665627834e-07,
+      "loss": 0.1682,
+      "step": 11660,
+      "task_loss": 0.26369139552116394
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028353446666231224,
+      "compression/movement_sparsity/importance_threshold": -0.4991802162500115,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15394540131092072,
+      "epoch": 4.22,
+      "learning_rate": 4.054079434443487e-07,
+      "loss": 0.1543,
+      "step": 11670,
+      "task_loss": 0.4621257781982422
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028422111728615654,
+      "compression/movement_sparsity/importance_threshold": -0.4982448966204218,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15610939264297485,
+      "epoch": 4.22,
+      "learning_rate": 4.0388754943493374e-07,
+      "loss": 0.174,
+      "step": 11680,
+      "task_loss": 0.7012438774108887
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02849069096504741,
+      "compression/movement_sparsity/importance_threshold": -0.4973107460671495,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1879960000514984,
+      "epoch": 4.22,
+      "learning_rate": 4.023692899787486e-07,
+      "loss": 0.181,
+      "step": 11690,
+      "task_loss": 0.5456829071044922
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028559184429197897,
+      "compression/movement_sparsity/importance_threshold": -0.49637776385911064,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16950491070747375,
+      "epoch": 4.23,
+      "learning_rate": 4.0085317051236176e-07,
+      "loss": 0.1782,
+      "step": 11700,
+      "task_loss": 0.5510709881782532
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028627592174738523,
+      "compression/movement_sparsity/importance_threshold": -0.4954459492652214,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14448924362659454,
+      "epoch": 4.23,
+      "learning_rate": 3.9933919646467716e-07,
+      "loss": 0.1733,
+      "step": 11710,
+      "task_loss": 0.4822184443473816
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028695914255340713,
+      "compression/movement_sparsity/importance_threshold": -0.49451530155439766,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1638861894607544,
+      "epoch": 4.24,
+      "learning_rate": 3.9782737325691786e-07,
+      "loss": 0.1785,
+      "step": 11720,
+      "task_loss": 0.3740285038948059
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02876415072467586,
+      "compression/movement_sparsity/importance_threshold": -0.49358581999555573,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12357451766729355,
+      "epoch": 4.24,
+      "learning_rate": 3.96317706302604e-07,
+      "loss": 0.1757,
+      "step": 11730,
+      "task_loss": 0.7518565654754639
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028832301636415394,
+      "compression/movement_sparsity/importance_threshold": -0.49265750385761137,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11722180247306824,
+      "epoch": 4.24,
+      "learning_rate": 3.948102010075356e-07,
+      "loss": 0.1569,
+      "step": 11740,
+      "task_loss": 0.4631866216659546
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02890036704423069,
+      "compression/movement_sparsity/importance_threshold": -0.49173035240948115,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.23655325174331665,
+      "epoch": 4.25,
+      "learning_rate": 3.933048627697717e-07,
+      "loss": 0.1875,
+      "step": 11750,
+      "task_loss": 0.260358989238739
+    },
+    {
+      "epoch": 4.25,
+      "eval_exact_match": 83.80321665089878,
+      "eval_f1": 90.13903938703879,
+      "step": 11750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.028968347001793203,
+      "compression/movement_sparsity/importance_threshold": -0.49080436492008056,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21262499690055847,
+      "epoch": 4.25,
+      "learning_rate": 3.9180169697961183e-07,
+      "loss": 0.1815,
+      "step": 11760,
+      "task_loss": 0.3771222233772278
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02903624156277432,
+      "compression/movement_sparsity/importance_threshold": -0.4898795406583259,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14260724186897278,
+      "epoch": 4.25,
+      "learning_rate": 3.903007090195768e-07,
+      "loss": 0.1721,
+      "step": 11770,
+      "task_loss": 0.404729425907135
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029104050780845457,
+      "compression/movement_sparsity/importance_threshold": -0.4889558788931333,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18275782465934753,
+      "epoch": 4.26,
+      "learning_rate": 3.8880190426438764e-07,
+      "loss": 0.1657,
+      "step": 11780,
+      "task_loss": 0.2863193154335022
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029171774709678022,
+      "compression/movement_sparsity/importance_threshold": -0.4880333788934188,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16939735412597656,
+      "epoch": 4.26,
+      "learning_rate": 3.873052880809493e-07,
+      "loss": 0.1796,
+      "step": 11790,
+      "task_loss": 0.33054405450820923
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02923941340294343,
+      "compression/movement_sparsity/importance_threshold": -0.4871120399280983,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18896028399467468,
+      "epoch": 4.26,
+      "learning_rate": 3.8581086582832967e-07,
+      "loss": 0.1792,
+      "step": 11800,
+      "task_loss": 0.5677767992019653
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029306966914313084,
+      "compression/movement_sparsity/importance_threshold": -0.48619186126608815,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1795285940170288,
+      "epoch": 4.27,
+      "learning_rate": 3.8431864285773964e-07,
+      "loss": 0.1712,
+      "step": 11810,
+      "task_loss": 0.7608554363250732
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02937443529745841,
+      "compression/movement_sparsity/importance_threshold": -0.4852728421763042,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1296456754207611,
+      "epoch": 4.27,
+      "learning_rate": 3.828286245125163e-07,
+      "loss": 0.1655,
+      "step": 11820,
+      "task_loss": 0.385231614112854
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029441818606050794,
+      "compression/movement_sparsity/importance_threshold": -0.48435498192766263,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16423696279525757,
+      "epoch": 4.28,
+      "learning_rate": 3.8134081612810097e-07,
+      "loss": 0.167,
+      "step": 11830,
+      "task_loss": 0.2643640637397766
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02950911689376165,
+      "compression/movement_sparsity/importance_threshold": -0.48343827978907966,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1867581307888031,
+      "epoch": 4.28,
+      "learning_rate": 3.7985522303202277e-07,
+      "loss": 0.1719,
+      "step": 11840,
+      "task_loss": 0.4425698518753052
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02957633021426241,
+      "compression/movement_sparsity/importance_threshold": -0.482522735029471,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13380573689937592,
+      "epoch": 4.28,
+      "learning_rate": 3.7837185054387833e-07,
+      "loss": 0.1659,
+      "step": 11850,
+      "task_loss": 0.28523489832878113
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.02964345862122448,
+      "compression/movement_sparsity/importance_threshold": -0.48160834691775284,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1440255045890808,
+      "epoch": 4.29,
+      "learning_rate": 3.7689070397531163e-07,
+      "loss": 0.1602,
+      "step": 11860,
+      "task_loss": 0.47079092264175415
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029710502168319258,
+      "compression/movement_sparsity/importance_threshold": -0.4806951147228413,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17543549835681915,
+      "epoch": 4.29,
+      "learning_rate": 3.7541178862999714e-07,
+      "loss": 0.1781,
+      "step": 11870,
+      "task_loss": 0.6562625169754028
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029777460909218165,
+      "compression/movement_sparsity/importance_threshold": -0.47978303771365244,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13487908244132996,
+      "epoch": 4.29,
+      "learning_rate": 3.739351098036195e-07,
+      "loss": 0.1778,
+      "step": 11880,
+      "task_loss": 0.23533663153648376
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0298443348975926,
+      "compression/movement_sparsity/importance_threshold": -0.4788721151591024,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15928372740745544,
+      "epoch": 4.3,
+      "learning_rate": 3.724606727838551e-07,
+      "loss": 0.1712,
+      "step": 11890,
+      "task_loss": 0.4500586986541748
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029911124187113988,
+      "compression/movement_sparsity/importance_threshold": -0.477962346328107,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16884973645210266,
+      "epoch": 4.3,
+      "learning_rate": 3.70988482850352e-07,
+      "loss": 0.1865,
+      "step": 11900,
+      "task_loss": 0.22457614541053772
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.029977828831453723,
+      "compression/movement_sparsity/importance_threshold": -0.4770537304895827,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1822618544101715,
+      "epoch": 4.3,
+      "learning_rate": 3.695185452747127e-07,
+      "loss": 0.1776,
+      "step": 11910,
+      "task_loss": 0.32499706745147705
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030044448884283235,
+      "compression/movement_sparsity/importance_threshold": -0.4761462669124452,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15013720095157623,
+      "epoch": 4.31,
+      "learning_rate": 3.680508653204748e-07,
+      "loss": 0.1711,
+      "step": 11920,
+      "task_loss": 0.37257882952690125
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03011098439927392,
+      "compression/movement_sparsity/importance_threshold": -0.47523995486561077,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13815215229988098,
+      "epoch": 4.31,
+      "learning_rate": 3.665854482430907e-07,
+      "loss": 0.1778,
+      "step": 11930,
+      "task_loss": 0.34098368883132935
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030177435430097186,
+      "compression/movement_sparsity/importance_threshold": -0.47433479361799546,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13309718668460846,
+      "epoch": 4.32,
+      "learning_rate": 3.65122299289911e-07,
+      "loss": 0.162,
+      "step": 11940,
+      "task_loss": 0.17212031781673431
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03024380203042446,
+      "compression/movement_sparsity/importance_threshold": -0.4734307824385152,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17650893330574036,
+      "epoch": 4.32,
+      "learning_rate": 3.636614237001637e-07,
+      "loss": 0.1833,
+      "step": 11950,
+      "task_loss": 0.4818665087223053
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03031008425392714,
+      "compression/movement_sparsity/importance_threshold": -0.47252792059608617,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1562044322490692,
+      "epoch": 4.32,
+      "learning_rate": 3.6220282670493706e-07,
+      "loss": 0.1765,
+      "step": 11960,
+      "task_loss": 0.4606776535511017
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03037628215427664,
+      "compression/movement_sparsity/importance_threshold": -0.47162620735962446,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16945087909698486,
+      "epoch": 4.33,
+      "learning_rate": 3.607465135271603e-07,
+      "loss": 0.1905,
+      "step": 11970,
+      "task_loss": 0.40968573093414307
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03044239578514437,
+      "compression/movement_sparsity/importance_threshold": -0.4707256419980461,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17481261491775513,
+      "epoch": 4.33,
+      "learning_rate": 3.5929248938158396e-07,
+      "loss": 0.1733,
+      "step": 11980,
+      "task_loss": 0.25828778743743896
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030508425200201736,
+      "compression/movement_sparsity/importance_threshold": -0.46982622378026717,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21180686354637146,
+      "epoch": 4.33,
+      "learning_rate": 3.578407594747624e-07,
+      "loss": 0.1729,
+      "step": 11990,
+      "task_loss": 0.4141823351383209
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03057437045312016,
+      "compression/movement_sparsity/importance_threshold": -0.46892795197520365,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19437111914157867,
+      "epoch": 4.34,
+      "learning_rate": 3.5639132900503533e-07,
+      "loss": 0.1742,
+      "step": 12000,
+      "task_loss": 0.39397311210632324
+    },
+    {
+      "epoch": 4.34,
+      "eval_exact_match": 83.56669820245979,
+      "eval_f1": 90.00705474053464,
+      "step": 12000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030640231597571045,
+      "compression/movement_sparsity/importance_threshold": -0.4680308258517717,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15808720886707306,
+      "epoch": 4.34,
+      "learning_rate": 3.549442031625084e-07,
+      "loss": 0.1823,
+      "step": 12010,
+      "task_loss": 0.31429338455200195
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030706008687225797,
+      "compression/movement_sparsity/importance_threshold": -0.4671348446788875,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13028618693351746,
+      "epoch": 4.34,
+      "learning_rate": 3.534993871290338e-07,
+      "loss": 0.1702,
+      "step": 12020,
+      "task_loss": 0.35157257318496704
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030771701775755823,
+      "compression/movement_sparsity/importance_threshold": -0.46624000772546703,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1625824123620987,
+      "epoch": 4.35,
+      "learning_rate": 3.520568860781944e-07,
+      "loss": 0.1868,
+      "step": 12030,
+      "task_loss": 0.38068217039108276
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030837310916832554,
+      "compression/movement_sparsity/importance_threshold": -0.46534631426042616,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1509367823600769,
+      "epoch": 4.35,
+      "learning_rate": 3.5061670517528294e-07,
+      "loss": 0.1763,
+      "step": 12040,
+      "task_loss": 0.3321918249130249
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.030902836164127395,
+      "compression/movement_sparsity/importance_threshold": -0.46445376355268103,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16750577092170715,
+      "epoch": 4.35,
+      "learning_rate": 3.491788495772836e-07,
+      "loss": 0.1792,
+      "step": 12050,
+      "task_loss": 0.8832313418388367
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03096827757131175,
+      "compression/movement_sparsity/importance_threshold": -0.46356235487114783,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15269014239311218,
+      "epoch": 4.36,
+      "learning_rate": 3.477433244328553e-07,
+      "loss": 0.1686,
+      "step": 12060,
+      "task_loss": 0.37979966402053833
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.031033635192057027,
+      "compression/movement_sparsity/importance_threshold": -0.46267208748474264,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16275674104690552,
+      "epoch": 4.36,
+      "learning_rate": 3.4631013488231075e-07,
+      "loss": 0.1806,
+      "step": 12070,
+      "task_loss": 0.38607725501060486
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03109890908003464,
+      "compression/movement_sparsity/importance_threshold": -0.46178296066238145,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.24525508284568787,
+      "epoch": 4.37,
+      "learning_rate": 3.448792860576004e-07,
+      "loss": 0.1838,
+      "step": 12080,
+      "task_loss": 0.5830104947090149
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.031164099288916003,
+      "compression/movement_sparsity/importance_threshold": -0.4608949736729803,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15277394652366638,
+      "epoch": 4.37,
+      "learning_rate": 3.434507830822934e-07,
+      "loss": 0.1763,
+      "step": 12090,
+      "task_loss": 0.2695538401603699
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.031229205872372517,
+      "compression/movement_sparsity/importance_threshold": -0.46000812578545536,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16866612434387207,
+      "epoch": 4.37,
+      "learning_rate": 3.420246310715572e-07,
+      "loss": 0.1634,
+      "step": 12100,
+      "task_loss": 0.5227435827255249
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03129422888407559,
+      "compression/movement_sparsity/importance_threshold": -0.4591224162687228,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18312391638755798,
+      "epoch": 4.38,
+      "learning_rate": 3.4060083513214257e-07,
+      "loss": 0.1721,
+      "step": 12110,
+      "task_loss": 0.5585439801216125
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03135916837769666,
+      "compression/movement_sparsity/importance_threshold": -0.4582378443916983,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15855933725833893,
+      "epoch": 4.38,
+      "learning_rate": 3.39179400362363e-07,
+      "loss": 0.1687,
+      "step": 12120,
+      "task_loss": 0.47586819529533386
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03142402440690711,
+      "compression/movement_sparsity/importance_threshold": -0.45735440942329825,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17082326114177704,
+      "epoch": 4.38,
+      "learning_rate": 3.377603318520779e-07,
+      "loss": 0.1633,
+      "step": 12130,
+      "task_loss": 0.49885010719299316
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03148879702537836,
+      "compression/movement_sparsity/importance_threshold": -0.45647211063243853,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1388573944568634,
+      "epoch": 4.39,
+      "learning_rate": 3.3634363468267177e-07,
+      "loss": 0.1781,
+      "step": 12140,
+      "task_loss": 0.5175285339355469
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.031553486286781826,
+      "compression/movement_sparsity/importance_threshold": -0.4555909472880353,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1499364674091339,
+      "epoch": 4.39,
+      "learning_rate": 3.349293139270398e-07,
+      "loss": 0.1753,
+      "step": 12150,
+      "task_loss": 0.13086864352226257
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03161809224478891,
+      "compression/movement_sparsity/importance_threshold": -0.45471091865900465,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2038741409778595,
+      "epoch": 4.39,
+      "learning_rate": 3.335173746495672e-07,
+      "loss": 0.1774,
+      "step": 12160,
+      "task_loss": 0.616294801235199
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03168261495307103,
+      "compression/movement_sparsity/importance_threshold": -0.4538320240142626,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16956669092178345,
+      "epoch": 4.4,
+      "learning_rate": 3.3210782190611054e-07,
+      "loss": 0.1763,
+      "step": 12170,
+      "task_loss": 0.5146920680999756
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03174705446529958,
+      "compression/movement_sparsity/importance_threshold": -0.45295426262272526,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1898520290851593,
+      "epoch": 4.4,
+      "learning_rate": 3.3070066074398226e-07,
+      "loss": 0.1798,
+      "step": 12180,
+      "task_loss": 0.5947543382644653
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03181141083514599,
+      "compression/movement_sparsity/importance_threshold": -0.45207763375330867,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13102659583091736,
+      "epoch": 4.41,
+      "learning_rate": 3.2929589620192975e-07,
+      "loss": 0.1581,
+      "step": 12190,
+      "task_loss": 0.2658257484436035
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.031875684116281666,
+      "compression/movement_sparsity/importance_threshold": -0.45120213667492887,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18428611755371094,
+      "epoch": 4.41,
+      "learning_rate": 3.278935333101196e-07,
+      "loss": 0.1835,
+      "step": 12200,
+      "task_loss": 0.45930129289627075
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03193987436237801,
+      "compression/movement_sparsity/importance_threshold": -0.45032777065650204,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15300177037715912,
+      "epoch": 4.41,
+      "learning_rate": 3.264935770901183e-07,
+      "loss": 0.183,
+      "step": 12210,
+      "task_loss": 0.296694278717041
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.032003981627106444,
+      "compression/movement_sparsity/importance_threshold": -0.4494545349669441,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17390677332878113,
+      "epoch": 4.42,
+      "learning_rate": 3.2509603255487394e-07,
+      "loss": 0.178,
+      "step": 12220,
+      "task_loss": 0.5502451062202454
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03206800596413837,
+      "compression/movement_sparsity/importance_threshold": -0.44858242887517114,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18281325697898865,
+      "epoch": 4.42,
+      "learning_rate": 3.237009047086997e-07,
+      "loss": 0.169,
+      "step": 12230,
+      "task_loss": 0.4404161274433136
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0321319474271452,
+      "compression/movement_sparsity/importance_threshold": -0.4477114516500993,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1602400243282318,
+      "epoch": 4.42,
+      "learning_rate": 3.2230819854725465e-07,
+      "loss": 0.1723,
+      "step": 12240,
+      "task_loss": 0.5139293670654297
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03219580606979835,
+      "compression/movement_sparsity/importance_threshold": -0.44684160256064465,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15721780061721802,
+      "epoch": 4.43,
+      "learning_rate": 3.2091791905752673e-07,
+      "loss": 0.1617,
+      "step": 12250,
+      "task_loss": 0.4229050874710083
+    },
+    {
+      "epoch": 4.43,
+      "eval_exact_match": 83.62346263008514,
+      "eval_f1": 89.97990512757178,
+      "step": 12250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03225958194576923,
+      "compression/movement_sparsity/importance_threshold": -0.4459728808757232,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15479019284248352,
+      "epoch": 4.43,
+      "learning_rate": 3.1953007121781425e-07,
+      "loss": 0.1746,
+      "step": 12260,
+      "task_loss": 0.5893458127975464
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03232327510872924,
+      "compression/movement_sparsity/importance_threshold": -0.445105285864251,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15340088307857513,
+      "epoch": 4.43,
+      "learning_rate": 3.181446599977078e-07,
+      "loss": 0.1625,
+      "step": 12270,
+      "task_loss": 0.6467044353485107
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0323868856123498,
+      "compression/movement_sparsity/importance_threshold": -0.4442388167951442,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1622926890850067,
+      "epoch": 4.44,
+      "learning_rate": 3.167616903580738e-07,
+      "loss": 0.1754,
+      "step": 12280,
+      "task_loss": 0.4219571352005005
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03245041351030232,
+      "compression/movement_sparsity/importance_threshold": -0.4433734729373189,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16757610440254211,
+      "epoch": 4.44,
+      "learning_rate": 3.1538116725103506e-07,
+      "loss": 0.1793,
+      "step": 12290,
+      "task_loss": 0.3955652713775635
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0325138588562582,
+      "compression/movement_sparsity/importance_threshold": -0.442509253559691,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19136472046375275,
+      "epoch": 4.45,
+      "learning_rate": 3.1400309561995473e-07,
+      "loss": 0.1777,
+      "step": 12300,
+      "task_loss": 0.5077202320098877
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.032577221703888874,
+      "compression/movement_sparsity/importance_threshold": -0.4416461579311766,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17287388443946838,
+      "epoch": 4.45,
+      "learning_rate": 3.126274803994169e-07,
+      "loss": 0.1769,
+      "step": 12310,
+      "task_loss": 0.2892530560493469
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03264050210686572,
+      "compression/movement_sparsity/importance_threshold": -0.440784185320692,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1708020567893982,
+      "epoch": 4.45,
+      "learning_rate": 3.1125432651521034e-07,
+      "loss": 0.178,
+      "step": 12320,
+      "task_loss": 0.5046877264976501
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03270370011886018,
+      "compression/movement_sparsity/importance_threshold": -0.439923334997153,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17857205867767334,
+      "epoch": 4.46,
+      "learning_rate": 3.098836388843105e-07,
+      "loss": 0.1756,
+      "step": 12330,
+      "task_loss": 0.47654569149017334
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03276681579354365,
+      "compression/movement_sparsity/importance_threshold": -0.43906360622947577,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15070676803588867,
+      "epoch": 4.46,
+      "learning_rate": 3.085154224148605e-07,
+      "loss": 0.1623,
+      "step": 12340,
+      "task_loss": 0.6382228136062622
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03282984918458754,
+      "compression/movement_sparsity/importance_threshold": -0.43820499828657633,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14683285355567932,
+      "epoch": 4.46,
+      "learning_rate": 3.071496820061561e-07,
+      "loss": 0.1704,
+      "step": 12350,
+      "task_loss": 0.3013722598552704
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03289280034566327,
+      "compression/movement_sparsity/importance_threshold": -0.43734751043737075,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11898720264434814,
+      "epoch": 4.47,
+      "learning_rate": 3.057864225486262e-07,
+      "loss": 0.1761,
+      "step": 12360,
+      "task_loss": 0.18860679864883423
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.032955669330442236,
+      "compression/movement_sparsity/importance_threshold": -0.4364911419507752,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17226265370845795,
+      "epoch": 4.47,
+      "learning_rate": 3.044256489238159e-07,
+      "loss": 0.1697,
+      "step": 12370,
+      "task_loss": 0.2961030602455139
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03301845619259586,
+      "compression/movement_sparsity/importance_threshold": -0.43563589209570563,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1485224962234497,
+      "epoch": 4.47,
+      "learning_rate": 3.030673660043698e-07,
+      "loss": 0.1871,
+      "step": 12380,
+      "task_loss": 0.31120193004608154
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03308116098579554,
+      "compression/movement_sparsity/importance_threshold": -0.43478176014107817,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1510060578584671,
+      "epoch": 4.48,
+      "learning_rate": 3.018470449500072e-07,
+      "loss": 0.178,
+      "step": 12390,
+      "task_loss": 0.49028700590133667
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0331437837637127,
+      "compression/movement_sparsity/importance_threshold": -0.433928745355809,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16419251263141632,
+      "epoch": 4.48,
+      "learning_rate": 3.004935077629299e-07,
+      "loss": 0.1782,
+      "step": 12400,
+      "task_loss": 0.3531630039215088
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.033206324580018744,
+      "compression/movement_sparsity/importance_threshold": -0.43307684700881394,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18890751898288727,
+      "epoch": 4.49,
+      "learning_rate": 2.991424753613858e-07,
+      "loss": 0.1893,
+      "step": 12410,
+      "task_loss": 0.4802757799625397
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.033268783488385086,
+      "compression/movement_sparsity/importance_threshold": -0.4322260643690091,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14421889185905457,
+      "epoch": 4.49,
+      "learning_rate": 2.97793952583138e-07,
+      "loss": 0.163,
+      "step": 12420,
+      "task_loss": 0.6870753765106201
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03333116054248314,
+      "compression/movement_sparsity/importance_threshold": -0.4313763967053107,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14144985377788544,
+      "epoch": 4.49,
+      "learning_rate": 2.9644794425696316e-07,
+      "loss": 0.166,
+      "step": 12430,
+      "task_loss": 0.2926397919654846
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0333934557959843,
+      "compression/movement_sparsity/importance_threshold": -0.43052784328663474,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14997738599777222,
+      "epoch": 4.5,
+      "learning_rate": 2.9510445520263315e-07,
+      "loss": 0.1834,
+      "step": 12440,
+      "task_loss": 0.2823546528816223
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.033455669302560005,
+      "compression/movement_sparsity/importance_threshold": -0.4296804033818971,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1645713895559311,
+      "epoch": 4.5,
+      "learning_rate": 2.937634902309001e-07,
+      "loss": 0.1829,
+      "step": 12450,
+      "task_loss": 0.41032591462135315
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03351780111588164,
+      "compression/movement_sparsity/importance_threshold": -0.42883407626001413,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14776745438575745,
+      "epoch": 4.5,
+      "learning_rate": 2.9242505414347683e-07,
+      "loss": 0.1743,
+      "step": 12460,
+      "task_loss": 0.6065025925636292
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03357985128962062,
+      "compression/movement_sparsity/importance_threshold": -0.4279888611899018,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17194849252700806,
+      "epoch": 4.51,
+      "learning_rate": 2.910891517330215e-07,
+      "loss": 0.1771,
+      "step": 12470,
+      "task_loss": 0.49688899517059326
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03364181987744837,
+      "compression/movement_sparsity/importance_threshold": -0.42714475744047614,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17045895755290985,
+      "epoch": 4.51,
+      "learning_rate": 2.897557877831196e-07,
+      "loss": 0.1693,
+      "step": 12480,
+      "task_loss": 0.3933444917201996
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03370370693303629,
+      "compression/movement_sparsity/importance_threshold": -0.42630176428065325,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1370893120765686,
+      "epoch": 4.51,
+      "learning_rate": 2.884249670682668e-07,
+      "loss": 0.1849,
+      "step": 12490,
+      "task_loss": 0.28957247734069824
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03376551251005577,
+      "compression/movement_sparsity/importance_threshold": -0.4254598809793493,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16283123195171356,
+      "epoch": 4.52,
+      "learning_rate": 2.870966943538522e-07,
+      "loss": 0.167,
+      "step": 12500,
+      "task_loss": 0.2896598279476166
+    },
+    {
+      "epoch": 4.52,
+      "eval_exact_match": 83.43424787133397,
+      "eval_f1": 89.91171539061436,
+      "step": 12500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03382723666217826,
+      "compression/movement_sparsity/importance_threshold": -0.42461910680548015,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13904690742492676,
+      "epoch": 4.52,
+      "learning_rate": 2.857709743961404e-07,
+      "loss": 0.1662,
+      "step": 12510,
+      "task_loss": 0.2602207660675049
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03388887944307515,
+      "compression/movement_sparsity/importance_threshold": -0.4237794410279619,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15818578004837036,
+      "epoch": 4.52,
+      "learning_rate": 2.84447811942256e-07,
+      "loss": 0.1918,
+      "step": 12520,
+      "task_loss": 0.31633198261260986
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03395044090641785,
+      "compression/movement_sparsity/importance_threshold": -0.42294088291571075,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17294219136238098,
+      "epoch": 4.53,
+      "learning_rate": 2.8312721173016476e-07,
+      "loss": 0.1681,
+      "step": 12530,
+      "task_loss": 0.3709946870803833
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03401192110587777,
+      "compression/movement_sparsity/importance_threshold": -0.4221034317376427,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12054181098937988,
+      "epoch": 4.53,
+      "learning_rate": 2.818091784886585e-07,
+      "loss": 0.168,
+      "step": 12540,
+      "task_loss": 0.2598145604133606
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.034073320095126335,
+      "compression/movement_sparsity/importance_threshold": -0.42126708676267377,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15481901168823242,
+      "epoch": 4.54,
+      "learning_rate": 2.80493716937337e-07,
+      "loss": 0.1767,
+      "step": 12550,
+      "task_loss": 0.38484764099121094
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.034134637927834936,
+      "compression/movement_sparsity/importance_threshold": -0.42043184725972005,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1437249779701233,
+      "epoch": 4.54,
+      "learning_rate": 2.791808317865907e-07,
+      "loss": 0.1773,
+      "step": 12560,
+      "task_loss": 0.3040648102760315
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03419587465767499,
+      "compression/movement_sparsity/importance_threshold": -0.41959771249769773,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18909630179405212,
+      "epoch": 4.54,
+      "learning_rate": 2.778705277375857e-07,
+      "loss": 0.1829,
+      "step": 12570,
+      "task_loss": 0.3867703080177307
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03425703033831792,
+      "compression/movement_sparsity/importance_threshold": -0.41876468174552267,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1678750216960907,
+      "epoch": 4.55,
+      "learning_rate": 2.765628094822443e-07,
+      "loss": 0.1736,
+      "step": 12580,
+      "task_loss": 0.4944628179073334
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.034318105023435116,
+      "compression/movement_sparsity/importance_threshold": -0.41793275427211113,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16761477291584015,
+      "epoch": 4.55,
+      "learning_rate": 2.7525768170323084e-07,
+      "loss": 0.1873,
+      "step": 12590,
+      "task_loss": 0.2373383790254593
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03437909876669801,
+      "compression/movement_sparsity/importance_threshold": -0.4171019293463789,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15242645144462585,
+      "epoch": 4.55,
+      "learning_rate": 2.7395514907393304e-07,
+      "loss": 0.1712,
+      "step": 12600,
+      "task_loss": 0.2393788993358612
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.034440011621777976,
+      "compression/movement_sparsity/importance_threshold": -0.4162722062372427,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19179469347000122,
+      "epoch": 4.56,
+      "learning_rate": 2.7265521625844623e-07,
+      "loss": 0.1749,
+      "step": 12610,
+      "task_loss": 0.3033488392829895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03450084364234648,
+      "compression/movement_sparsity/importance_threshold": -0.41544358421361766,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17567074298858643,
+      "epoch": 4.56,
+      "learning_rate": 2.7135788791155645e-07,
+      "loss": 0.1815,
+      "step": 12620,
+      "task_loss": 0.608439564704895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.034561594882074886,
+      "compression/movement_sparsity/importance_threshold": -0.41461606254442046,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13859786093235016,
+      "epoch": 4.56,
+      "learning_rate": 2.7006316867872303e-07,
+      "loss": 0.1801,
+      "step": 12630,
+      "task_loss": 0.2615768313407898
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.034622265394634616,
+      "compression/movement_sparsity/importance_threshold": -0.41378964049856715,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1449252963066101,
+      "epoch": 4.57,
+      "learning_rate": 2.6877106319606344e-07,
+      "loss": 0.1744,
+      "step": 12640,
+      "task_loss": 0.35204145312309265
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0346828552336971,
+      "compression/movement_sparsity/importance_threshold": -0.41296431734497346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17655514180660248,
+      "epoch": 4.57,
+      "learning_rate": 2.6748157609033507e-07,
+      "loss": 0.1744,
+      "step": 12650,
+      "task_loss": 0.3563224971294403
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03474336445293374,
+      "compression/movement_sparsity/importance_threshold": -0.4121400923525557,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19780133664608002,
+      "epoch": 4.58,
+      "learning_rate": 2.661947119789202e-07,
+      "loss": 0.1878,
+      "step": 12660,
+      "task_loss": 0.5263267755508423
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03480379310601593,
+      "compression/movement_sparsity/importance_threshold": -0.41131696479023,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1600715070962906,
+      "epoch": 4.58,
+      "learning_rate": 2.649104754698085e-07,
+      "loss": 0.1757,
+      "step": 12670,
+      "task_loss": 0.3594798445701599
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03486414124661509,
+      "compression/movement_sparsity/importance_threshold": -0.4104949339269123,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18169142305850983,
+      "epoch": 4.58,
+      "learning_rate": 2.636288711615801e-07,
+      "loss": 0.1801,
+      "step": 12680,
+      "task_loss": 0.2691894769668579
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03492440892840263,
+      "compression/movement_sparsity/importance_threshold": -0.4096739990315188,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13344717025756836,
+      "epoch": 4.59,
+      "learning_rate": 2.623499036433909e-07,
+      "loss": 0.1725,
+      "step": 12690,
+      "task_loss": 0.42940986156463623
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03498459620504996,
+      "compression/movement_sparsity/importance_threshold": -0.4088541593729654,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1338200718164444,
+      "epoch": 4.59,
+      "learning_rate": 2.6107357749495396e-07,
+      "loss": 0.1853,
+      "step": 12700,
+      "task_loss": 0.0940115749835968
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035044703130228505,
+      "compression/movement_sparsity/importance_threshold": -0.4080354142201682,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17829687893390656,
+      "epoch": 4.59,
+      "learning_rate": 2.5979989728652486e-07,
+      "loss": 0.1591,
+      "step": 12710,
+      "task_loss": 0.4869588017463684
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03510472975760966,
+      "compression/movement_sparsity/importance_threshold": -0.4072177628420433,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19079387187957764,
+      "epoch": 4.6,
+      "learning_rate": 2.5852886757888417e-07,
+      "loss": 0.1801,
+      "step": 12720,
+      "task_loss": 0.3848039507865906
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035164676140864846,
+      "compression/movement_sparsity/importance_threshold": -0.40640120450750666,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16148385405540466,
+      "epoch": 4.6,
+      "learning_rate": 2.57260492923322e-07,
+      "loss": 0.1754,
+      "step": 12730,
+      "task_loss": 0.41788214445114136
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035224542333665454,
+      "compression/movement_sparsity/importance_threshold": -0.40558573848547463,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18705248832702637,
+      "epoch": 4.6,
+      "learning_rate": 2.5599477786162115e-07,
+      "loss": 0.1689,
+      "step": 12740,
+      "task_loss": 0.4458879232406616
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035284328389682915,
+      "compression/movement_sparsity/importance_threshold": -0.404771364044863,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17292597889900208,
+      "epoch": 4.61,
+      "learning_rate": 2.547317269260405e-07,
+      "loss": 0.1806,
+      "step": 12750,
+      "task_loss": 0.3828756511211395
+    },
+    {
+      "epoch": 4.61,
+      "eval_exact_match": 83.59508041627247,
+      "eval_f1": 89.98942260118159,
+      "step": 12750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03534403436258863,
+      "compression/movement_sparsity/importance_threshold": -0.403958080454588,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12280981242656708,
+      "epoch": 4.61,
+      "learning_rate": 2.534713446393002e-07,
+      "loss": 0.1769,
+      "step": 12760,
+      "task_loss": 0.34313008189201355
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035403660306054026,
+      "compression/movement_sparsity/importance_threshold": -0.40314588698356546,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1836218684911728,
+      "epoch": 4.62,
+      "learning_rate": 2.522136355145632e-07,
+      "loss": 0.1796,
+      "step": 12770,
+      "task_loss": 0.5304206013679504
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035463206273750485,
+      "compression/movement_sparsity/importance_threshold": -0.40233478290071184,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1639278084039688,
+      "epoch": 4.62,
+      "learning_rate": 2.5095860405542167e-07,
+      "loss": 0.1805,
+      "step": 12780,
+      "task_loss": 0.4174896776676178
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03552267231934944,
+      "compression/movement_sparsity/importance_threshold": -0.4015247674749428,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1624828726053238,
+      "epoch": 4.62,
+      "learning_rate": 2.497062547558793e-07,
+      "loss": 0.1804,
+      "step": 12790,
+      "task_loss": 0.31818675994873047
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03558205849652229,
+      "compression/movement_sparsity/importance_threshold": -0.40071583997517474,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16943714022636414,
+      "epoch": 4.63,
+      "learning_rate": 2.4845659210033477e-07,
+      "loss": 0.1765,
+      "step": 12800,
+      "task_loss": 0.44528499245643616
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03564136485894044,
+      "compression/movement_sparsity/importance_threshold": -0.39990799967032353,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17110618948936462,
+      "epoch": 4.63,
+      "learning_rate": 2.4720962056356776e-07,
+      "loss": 0.177,
+      "step": 12810,
+      "task_loss": 0.3735952079296112
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03570059146027532,
+      "compression/movement_sparsity/importance_threshold": -0.39910124582930534,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14698469638824463,
+      "epoch": 4.63,
+      "learning_rate": 2.4596534461072025e-07,
+      "loss": 0.1644,
+      "step": 12820,
+      "task_loss": 0.2619709074497223
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03575973835419833,
+      "compression/movement_sparsity/importance_threshold": -0.3982955777210361,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14263629913330078,
+      "epoch": 4.64,
+      "learning_rate": 2.4472376869728286e-07,
+      "loss": 0.1668,
+      "step": 12830,
+      "task_loss": 0.20229429006576538
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03581880559438087,
+      "compression/movement_sparsity/importance_threshold": -0.39749099461443205,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1636548638343811,
+      "epoch": 4.64,
+      "learning_rate": 2.4348489726907773e-07,
+      "loss": 0.1836,
+      "step": 12840,
+      "task_loss": 0.6526674628257751
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03587779323449438,
+      "compression/movement_sparsity/importance_threshold": -0.396687495778409,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17002159357070923,
+      "epoch": 4.64,
+      "learning_rate": 2.422487347622425e-07,
+      "loss": 0.1933,
+      "step": 12850,
+      "task_loss": 0.3556768298149109
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035936701328210245,
+      "compression/movement_sparsity/importance_threshold": -0.3958850804818833,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13383722305297852,
+      "epoch": 4.65,
+      "learning_rate": 2.410152856032154e-07,
+      "loss": 0.1743,
+      "step": 12860,
+      "task_loss": 0.4999997615814209
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.035995529929199875,
+      "compression/movement_sparsity/importance_threshold": -0.39508374799377105,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16238951683044434,
+      "epoch": 4.65,
+      "learning_rate": 2.397845542087177e-07,
+      "loss": 0.1743,
+      "step": 12870,
+      "task_loss": 0.3286881744861603
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0360542790911347,
+      "compression/movement_sparsity/importance_threshold": -0.3942834975829879,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1793985217809677,
+      "epoch": 4.65,
+      "learning_rate": 2.385565449857401e-07,
+      "loss": 0.1743,
+      "step": 12880,
+      "task_loss": 0.7459797263145447
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.036112948867686116,
+      "compression/movement_sparsity/importance_threshold": -0.39348432851845033,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18460488319396973,
+      "epoch": 4.66,
+      "learning_rate": 2.3733126233152456e-07,
+      "loss": 0.1882,
+      "step": 12890,
+      "task_loss": 0.3585508465766907
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03617153931252552,
+      "compression/movement_sparsity/importance_threshold": -0.39268624006907443,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15785962343215942,
+      "epoch": 4.66,
+      "learning_rate": 2.3610871063355065e-07,
+      "loss": 0.187,
+      "step": 12900,
+      "task_loss": 0.519625723361969
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03623005047932436,
+      "compression/movement_sparsity/importance_threshold": -0.3918892315037759,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14596977829933167,
+      "epoch": 4.67,
+      "learning_rate": 2.3488889426951907e-07,
+      "loss": 0.1701,
+      "step": 12910,
+      "task_loss": 0.41778382658958435
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03628848242175402,
+      "compression/movement_sparsity/importance_threshold": -0.3910933020914711,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17587855458259583,
+      "epoch": 4.67,
+      "learning_rate": 2.336718176073349e-07,
+      "loss": 0.1728,
+      "step": 12920,
+      "task_loss": 0.8074888586997986
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03634683519348591,
+      "compression/movement_sparsity/importance_threshold": -0.3902984511010759,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12496951222419739,
+      "epoch": 4.67,
+      "learning_rate": 2.32457485005094e-07,
+      "loss": 0.1697,
+      "step": 12930,
+      "task_loss": 0.2537425756454468
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03640510884819145,
+      "compression/movement_sparsity/importance_threshold": -0.3895046778015065,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14235326647758484,
+      "epoch": 4.68,
+      "learning_rate": 2.3124590081106553e-07,
+      "loss": 0.1806,
+      "step": 12940,
+      "task_loss": 0.3784465789794922
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03646330343954205,
+      "compression/movement_sparsity/importance_threshold": -0.38871198146167896,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14437982439994812,
+      "epoch": 4.68,
+      "learning_rate": 2.300370693636775e-07,
+      "loss": 0.1776,
+      "step": 12950,
+      "task_loss": 0.41959238052368164
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.036521419021209124,
+      "compression/movement_sparsity/importance_threshold": -0.38792036135050934,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1669291853904724,
+      "epoch": 4.68,
+      "learning_rate": 2.2883099499150116e-07,
+      "loss": 0.1741,
+      "step": 12960,
+      "task_loss": 0.8136731386184692
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.036579455646864066,
+      "compression/movement_sparsity/importance_threshold": -0.38712981673691366,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13533678650856018,
+      "epoch": 4.69,
+      "learning_rate": 2.276276820132349e-07,
+      "loss": 0.1852,
+      "step": 12970,
+      "task_loss": 0.2773071527481079
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0366374133701783,
+      "compression/movement_sparsity/importance_threshold": -0.38634034688980806,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17692357301712036,
+      "epoch": 4.69,
+      "learning_rate": 2.264271347376895e-07,
+      "loss": 0.1635,
+      "step": 12980,
+      "task_loss": 0.3910565972328186
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03669529224482323,
+      "compression/movement_sparsity/importance_threshold": -0.38555195107810863,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18977247178554535,
+      "epoch": 4.69,
+      "learning_rate": 2.252293574637717e-07,
+      "loss": 0.1751,
+      "step": 12990,
+      "task_loss": 0.4595882296562195
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03675309232447028,
+      "compression/movement_sparsity/importance_threshold": -0.38476462857073124,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1279372274875641,
+      "epoch": 4.7,
+      "learning_rate": 2.2403435448047014e-07,
+      "loss": 0.1708,
+      "step": 13000,
+      "task_loss": 0.4735584557056427
+    },
+    {
+      "epoch": 4.7,
+      "eval_exact_match": 83.4720908230842,
+      "eval_f1": 89.90774706672684,
+      "step": 13000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03681081366279085,
+      "compression/movement_sparsity/importance_threshold": -0.3839783786365921,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15371698141098022,
+      "epoch": 4.7,
+      "learning_rate": 2.228421300668386e-07,
+      "loss": 0.1755,
+      "step": 13010,
+      "task_loss": 0.5671071410179138
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03686845631345635,
+      "compression/movement_sparsity/importance_threshold": -0.38319320054460726,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14245186746120453,
+      "epoch": 4.71,
+      "learning_rate": 2.2165268849198205e-07,
+      "loss": 0.1774,
+      "step": 13020,
+      "task_loss": 0.5267888307571411
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03692602033013819,
+      "compression/movement_sparsity/importance_threshold": -0.3824090935636929,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1692107617855072,
+      "epoch": 4.71,
+      "learning_rate": 2.2046603401504082e-07,
+      "loss": 0.1713,
+      "step": 13030,
+      "task_loss": 0.4950706362724304
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.036983505766507795,
+      "compression/movement_sparsity/importance_threshold": -0.38162605696276486,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1489468812942505,
+      "epoch": 4.71,
+      "learning_rate": 2.192821708851741e-07,
+      "loss": 0.1798,
+      "step": 13040,
+      "task_loss": 0.28536754846572876
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03704091267623654,
+      "compression/movement_sparsity/importance_threshold": -0.3808440900107394,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1268996000289917,
+      "epoch": 4.72,
+      "learning_rate": 2.181011033415473e-07,
+      "loss": 0.165,
+      "step": 13050,
+      "task_loss": 0.2892007827758789
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03709824111299588,
+      "compression/movement_sparsity/importance_threshold": -0.3800631919765325,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1905529797077179,
+      "epoch": 4.72,
+      "learning_rate": 2.1692283561331414e-07,
+      "loss": 0.1896,
+      "step": 13060,
+      "task_loss": 0.5020818710327148
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03715549113045719,
+      "compression/movement_sparsity/importance_threshold": -0.3792833621290602,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11118581891059875,
+      "epoch": 4.72,
+      "learning_rate": 2.157473719196038e-07,
+      "loss": 0.1721,
+      "step": 13070,
+      "task_loss": 0.2518026828765869
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03721266278229191,
+      "compression/movement_sparsity/importance_threshold": -0.3785045997372386,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14366507530212402,
+      "epoch": 4.73,
+      "learning_rate": 2.145747164695041e-07,
+      "loss": 0.1898,
+      "step": 13080,
+      "task_loss": 0.4140687584877014
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03726975612217143,
+      "compression/movement_sparsity/importance_threshold": -0.37772690406998377,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13824304938316345,
+      "epoch": 4.73,
+      "learning_rate": 2.1340487346204762e-07,
+      "loss": 0.1739,
+      "step": 13090,
+      "task_loss": 0.3569027781486511
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03732677120376716,
+      "compression/movement_sparsity/importance_threshold": -0.37695027439621187,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13565212488174438,
+      "epoch": 4.73,
+      "learning_rate": 2.1223784708619608e-07,
+      "loss": 0.1727,
+      "step": 13100,
+      "task_loss": 0.4583956003189087
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.037383708080750526,
+      "compression/movement_sparsity/importance_threshold": -0.3761747099848388,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15867725014686584,
+      "epoch": 4.74,
+      "learning_rate": 2.1107364152082507e-07,
+      "loss": 0.1761,
+      "step": 13110,
+      "task_loss": 0.2641053795814514
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.037440566806792926,
+      "compression/movement_sparsity/importance_threshold": -0.37540021010478075,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1482830047607422,
+      "epoch": 4.74,
+      "learning_rate": 2.099122609347097e-07,
+      "loss": 0.1914,
+      "step": 13120,
+      "task_loss": 0.7968321442604065
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03749734743556577,
+      "compression/movement_sparsity/importance_threshold": -0.3746267740249538,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2047840803861618,
+      "epoch": 4.75,
+      "learning_rate": 2.0875370948650973e-07,
+      "loss": 0.1966,
+      "step": 13130,
+      "task_loss": 0.49344414472579956
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03755405002074048,
+      "compression/movement_sparsity/importance_threshold": -0.3738544010142738,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1491725742816925,
+      "epoch": 4.75,
+      "learning_rate": 2.0759799132475365e-07,
+      "loss": 0.1798,
+      "step": 13140,
+      "task_loss": 0.4386056661605835
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03761067461598845,
+      "compression/movement_sparsity/importance_threshold": -0.3730830903416571,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17659732699394226,
+      "epoch": 4.75,
+      "learning_rate": 2.0644511058782553e-07,
+      "loss": 0.182,
+      "step": 13150,
+      "task_loss": 0.32818663120269775
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.037667221274981115,
+      "compression/movement_sparsity/importance_threshold": -0.3723128412760196,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16805681586265564,
+      "epoch": 4.76,
+      "learning_rate": 2.0529507140394798e-07,
+      "loss": 0.1699,
+      "step": 13160,
+      "task_loss": 0.23117676377296448
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03772369005138986,
+      "compression/movement_sparsity/importance_threshold": -0.37154365308627746,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15759176015853882,
+      "epoch": 4.76,
+      "learning_rate": 2.0414787789116994e-07,
+      "loss": 0.175,
+      "step": 13170,
+      "task_loss": 0.5075294375419617
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03778008099888611,
+      "compression/movement_sparsity/importance_threshold": -0.3707755250413466,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16308321058750153,
+      "epoch": 4.76,
+      "learning_rate": 2.0300353415734927e-07,
+      "loss": 0.1767,
+      "step": 13180,
+      "task_loss": 0.3911818265914917
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.037836394171141256,
+      "compression/movement_sparsity/importance_threshold": -0.37000845641014346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1465543508529663,
+      "epoch": 4.77,
+      "learning_rate": 2.0186204430014042e-07,
+      "loss": 0.1699,
+      "step": 13190,
+      "task_loss": 0.4668183922767639
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03789262962182674,
+      "compression/movement_sparsity/importance_threshold": -0.36924244646158355,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16283223032951355,
+      "epoch": 4.77,
+      "learning_rate": 2.0072341240697842e-07,
+      "loss": 0.1668,
+      "step": 13200,
+      "task_loss": 0.5066724419593811
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.037948787404613965,
+      "compression/movement_sparsity/importance_threshold": -0.3684774944645832,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2064799666404724,
+      "epoch": 4.77,
+      "learning_rate": 1.995876425550642e-07,
+      "loss": 0.1858,
+      "step": 13210,
+      "task_loss": 0.6612112522125244
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03800486757317432,
+      "compression/movement_sparsity/importance_threshold": -0.3677135996880586,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1432875096797943,
+      "epoch": 4.78,
+      "learning_rate": 1.9845473881135112e-07,
+      "loss": 0.1654,
+      "step": 13220,
+      "task_loss": 0.21210426092147827
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03806087018117923,
+      "compression/movement_sparsity/importance_threshold": -0.36695076140092575,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.10303863883018494,
+      "epoch": 4.78,
+      "learning_rate": 1.9732470523252832e-07,
+      "loss": 0.1533,
+      "step": 13230,
+      "task_loss": 0.14866429567337036
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03811679528230011,
+      "compression/movement_sparsity/importance_threshold": -0.36618897887210056,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12185746431350708,
+      "epoch": 4.78,
+      "learning_rate": 1.9619754586500859e-07,
+      "loss": 0.1716,
+      "step": 13240,
+      "task_loss": 0.6474106311798096
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03817264293020836,
+      "compression/movement_sparsity/importance_threshold": -0.3654282513704993,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18789950013160706,
+      "epoch": 4.79,
+      "learning_rate": 1.9507326474491258e-07,
+      "loss": 0.1776,
+      "step": 13250,
+      "task_loss": 0.5531033873558044
+    },
+    {
+      "epoch": 4.79,
+      "eval_exact_match": 83.50993377483444,
+      "eval_f1": 89.93742165413668,
+      "step": 13250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0382284131785754,
+      "compression/movement_sparsity/importance_threshold": -0.36466857816503795,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1531079113483429,
+      "epoch": 4.79,
+      "learning_rate": 1.93951865898054e-07,
+      "loss": 0.1685,
+      "step": 13260,
+      "task_loss": 0.2040596902370453
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.038284106081072626,
+      "compression/movement_sparsity/importance_threshold": -0.3639099585246327,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11716160178184509,
+      "epoch": 4.8,
+      "learning_rate": 1.9283335333992655e-07,
+      "loss": 0.1904,
+      "step": 13270,
+      "task_loss": 0.36657923460006714
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03833972169137147,
+      "compression/movement_sparsity/importance_threshold": -0.36315239171819935,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1429518759250641,
+      "epoch": 4.8,
+      "learning_rate": 1.9171773107568766e-07,
+      "loss": 0.1871,
+      "step": 13280,
+      "task_loss": 0.605373740196228
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03839526006314333,
+      "compression/movement_sparsity/importance_threshold": -0.36239587701465403,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14882807433605194,
+      "epoch": 4.8,
+      "learning_rate": 1.906050031001466e-07,
+      "loss": 0.1859,
+      "step": 13290,
+      "task_loss": 0.2876370847225189
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03845072125005961,
+      "compression/movement_sparsity/importance_threshold": -0.3616404136829131,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15496216714382172,
+      "epoch": 4.81,
+      "learning_rate": 1.8949517339774746e-07,
+      "loss": 0.1685,
+      "step": 13300,
+      "task_loss": 0.49225640296936035
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.038506105305791745,
+      "compression/movement_sparsity/importance_threshold": -0.36088600099189216,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14122232794761658,
+      "epoch": 4.81,
+      "learning_rate": 1.8838824594255708e-07,
+      "loss": 0.1756,
+      "step": 13310,
+      "task_loss": 0.3297005295753479
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03856141228401112,
+      "compression/movement_sparsity/importance_threshold": -0.36013263821050767,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.167262464761734,
+      "epoch": 4.81,
+      "learning_rate": 1.8728422469824977e-07,
+      "loss": 0.1751,
+      "step": 13320,
+      "task_loss": 0.6074428558349609
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.038616642238389155,
+      "compression/movement_sparsity/importance_threshold": -0.35938032460767566,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13553129136562347,
+      "epoch": 4.82,
+      "learning_rate": 1.8618311361809324e-07,
+      "loss": 0.1715,
+      "step": 13330,
+      "task_loss": 0.1803513467311859
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03867179522259727,
+      "compression/movement_sparsity/importance_threshold": -0.35862905945231194,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14316369593143463,
+      "epoch": 4.82,
+      "learning_rate": 1.8508491664493465e-07,
+      "loss": 0.1755,
+      "step": 13340,
+      "task_loss": 0.2262798398733139
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03872687129030685,
+      "compression/movement_sparsity/importance_threshold": -0.35787884201333287,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16255033016204834,
+      "epoch": 4.82,
+      "learning_rate": 1.839896377111859e-07,
+      "loss": 0.18,
+      "step": 13350,
+      "task_loss": 0.5666951537132263
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03878187049518934,
+      "compression/movement_sparsity/importance_threshold": -0.35712967155965425,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16210150718688965,
+      "epoch": 4.83,
+      "learning_rate": 1.828972807388106e-07,
+      "loss": 0.1819,
+      "step": 13360,
+      "task_loss": 0.6401165723800659
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.038836792890916114,
+      "compression/movement_sparsity/importance_threshold": -0.35638154736019234,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1632276177406311,
+      "epoch": 4.83,
+      "learning_rate": 1.8180784963930928e-07,
+      "loss": 0.1725,
+      "step": 13370,
+      "task_loss": 0.457368403673172
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03889163853115862,
+      "compression/movement_sparsity/importance_threshold": -0.35563446868386306,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1731918752193451,
+      "epoch": 4.84,
+      "learning_rate": 1.8072134831370512e-07,
+      "loss": 0.1622,
+      "step": 13380,
+      "task_loss": 0.352400541305542
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03894640746958824,
+      "compression/movement_sparsity/importance_threshold": -0.35488843479958265,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18019556999206543,
+      "epoch": 4.84,
+      "learning_rate": 1.796377806525311e-07,
+      "loss": 0.1895,
+      "step": 13390,
+      "task_loss": 0.44412076473236084
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03900109975987639,
+      "compression/movement_sparsity/importance_threshold": -0.35414344497626715,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11305814981460571,
+      "epoch": 4.84,
+      "learning_rate": 1.7855715053581445e-07,
+      "loss": 0.1765,
+      "step": 13400,
+      "task_loss": 0.5358411073684692
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03905571545569449,
+      "compression/movement_sparsity/importance_threshold": -0.3533994984828325,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15808236598968506,
+      "epoch": 4.85,
+      "learning_rate": 1.7747946183306471e-07,
+      "loss": 0.1693,
+      "step": 13410,
+      "task_loss": 0.43483972549438477
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03911025461071394,
+      "compression/movement_sparsity/importance_threshold": -0.35265659458819476,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15852884948253632,
+      "epoch": 4.85,
+      "learning_rate": 1.764047184032579e-07,
+      "loss": 0.184,
+      "step": 13420,
+      "task_loss": 0.6633070707321167
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03916471727860616,
+      "compression/movement_sparsity/importance_threshold": -0.35191473256127015,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1737813502550125,
+      "epoch": 4.85,
+      "learning_rate": 1.7533292409482414e-07,
+      "loss": 0.1646,
+      "step": 13430,
+      "task_loss": 0.3524114489555359
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.039219103513042565,
+      "compression/movement_sparsity/importance_threshold": -0.35117391167097467,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15978504717350006,
+      "epoch": 4.86,
+      "learning_rate": 1.7426408274563343e-07,
+      "loss": 0.177,
+      "step": 13440,
+      "task_loss": 0.5557321906089783
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03927341336769454,
+      "compression/movement_sparsity/importance_threshold": -0.35043413118622435,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1573951095342636,
+      "epoch": 4.86,
+      "learning_rate": 1.7319819818298166e-07,
+      "loss": 0.1765,
+      "step": 13450,
+      "task_loss": 0.5514523983001709
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03932764689623351,
+      "compression/movement_sparsity/importance_threshold": -0.34969539037593544,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16307415068149567,
+      "epoch": 4.86,
+      "learning_rate": 1.7213527422357732e-07,
+      "loss": 0.1692,
+      "step": 13460,
+      "task_loss": 0.3270409107208252
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.039381804152330925,
+      "compression/movement_sparsity/importance_threshold": -0.3489576885090234,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1804170459508896,
+      "epoch": 4.87,
+      "learning_rate": 1.7107531467352697e-07,
+      "loss": 0.1793,
+      "step": 13470,
+      "task_loss": 0.3031477630138397
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03943588518965812,
+      "compression/movement_sparsity/importance_threshold": -0.3482210248544052,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.176797017455101,
+      "epoch": 4.87,
+      "learning_rate": 1.70018323328323e-07,
+      "loss": 0.1721,
+      "step": 13480,
+      "task_loss": 0.528610348701477
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03948989006188655,
+      "compression/movement_sparsity/importance_threshold": -0.34748539868099637,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14670194685459137,
+      "epoch": 4.88,
+      "learning_rate": 1.6896430397282914e-07,
+      "loss": 0.1938,
+      "step": 13490,
+      "task_loss": 0.41166549921035767
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.039543818822687635,
+      "compression/movement_sparsity/importance_threshold": -0.34675080925771296,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20626819133758545,
+      "epoch": 4.88,
+      "learning_rate": 1.679132603812663e-07,
+      "loss": 0.1797,
+      "step": 13500,
+      "task_loss": 0.8171520233154297
+    },
+    {
+      "epoch": 4.88,
+      "eval_exact_match": 83.61400189214758,
+      "eval_f1": 90.0307786000334,
+      "step": 13500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.039597671525732764,
+      "compression/movement_sparsity/importance_threshold": -0.3460172558534711,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15772680938243866,
+      "epoch": 4.88,
+      "learning_rate": 1.6686519631720098e-07,
+      "loss": 0.1889,
+      "step": 13510,
+      "task_loss": 0.24707984924316406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03965144822469335,
+      "compression/movement_sparsity/importance_threshold": -0.34528473773718693,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17334116995334625,
+      "epoch": 4.89,
+      "learning_rate": 1.658201155335295e-07,
+      "loss": 0.1797,
+      "step": 13520,
+      "task_loss": 0.5400213003158569
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03970514897324082,
+      "compression/movement_sparsity/importance_threshold": -0.3445532541777765,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1472284197807312,
+      "epoch": 4.89,
+      "learning_rate": 1.6477802177246646e-07,
+      "loss": 0.171,
+      "step": 13530,
+      "task_loss": 0.5143538117408752
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03975877382504656,
+      "compression/movement_sparsity/importance_threshold": -0.3438228044441558,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17164795100688934,
+      "epoch": 4.89,
+      "learning_rate": 1.637389187655306e-07,
+      "loss": 0.1743,
+      "step": 13540,
+      "task_loss": 0.505851149559021
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.039812322833782,
+      "compression/movement_sparsity/importance_threshold": -0.343093387805241,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17246219515800476,
+      "epoch": 4.9,
+      "learning_rate": 1.627028102335305e-07,
+      "loss": 0.1844,
+      "step": 13550,
+      "task_loss": 0.43365949392318726
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.039865796053118525,
+      "compression/movement_sparsity/importance_threshold": -0.34236500352994836,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17335930466651917,
+      "epoch": 4.9,
+      "learning_rate": 1.616696998865531e-07,
+      "loss": 0.1656,
+      "step": 13560,
+      "task_loss": 0.40370243787765503
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.039919193536727585,
+      "compression/movement_sparsity/importance_threshold": -0.34163765088719333,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16594436764717102,
+      "epoch": 4.9,
+      "learning_rate": 1.60639591423949e-07,
+      "loss": 0.1728,
+      "step": 13570,
+      "task_loss": 0.3566591441631317
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.03997251533828056,
+      "compression/movement_sparsity/importance_threshold": -0.3409113291458926,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1836821734905243,
+      "epoch": 4.91,
+      "learning_rate": 1.596124885343203e-07,
+      "loss": 0.1792,
+      "step": 13580,
+      "task_loss": 0.3985489308834076
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04002576151144888,
+      "compression/movement_sparsity/importance_threshold": -0.3401860375749618,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22170782089233398,
+      "epoch": 4.91,
+      "learning_rate": 1.5858839489550546e-07,
+      "loss": 0.1794,
+      "step": 13590,
+      "task_loss": 0.5840495824813843
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.040078932109903945,
+      "compression/movement_sparsity/importance_threshold": -0.33946177544331735,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18641307950019836,
+      "epoch": 4.92,
+      "learning_rate": 1.575673141745689e-07,
+      "loss": 0.176,
+      "step": 13600,
+      "task_loss": 0.5444910526275635
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04013202718731717,
+      "compression/movement_sparsity/importance_threshold": -0.33873854201987497,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17240336537361145,
+      "epoch": 4.92,
+      "learning_rate": 1.5654925002778574e-07,
+      "loss": 0.1887,
+      "step": 13610,
+      "task_loss": 0.4279804825782776
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04018504679735995,
+      "compression/movement_sparsity/importance_threshold": -0.3380163365735511,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16231310367584229,
+      "epoch": 4.92,
+      "learning_rate": 1.5553420610062905e-07,
+      "loss": 0.1801,
+      "step": 13620,
+      "task_loss": 0.3823118805885315
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04023799099370372,
+      "compression/movement_sparsity/importance_threshold": -0.3372951583732614,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16496533155441284,
+      "epoch": 4.93,
+      "learning_rate": 1.54522186027758e-07,
+      "loss": 0.1814,
+      "step": 13630,
+      "task_loss": 0.3801088035106659
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04029085983001987,
+      "compression/movement_sparsity/importance_threshold": -0.3365750066879223,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1552436500787735,
+      "epoch": 4.93,
+      "learning_rate": 1.5351319343300294e-07,
+      "loss": 0.1735,
+      "step": 13640,
+      "task_loss": 0.8039931058883667
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.040343653359979824,
+      "compression/movement_sparsity/importance_threshold": -0.3358558807864498,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1522938311100006,
+      "epoch": 4.93,
+      "learning_rate": 1.5250723192935433e-07,
+      "loss": 0.1814,
+      "step": 13650,
+      "task_loss": 0.6675360798835754
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04039637163725498,
+      "compression/movement_sparsity/importance_threshold": -0.3351377799377597,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17480003833770752,
+      "epoch": 4.94,
+      "learning_rate": 1.5150430511894862e-07,
+      "loss": 0.1833,
+      "step": 13660,
+      "task_loss": 0.4187951683998108
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04044901471551676,
+      "compression/movement_sparsity/importance_threshold": -0.33442070341076835,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13274918496608734,
+      "epoch": 4.94,
+      "learning_rate": 1.5050441659305558e-07,
+      "loss": 0.1728,
+      "step": 13670,
+      "task_loss": 0.46560001373291016
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.040501582648436577,
+      "compression/movement_sparsity/importance_threshold": -0.3337046504743917,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18608583509922028,
+      "epoch": 4.94,
+      "learning_rate": 1.495075699320658e-07,
+      "loss": 0.1855,
+      "step": 13680,
+      "task_loss": 0.5671523213386536
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04055407548968582,
+      "compression/movement_sparsity/importance_threshold": -0.332989620397546,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19633609056472778,
+      "epoch": 4.95,
+      "learning_rate": 1.4851376870547705e-07,
+      "loss": 0.1814,
+      "step": 13690,
+      "task_loss": 0.31386256217956543
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04060649329293593,
+      "compression/movement_sparsity/importance_threshold": -0.33227561244914694,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17011404037475586,
+      "epoch": 4.95,
+      "learning_rate": 1.475230164718827e-07,
+      "loss": 0.1851,
+      "step": 13700,
+      "task_loss": 0.3444925546646118
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.040658836111858304,
+      "compression/movement_sparsity/importance_threshold": -0.3315626258981109,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17365840077400208,
+      "epoch": 4.95,
+      "learning_rate": 1.4653531677895748e-07,
+      "loss": 0.1759,
+      "step": 13710,
+      "task_loss": 0.4338461756706238
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04071110400012435,
+      "compression/movement_sparsity/importance_threshold": -0.3308506600133537,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16433964669704437,
+      "epoch": 4.96,
+      "learning_rate": 1.455506731634466e-07,
+      "loss": 0.1771,
+      "step": 13720,
+      "task_loss": 0.1609778255224228
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.040763297011405464,
+      "compression/movement_sparsity/importance_threshold": -0.33013971406379183,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16652318835258484,
+      "epoch": 4.96,
+      "learning_rate": 1.445690891511515e-07,
+      "loss": 0.1792,
+      "step": 13730,
+      "task_loss": 0.5048503279685974
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04081541519937309,
+      "compression/movement_sparsity/importance_threshold": -0.3294297873183408,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17034050822257996,
+      "epoch": 4.97,
+      "learning_rate": 1.4359056825691785e-07,
+      "loss": 0.1854,
+      "step": 13740,
+      "task_loss": 0.6351929903030396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0408674586176986,
+      "compression/movement_sparsity/importance_threshold": -0.3287208790459173,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14872363209724426,
+      "epoch": 4.97,
+      "learning_rate": 1.4261511398462333e-07,
+      "loss": 0.1821,
+      "step": 13750,
+      "task_loss": 0.3965833783149719
+    },
+    {
+      "epoch": 4.97,
+      "eval_exact_match": 83.62346263008514,
+      "eval_f1": 89.91764481115209,
+      "step": 13750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04091942732005344,
+      "compression/movement_sparsity/importance_threshold": -0.3280129885154368,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14365430176258087,
+      "epoch": 4.97,
+      "learning_rate": 1.4164272982716385e-07,
+      "loss": 0.1755,
+      "step": 13760,
+      "task_loss": 0.46597981452941895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04097132136010901,
+      "compression/movement_sparsity/importance_threshold": -0.32730611499581574,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13839992880821228,
+      "epoch": 4.98,
+      "learning_rate": 1.4067341926644283e-07,
+      "loss": 0.172,
+      "step": 13770,
+      "task_loss": 0.33191508054733276
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04102314079153671,
+      "compression/movement_sparsity/importance_threshold": -0.32660025775597,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14204658567905426,
+      "epoch": 4.98,
+      "learning_rate": 1.3970718577335728e-07,
+      "loss": 0.1765,
+      "step": 13780,
+      "task_loss": 0.2808571457862854
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04107488566800795,
+      "compression/movement_sparsity/importance_threshold": -0.32589541606481587,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1467570811510086,
+      "epoch": 4.98,
+      "learning_rate": 1.3874403280778602e-07,
+      "loss": 0.1718,
+      "step": 13790,
+      "task_loss": 0.19776900112628937
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.041126556043194165,
+      "compression/movement_sparsity/importance_threshold": -0.325191589191269,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16088761389255524,
+      "epoch": 4.99,
+      "learning_rate": 1.377839638185774e-07,
+      "loss": 0.1789,
+      "step": 13800,
+      "task_loss": 0.6403120756149292
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04117815197076674,
+      "compression/movement_sparsity/importance_threshold": -0.3244887764042459,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15906648337841034,
+      "epoch": 4.99,
+      "learning_rate": 1.3682698224353584e-07,
+      "loss": 0.1813,
+      "step": 13810,
+      "task_loss": 0.4403289556503296
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.041229673504397095,
+      "compression/movement_sparsity/importance_threshold": -0.32378697697266245,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1257646381855011,
+      "epoch": 4.99,
+      "learning_rate": 1.3587309150941152e-07,
+      "loss": 0.177,
+      "step": 13820,
+      "task_loss": 0.3140348196029663
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04128112069775663,
+      "compression/movement_sparsity/importance_threshold": -0.32308619016543483,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21181027591228485,
+      "epoch": 5.0,
+      "learning_rate": 1.349222950318859e-07,
+      "loss": 0.1915,
+      "step": 13830,
+      "task_loss": 0.4248882830142975
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04133249360451678,
+      "compression/movement_sparsity/importance_threshold": -0.3223864152514787,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1628672480583191,
+      "epoch": 5.0,
+      "learning_rate": 1.3397459621556128e-07,
+      "loss": 0.1719,
+      "step": 13840,
+      "task_loss": 0.3244702219963074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04138379227834893,
+      "compression/movement_sparsity/importance_threshold": -0.3216876514997108,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13734124600887299,
+      "epoch": 5.01,
+      "learning_rate": 1.3302999845394802e-07,
+      "loss": 0.1865,
+      "step": 13850,
+      "task_loss": 0.36722129583358765
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.041435016772924514,
+      "compression/movement_sparsity/importance_threshold": -0.32098989817904644,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1720079779624939,
+      "epoch": 5.01,
+      "learning_rate": 1.3208850512945135e-07,
+      "loss": 0.1831,
+      "step": 13860,
+      "task_loss": 0.3153786063194275
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04148616714191491,
+      "compression/movement_sparsity/importance_threshold": -0.32029315455840246,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1428808569908142,
+      "epoch": 5.01,
+      "learning_rate": 1.311501196133612e-07,
+      "loss": 0.1775,
+      "step": 13870,
+      "task_loss": 0.6260837912559509
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04153724343899157,
+      "compression/movement_sparsity/importance_threshold": -0.3195974199066942,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14632534980773926,
+      "epoch": 5.02,
+      "learning_rate": 1.3021484526583814e-07,
+      "loss": 0.1824,
+      "step": 13880,
+      "task_loss": 0.2916293740272522
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04158824571782587,
+      "compression/movement_sparsity/importance_threshold": -0.3189026934928383,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15432986617088318,
+      "epoch": 5.02,
+      "learning_rate": 1.2928268543590304e-07,
+      "loss": 0.1779,
+      "step": 13890,
+      "task_loss": 0.4513210654258728
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.041639174032089235,
+      "compression/movement_sparsity/importance_threshold": -0.3182089745857505,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1750912070274353,
+      "epoch": 5.02,
+      "learning_rate": 1.2835364346142397e-07,
+      "loss": 0.1778,
+      "step": 13900,
+      "task_loss": 0.5073824524879456
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04169002843545308,
+      "compression/movement_sparsity/importance_threshold": -0.31751626245434694,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19097644090652466,
+      "epoch": 5.03,
+      "learning_rate": 1.2742772266910485e-07,
+      "loss": 0.1807,
+      "step": 13910,
+      "task_loss": 0.4349386692047119
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04174080898158881,
+      "compression/movement_sparsity/importance_threshold": -0.3168245563675438,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.185117706656456,
+      "epoch": 5.03,
+      "learning_rate": 1.265049263744734e-07,
+      "loss": 0.1708,
+      "step": 13920,
+      "task_loss": 0.3032917380332947
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04179151572416783,
+      "compression/movement_sparsity/importance_threshold": -0.3161338555942569,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1254778802394867,
+      "epoch": 5.03,
+      "learning_rate": 1.2558525788186834e-07,
+      "loss": 0.1649,
+      "step": 13930,
+      "task_loss": 0.5277553200721741
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.041842148716861566,
+      "compression/movement_sparsity/importance_threshold": -0.31544415940340254,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1639249622821808,
+      "epoch": 5.04,
+      "learning_rate": 1.2466872048442935e-07,
+      "loss": 0.1671,
+      "step": 13940,
+      "task_loss": 0.4619181752204895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04189270801334141,
+      "compression/movement_sparsity/importance_threshold": -0.3147554670638968,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15116430819034576,
+      "epoch": 5.04,
+      "learning_rate": 1.237553174640842e-07,
+      "loss": 0.1769,
+      "step": 13950,
+      "task_loss": 0.2680996358394623
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.041943193667278784,
+      "compression/movement_sparsity/importance_threshold": -0.31406777784465545,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15021368861198425,
+      "epoch": 5.05,
+      "learning_rate": 1.228450520915364e-07,
+      "loss": 0.1827,
+      "step": 13960,
+      "task_loss": 0.4265400767326355
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0419936057323451,
+      "compression/movement_sparsity/importance_threshold": -0.3133810910145949,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1929803192615509,
+      "epoch": 5.05,
+      "learning_rate": 1.21937927626255e-07,
+      "loss": 0.1773,
+      "step": 13970,
+      "task_loss": 0.5100224614143372
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04204394426221176,
+      "compression/movement_sparsity/importance_threshold": -0.312695405842631,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15454885363578796,
+      "epoch": 5.05,
+      "learning_rate": 1.2103394731646143e-07,
+      "loss": 0.1715,
+      "step": 13980,
+      "task_loss": 0.6407804489135742
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04209420931055017,
+      "compression/movement_sparsity/importance_threshold": -0.3120107215976802,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17369097471237183,
+      "epoch": 5.06,
+      "learning_rate": 1.2013311439911954e-07,
+      "loss": 0.1763,
+      "step": 13990,
+      "task_loss": 0.4219602346420288
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042144400931031764,
+      "compression/movement_sparsity/importance_threshold": -0.31132703754865787,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1915154606103897,
+      "epoch": 5.06,
+      "learning_rate": 1.1923543209992183e-07,
+      "loss": 0.1761,
+      "step": 14000,
+      "task_loss": 0.3387451767921448
+    },
+    {
+      "epoch": 5.06,
+      "eval_exact_match": 83.67076631977294,
+      "eval_f1": 90.03655684421615,
+      "step": 14000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04219451917732794,
+      "compression/movement_sparsity/importance_threshold": -0.31064435296448056,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.153361976146698,
+      "epoch": 5.06,
+      "learning_rate": 1.1834090363327986e-07,
+      "loss": 0.1855,
+      "step": 14010,
+      "task_loss": 0.576560378074646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042244564103110095,
+      "compression/movement_sparsity/importance_threshold": -0.3099626671140644,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14965105056762695,
+      "epoch": 5.07,
+      "learning_rate": 1.174495322023118e-07,
+      "loss": 0.1879,
+      "step": 14020,
+      "task_loss": 0.4468023478984833
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042294535762049654,
+      "compression/movement_sparsity/importance_threshold": -0.3092819792663253,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15595000982284546,
+      "epoch": 5.07,
+      "learning_rate": 1.1656132099883131e-07,
+      "loss": 0.1716,
+      "step": 14030,
+      "task_loss": 0.15840017795562744
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04234443420781801,
+      "compression/movement_sparsity/importance_threshold": -0.30860228869017936,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.147873193025589,
+      "epoch": 5.07,
+      "learning_rate": 1.1567627320333594e-07,
+      "loss": 0.1864,
+      "step": 14040,
+      "task_loss": 0.8370780348777771
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04239425949408662,
+      "compression/movement_sparsity/importance_threshold": -0.30792359465454233,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15930218994617462,
+      "epoch": 5.08,
+      "learning_rate": 1.1479439198499519e-07,
+      "loss": 0.179,
+      "step": 14050,
+      "task_loss": 0.4646834135055542
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04244401167452685,
+      "compression/movement_sparsity/importance_threshold": -0.3072458964283309,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15202897787094116,
+      "epoch": 5.08,
+      "learning_rate": 1.1391568050164014e-07,
+      "loss": 0.1753,
+      "step": 14060,
+      "task_loss": 0.4561488628387451
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04249369080281012,
+      "compression/movement_sparsity/importance_threshold": -0.3065691932804606,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18747982382774353,
+      "epoch": 5.08,
+      "learning_rate": 1.1304014189975197e-07,
+      "loss": 0.1802,
+      "step": 14070,
+      "task_loss": 0.33272579312324524
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042543296932607846,
+      "compression/movement_sparsity/importance_threshold": -0.30589348447984777,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13845214247703552,
+      "epoch": 5.09,
+      "learning_rate": 1.1216777931444987e-07,
+      "loss": 0.1822,
+      "step": 14080,
+      "task_loss": 0.27083098888397217
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042592830117591435,
+      "compression/movement_sparsity/importance_threshold": -0.3052187692954085,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16344168782234192,
+      "epoch": 5.09,
+      "learning_rate": 1.1129859586948098e-07,
+      "loss": 0.1797,
+      "step": 14090,
+      "task_loss": 0.4010601043701172
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04264229041143231,
+      "compression/movement_sparsity/importance_threshold": -0.30454504699605844,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15759651362895966,
+      "epoch": 5.1,
+      "learning_rate": 1.1043259467720778e-07,
+      "loss": 0.1782,
+      "step": 14100,
+      "task_loss": 0.30105510354042053
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042691677867801855,
+      "compression/movement_sparsity/importance_threshold": -0.30387231685071436,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17411063611507416,
+      "epoch": 5.1,
+      "learning_rate": 1.0956977883859886e-07,
+      "loss": 0.1891,
+      "step": 14110,
+      "task_loss": 0.466052770614624
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0427409925403715,
+      "compression/movement_sparsity/importance_threshold": -0.3032005781282918,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11521792411804199,
+      "epoch": 5.1,
+      "learning_rate": 1.0871015144321571e-07,
+      "loss": 0.1681,
+      "step": 14120,
+      "task_loss": 0.5160799026489258
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042790234482812675,
+      "compression/movement_sparsity/importance_threshold": -0.30252983009770684,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1370161473751068,
+      "epoch": 5.11,
+      "learning_rate": 1.078537155692032e-07,
+      "loss": 0.1707,
+      "step": 14130,
+      "task_loss": 0.19232416152954102
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.042839403748796745,
+      "compression/movement_sparsity/importance_threshold": -0.3018600720278759,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14609548449516296,
+      "epoch": 5.11,
+      "learning_rate": 1.0700047428327818e-07,
+      "loss": 0.1588,
+      "step": 14140,
+      "task_loss": 0.476870059967041
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04288850039199515,
+      "compression/movement_sparsity/importance_threshold": -0.3011913031877147,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13242539763450623,
+      "epoch": 5.11,
+      "learning_rate": 1.0615043064071783e-07,
+      "loss": 0.1783,
+      "step": 14150,
+      "task_loss": 0.4068664014339447
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04293752446607929,
+      "compression/movement_sparsity/importance_threshold": -0.3005235228461395,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15072208642959595,
+      "epoch": 5.12,
+      "learning_rate": 1.0530358768534997e-07,
+      "loss": 0.1821,
+      "step": 14160,
+      "task_loss": 0.6981538534164429
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04298647602472058,
+      "compression/movement_sparsity/importance_threshold": -0.29985673027206616,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17192161083221436,
+      "epoch": 5.12,
+      "learning_rate": 1.0445994844954064e-07,
+      "loss": 0.1739,
+      "step": 14170,
+      "task_loss": 0.5850452184677124
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.043035355121590436,
+      "compression/movement_sparsity/importance_threshold": -0.299190924734411,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1931232213973999,
+      "epoch": 5.12,
+      "learning_rate": 1.0361951595418439e-07,
+      "loss": 0.1794,
+      "step": 14180,
+      "task_loss": 0.3741414248943329
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04308416181036027,
+      "compression/movement_sparsity/importance_threshold": -0.29852610550209,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14067162573337555,
+      "epoch": 5.13,
+      "learning_rate": 1.0278229320869336e-07,
+      "loss": 0.1783,
+      "step": 14190,
+      "task_loss": 0.3252699673175812
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04313289614470146,
+      "compression/movement_sparsity/importance_threshold": -0.29786227184401926,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21310460567474365,
+      "epoch": 5.13,
+      "learning_rate": 1.0194828321098569e-07,
+      "loss": 0.1935,
+      "step": 14200,
+      "task_loss": 0.5130503177642822
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.043181558178285465,
+      "compression/movement_sparsity/importance_threshold": -0.2971994230291146,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17947247624397278,
+      "epoch": 5.14,
+      "learning_rate": 1.0111748894747596e-07,
+      "loss": 0.1843,
+      "step": 14210,
+      "task_loss": 0.36428236961364746
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04323014796478367,
+      "compression/movement_sparsity/importance_threshold": -0.29653755832629225,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12573717534542084,
+      "epoch": 5.14,
+      "learning_rate": 1.0028991339306336e-07,
+      "loss": 0.1788,
+      "step": 14220,
+      "task_loss": 0.6074889898300171
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04327866555786748,
+      "compression/movement_sparsity/importance_threshold": -0.2958766770044685,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14682647585868835,
+      "epoch": 5.14,
+      "learning_rate": 9.946555951112178e-08,
+      "loss": 0.185,
+      "step": 14230,
+      "task_loss": 0.3594474196434021
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04332711101120833,
+      "compression/movement_sparsity/importance_threshold": -0.2952167783325591,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11430035531520844,
+      "epoch": 5.15,
+      "learning_rate": 9.864443025348934e-08,
+      "loss": 0.169,
+      "step": 14240,
+      "task_loss": 0.2298082858324051
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0433754843784776,
+      "compression/movement_sparsity/importance_threshold": -0.2945578615794803,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1614457666873932,
+      "epoch": 5.15,
+      "learning_rate": 9.782652856045648e-08,
+      "loss": 0.1708,
+      "step": 14250,
+      "task_loss": 0.7426341772079468
+    },
+    {
+      "epoch": 5.15,
+      "eval_exact_match": 83.74645222327341,
+      "eval_f1": 90.08076277207161,
+      "step": 14250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04342378571334672,
+      "compression/movement_sparsity/importance_threshold": -0.29389992601414805,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1826505959033966,
+      "epoch": 5.15,
+      "learning_rate": 9.701185736075756e-08,
+      "loss": 0.1722,
+      "step": 14260,
+      "task_loss": 0.6813669800758362
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.043472015069487085,
+      "compression/movement_sparsity/importance_threshold": -0.2932429709054786,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1705678105354309,
+      "epoch": 5.16,
+      "learning_rate": 9.620041957155834e-08,
+      "loss": 0.1868,
+      "step": 14270,
+      "task_loss": 0.464776873588562
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04352017250057013,
+      "compression/movement_sparsity/importance_threshold": -0.29258699552238776,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16456995904445648,
+      "epoch": 5.16,
+      "learning_rate": 9.539221809844722e-08,
+      "loss": 0.1777,
+      "step": 14280,
+      "task_loss": 0.4324108362197876
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04356825806026725,
+      "compression/movement_sparsity/importance_threshold": -0.29193199913379164,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17111265659332275,
+      "epoch": 5.16,
+      "learning_rate": 9.458725583542315e-08,
+      "loss": 0.1817,
+      "step": 14290,
+      "task_loss": 0.4643493592739105
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.043616271802249855,
+      "compression/movement_sparsity/importance_threshold": -0.29127798100860647,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1873432695865631,
+      "epoch": 5.17,
+      "learning_rate": 9.378553566488668e-08,
+      "loss": 0.1764,
+      "step": 14300,
+      "task_loss": 0.4464597702026367
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04366421378018936,
+      "compression/movement_sparsity/importance_threshold": -0.29062494041574827,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1443527191877365,
+      "epoch": 5.17,
+      "learning_rate": 9.298706045762927e-08,
+      "loss": 0.1753,
+      "step": 14310,
+      "task_loss": 0.3243370056152344
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04371208404775718,
+      "compression/movement_sparsity/importance_threshold": -0.28997287662413296,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13130953907966614,
+      "epoch": 5.18,
+      "learning_rate": 9.219183307282219e-08,
+      "loss": 0.1697,
+      "step": 14320,
+      "task_loss": 0.5415463447570801
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04375988265862469,
+      "compression/movement_sparsity/importance_threshold": -0.2893217889026771,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2080850899219513,
+      "epoch": 5.18,
+      "learning_rate": 9.139985635800784e-08,
+      "loss": 0.1908,
+      "step": 14330,
+      "task_loss": 0.3747154474258423
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04380760966646336,
+      "compression/movement_sparsity/importance_threshold": -0.288671676520296,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14363014698028564,
+      "epoch": 5.18,
+      "learning_rate": 9.061113314908764e-08,
+      "loss": 0.1722,
+      "step": 14340,
+      "task_loss": 0.6961146593093872
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04385526512494456,
+      "compression/movement_sparsity/importance_threshold": -0.2880225387459062,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16117852926254272,
+      "epoch": 5.19,
+      "learning_rate": 8.982566627031363e-08,
+      "loss": 0.1782,
+      "step": 14350,
+      "task_loss": 0.3901559114456177
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.043902849087739705,
+      "compression/movement_sparsity/importance_threshold": -0.28737437484842376,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1831967532634735,
+      "epoch": 5.19,
+      "learning_rate": 8.904345853427753e-08,
+      "loss": 0.1756,
+      "step": 14360,
+      "task_loss": 0.4879865348339081
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04395036160852022,
+      "compression/movement_sparsity/importance_threshold": -0.28672718409676456,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13761597871780396,
+      "epoch": 5.19,
+      "learning_rate": 8.826451274190039e-08,
+      "loss": 0.1651,
+      "step": 14370,
+      "task_loss": 0.3214653432369232
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.043997802740957506,
+      "compression/movement_sparsity/importance_threshold": -0.28608096575984476,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2639523446559906,
+      "epoch": 5.2,
+      "learning_rate": 8.748883168242327e-08,
+      "loss": 0.1827,
+      "step": 14380,
+      "task_loss": 0.5773433446884155
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04404517253872297,
+      "compression/movement_sparsity/importance_threshold": -0.2854357191065805,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12245256453752518,
+      "epoch": 5.2,
+      "learning_rate": 8.671641813339681e-08,
+      "loss": 0.18,
+      "step": 14390,
+      "task_loss": 0.33123326301574707
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04409247105548803,
+      "compression/movement_sparsity/importance_threshold": -0.2847914434058878,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17285960912704468,
+      "epoch": 5.2,
+      "learning_rate": 8.594727486067155e-08,
+      "loss": 0.1814,
+      "step": 14400,
+      "task_loss": 0.43380165100097656
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04413969834492409,
+      "compression/movement_sparsity/importance_threshold": -0.2841481379266828,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18825030326843262,
+      "epoch": 5.21,
+      "learning_rate": 8.518140461838729e-08,
+      "loss": 0.1752,
+      "step": 14410,
+      "task_loss": 0.38604140281677246
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044186854460702585,
+      "compression/movement_sparsity/importance_threshold": -0.2835058019378811,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1609213650226593,
+      "epoch": 5.21,
+      "learning_rate": 8.441881014896434e-08,
+      "loss": 0.1699,
+      "step": 14420,
+      "task_loss": 0.5970258116722107
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044233939456494877,
+      "compression/movement_sparsity/importance_threshold": -0.2828644347083996,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14135953783988953,
+      "epoch": 5.22,
+      "learning_rate": 8.365949418309327e-08,
+      "loss": 0.1687,
+      "step": 14430,
+      "task_loss": 0.2799544334411621
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04428095338597242,
+      "compression/movement_sparsity/importance_threshold": -0.2822240355071536,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15112349390983582,
+      "epoch": 5.22,
+      "learning_rate": 8.290345943972433e-08,
+      "loss": 0.1782,
+      "step": 14440,
+      "task_loss": 0.41910994052886963
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044327896302806605,
+      "compression/movement_sparsity/importance_threshold": -0.2815846036030596,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19787323474884033,
+      "epoch": 5.22,
+      "learning_rate": 8.215070862605922e-08,
+      "loss": 0.1737,
+      "step": 14450,
+      "task_loss": 0.4692561626434326
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04437476826066885,
+      "compression/movement_sparsity/importance_threshold": -0.28094613826503345,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18470437824726105,
+      "epoch": 5.23,
+      "learning_rate": 8.140124443753982e-08,
+      "loss": 0.1712,
+      "step": 14460,
+      "task_loss": 0.45406365394592285
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04442156931323056,
+      "compression/movement_sparsity/importance_threshold": -0.2803086387619913,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13995935022830963,
+      "epoch": 5.23,
+      "learning_rate": 8.065506955783985e-08,
+      "loss": 0.1751,
+      "step": 14470,
+      "task_loss": 0.5951769948005676
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04446829951416315,
+      "compression/movement_sparsity/importance_threshold": -0.2796721043628493,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21652866899967194,
+      "epoch": 5.23,
+      "learning_rate": 7.991218665885458e-08,
+      "loss": 0.1869,
+      "step": 14480,
+      "task_loss": 0.4158879518508911
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044514958917138026,
+      "compression/movement_sparsity/importance_threshold": -0.27903653433652353,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16511324048042297,
+      "epoch": 5.24,
+      "learning_rate": 7.917259840069112e-08,
+      "loss": 0.1711,
+      "step": 14490,
+      "task_loss": 0.42348212003707886
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04456154757582661,
+      "compression/movement_sparsity/importance_threshold": -0.27840192795192975,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18495193123817444,
+      "epoch": 5.24,
+      "learning_rate": 7.843630743165952e-08,
+      "loss": 0.1812,
+      "step": 14500,
+      "task_loss": 0.6287417411804199
+    },
+    {
+      "epoch": 5.24,
+      "eval_exact_match": 83.6329233680227,
+      "eval_f1": 90.02631898119101,
+      "step": 14500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044608065543900295,
+      "compression/movement_sparsity/importance_threshold": -0.2777682844779844,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.179265558719635,
+      "epoch": 5.24,
+      "learning_rate": 7.770331638826266e-08,
+      "loss": 0.1807,
+      "step": 14510,
+      "task_loss": 0.5263575315475464
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04465451287503051,
+      "compression/movement_sparsity/importance_threshold": -0.2771356031836033,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1451658308506012,
+      "epoch": 5.25,
+      "learning_rate": 7.697362789518757e-08,
+      "loss": 0.1739,
+      "step": 14520,
+      "task_loss": 0.36418962478637695
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044700889622888644,
+      "compression/movement_sparsity/importance_threshold": -0.2765038833377026,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1474297046661377,
+      "epoch": 5.25,
+      "learning_rate": 7.624724456529475e-08,
+      "loss": 0.1855,
+      "step": 14530,
+      "task_loss": 0.3640234172344208
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04474719584114613,
+      "compression/movement_sparsity/importance_threshold": -0.2758731242091984,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13829626142978668,
+      "epoch": 5.25,
+      "learning_rate": 7.552416899961011e-08,
+      "loss": 0.1974,
+      "step": 14540,
+      "task_loss": 0.28583553433418274
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04479343158347436,
+      "compression/movement_sparsity/importance_threshold": -0.2752433250670069,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1722092181444168,
+      "epoch": 5.26,
+      "learning_rate": 7.48762312690956e-08,
+      "loss": 0.1966,
+      "step": 14550,
+      "task_loss": 0.3825565278530121
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044839596903544755,
+      "compression/movement_sparsity/importance_threshold": -0.27461448518004383,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1537836194038391,
+      "epoch": 5.26,
+      "learning_rate": 7.415944757880465e-08,
+      "loss": 0.1829,
+      "step": 14560,
+      "task_loss": 0.42369458079338074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04488569185502873,
+      "compression/movement_sparsity/importance_threshold": -0.2739866038172255,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15801842510700226,
+      "epoch": 5.27,
+      "learning_rate": 7.344597912868367e-08,
+      "loss": 0.1636,
+      "step": 14570,
+      "task_loss": 0.5285253524780273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044931716491597676,
+      "compression/movement_sparsity/importance_threshold": -0.27335968024746793,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15832439064979553,
+      "epoch": 5.27,
+      "learning_rate": 7.273582847351289e-08,
+      "loss": 0.1715,
+      "step": 14580,
+      "task_loss": 0.4416083097457886
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.044977670866923024,
+      "compression/movement_sparsity/importance_threshold": -0.27273371373968713,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18099182844161987,
+      "epoch": 5.27,
+      "learning_rate": 7.202899815619234e-08,
+      "loss": 0.1769,
+      "step": 14590,
+      "task_loss": 0.6669715046882629
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.045023555034676165,
+      "compression/movement_sparsity/importance_threshold": -0.27210870356279937,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1620885580778122,
+      "epoch": 5.28,
+      "learning_rate": 7.132549070773286e-08,
+      "loss": 0.1729,
+      "step": 14600,
+      "task_loss": 0.25877806544303894
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04506936904852855,
+      "compression/movement_sparsity/importance_threshold": -0.2714846489857202,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14744767546653748,
+      "epoch": 5.28,
+      "learning_rate": 7.062530864724625e-08,
+      "loss": 0.1746,
+      "step": 14610,
+      "task_loss": 0.5256980061531067
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04511511296215154,
+      "compression/movement_sparsity/importance_threshold": -0.2708615492773664,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18050046265125275,
+      "epoch": 5.28,
+      "learning_rate": 6.99284544819373e-08,
+      "loss": 0.1755,
+      "step": 14620,
+      "task_loss": 0.4965248703956604
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04516078682921657,
+      "compression/movement_sparsity/importance_threshold": -0.27023940370665356,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15234878659248352,
+      "epoch": 5.29,
+      "learning_rate": 6.923493070709397e-08,
+      "loss": 0.1781,
+      "step": 14630,
+      "task_loss": 0.3228938579559326
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04520639070339504,
+      "compression/movement_sparsity/importance_threshold": -0.2696182115424979,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16729338467121124,
+      "epoch": 5.29,
+      "learning_rate": 6.85447398060791e-08,
+      "loss": 0.1709,
+      "step": 14640,
+      "task_loss": 0.8934930562973022
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.045251924638358386,
+      "compression/movement_sparsity/importance_threshold": -0.26899797205381526,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15839503705501556,
+      "epoch": 5.29,
+      "learning_rate": 6.785788425032124e-08,
+      "loss": 0.1794,
+      "step": 14650,
+      "task_loss": 0.33643460273742676
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04529738868777799,
+      "compression/movement_sparsity/importance_threshold": -0.2683786845095222,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19412821531295776,
+      "epoch": 5.3,
+      "learning_rate": 6.717436649930508e-08,
+      "loss": 0.1924,
+      "step": 14660,
+      "task_loss": 0.9410861134529114
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04534278290532528,
+      "compression/movement_sparsity/importance_threshold": -0.2677603481785342,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12971442937850952,
+      "epoch": 5.3,
+      "learning_rate": 6.649418900056425e-08,
+      "loss": 0.1753,
+      "step": 14670,
+      "task_loss": 0.26334819197654724
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.045388107344671656,
+      "compression/movement_sparsity/importance_threshold": -0.26714296232976775,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1588962972164154,
+      "epoch": 5.31,
+      "learning_rate": 6.581735418967094e-08,
+      "loss": 0.1962,
+      "step": 14680,
+      "task_loss": 0.35144782066345215
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04543336205948853,
+      "compression/movement_sparsity/importance_threshold": -0.2665265262321388,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15858691930770874,
+      "epoch": 5.31,
+      "learning_rate": 6.514386449022846e-08,
+      "loss": 0.1875,
+      "step": 14690,
+      "task_loss": 0.45107176899909973
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04547854710344731,
+      "compression/movement_sparsity/importance_threshold": -0.2659110391545635,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15156474709510803,
+      "epoch": 5.31,
+      "learning_rate": 6.447372231386138e-08,
+      "loss": 0.1698,
+      "step": 14700,
+      "task_loss": 0.41857224702835083
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04552366253021943,
+      "compression/movement_sparsity/importance_threshold": -0.26529650036595753,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1653667539358139,
+      "epoch": 5.32,
+      "learning_rate": 6.380693006020788e-08,
+      "loss": 0.1625,
+      "step": 14710,
+      "task_loss": 0.32113200426101685
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04556870839347626,
+      "compression/movement_sparsity/importance_threshold": -0.2646829091352375,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1332647204399109,
+      "epoch": 5.32,
+      "learning_rate": 6.3143490116911e-08,
+      "loss": 0.164,
+      "step": 14720,
+      "task_loss": 0.2849538326263428
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.045613684746889246,
+      "compression/movement_sparsity/importance_threshold": -0.264070264731319,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1563533991575241,
+      "epoch": 5.32,
+      "learning_rate": 6.248340485960912e-08,
+      "loss": 0.177,
+      "step": 14730,
+      "task_loss": 0.27913862466812134
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04565859164412978,
+      "compression/movement_sparsity/importance_threshold": -0.2634585664231185,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15281318128108978,
+      "epoch": 5.33,
+      "learning_rate": 6.182667665192876e-08,
+      "loss": 0.1773,
+      "step": 14740,
+      "task_loss": 0.2936190664768219
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04570342913886928,
+      "compression/movement_sparsity/importance_threshold": -0.2628478134795518,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15253296494483948,
+      "epoch": 5.33,
+      "learning_rate": 6.117330784547547e-08,
+      "loss": 0.179,
+      "step": 14750,
+      "task_loss": 0.4092378616333008
+    },
+    {
+      "epoch": 5.33,
+      "eval_exact_match": 83.69914853358561,
+      "eval_f1": 90.03206384226705,
+      "step": 14750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04574819728477916,
+      "compression/movement_sparsity/importance_threshold": -0.262238005169535,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13614681363105774,
+      "epoch": 5.33,
+      "learning_rate": 6.052330077982548e-08,
+      "loss": 0.1718,
+      "step": 14760,
+      "task_loss": 0.23583835363388062
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04579289613553082,
+      "compression/movement_sparsity/importance_threshold": -0.2616291407619843,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17683929204940796,
+      "epoch": 5.34,
+      "learning_rate": 5.987665778251739e-08,
+      "loss": 0.1807,
+      "step": 14770,
+      "task_loss": 0.3152199983596802
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04583752574479569,
+      "compression/movement_sparsity/importance_threshold": -0.2610212195258156,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17758771777153015,
+      "epoch": 5.34,
+      "learning_rate": 5.9233381169043415e-08,
+      "loss": 0.1767,
+      "step": 14780,
+      "task_loss": 0.6586979031562805
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.045882086166245145,
+      "compression/movement_sparsity/importance_threshold": -0.2604142407299451,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15100859105587006,
+      "epoch": 5.35,
+      "learning_rate": 5.8593473242842026e-08,
+      "loss": 0.1851,
+      "step": 14790,
+      "task_loss": 0.5096355676651001
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.045926577453550624,
+      "compression/movement_sparsity/importance_threshold": -0.2598082036432888,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15634649991989136,
+      "epoch": 5.35,
+      "learning_rate": 5.795693629528842e-08,
+      "loss": 0.1731,
+      "step": 14800,
+      "task_loss": 0.28395843505859375
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04597099966038353,
+      "compression/movement_sparsity/importance_threshold": -0.25920310753476283,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17545104026794434,
+      "epoch": 5.35,
+      "learning_rate": 5.732377260568777e-08,
+      "loss": 0.1671,
+      "step": 14810,
+      "task_loss": 0.3866184949874878
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04601535284041529,
+      "compression/movement_sparsity/importance_threshold": -0.2585989516732832,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1806982159614563,
+      "epoch": 5.36,
+      "learning_rate": 5.669398444126605e-08,
+      "loss": 0.176,
+      "step": 14820,
+      "task_loss": 0.5448100566864014
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.046059637047317276,
+      "compression/movement_sparsity/importance_threshold": -0.257995735327766,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13397540152072906,
+      "epoch": 5.36,
+      "learning_rate": 5.606757405716189e-08,
+      "loss": 0.1662,
+      "step": 14830,
+      "task_loss": 0.18283666670322418
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.046103852334760935,
+      "compression/movement_sparsity/importance_threshold": -0.2573934577671272,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1665625274181366,
+      "epoch": 5.36,
+      "learning_rate": 5.544454369641927e-08,
+      "loss": 0.178,
+      "step": 14840,
+      "task_loss": 0.37204509973526
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04614799875641766,
+      "compression/movement_sparsity/importance_threshold": -0.25679211826028303,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15637090802192688,
+      "epoch": 5.37,
+      "learning_rate": 5.482489558997849e-08,
+      "loss": 0.1857,
+      "step": 14850,
+      "task_loss": 0.6641359925270081
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04619207636595886,
+      "compression/movement_sparsity/importance_threshold": -0.25619171607614943,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1537550389766693,
+      "epoch": 5.37,
+      "learning_rate": 5.420863195666925e-08,
+      "loss": 0.1582,
+      "step": 14860,
+      "task_loss": 0.2819337844848633
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04623608521705596,
+      "compression/movement_sparsity/importance_threshold": -0.25559225048364254,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1731978952884674,
+      "epoch": 5.37,
+      "learning_rate": 5.35957550032019e-08,
+      "loss": 0.1711,
+      "step": 14870,
+      "task_loss": 0.3445536494255066
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04628002536338036,
+      "compression/movement_sparsity/importance_threshold": -0.25499372075167837,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1405542939901352,
+      "epoch": 5.38,
+      "learning_rate": 5.298626692415975e-08,
+      "loss": 0.1704,
+      "step": 14880,
+      "task_loss": 0.4534985423088074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04632389685860346,
+      "compression/movement_sparsity/importance_threshold": -0.2543961261491732,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1388224959373474,
+      "epoch": 5.38,
+      "learning_rate": 5.238016990199157e-08,
+      "loss": 0.1652,
+      "step": 14890,
+      "task_loss": 0.3235897123813629
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.046367699756396714,
+      "compression/movement_sparsity/importance_threshold": -0.25379946594504255,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1863054782152176,
+      "epoch": 5.38,
+      "learning_rate": 5.1777466107002844e-08,
+      "loss": 0.1791,
+      "step": 14900,
+      "task_loss": 0.5134084224700928
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.046411434110431464,
+      "compression/movement_sparsity/importance_threshold": -0.2532037394082032,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16694492101669312,
+      "epoch": 5.39,
+      "learning_rate": 5.117815769734946e-08,
+      "loss": 0.1711,
+      "step": 14910,
+      "task_loss": 0.45068734884262085
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04645509997437919,
+      "compression/movement_sparsity/importance_threshold": -0.25260894580757065,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1374826282262802,
+      "epoch": 5.39,
+      "learning_rate": 5.058224681902834e-08,
+      "loss": 0.1673,
+      "step": 14920,
+      "task_loss": 0.1980714350938797
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.046498697401911246,
+      "compression/movement_sparsity/importance_threshold": -0.25201508441206133,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1443094164133072,
+      "epoch": 5.4,
+      "learning_rate": 4.998973560587105e-08,
+      "loss": 0.1678,
+      "step": 14930,
+      "task_loss": 0.2809217870235443
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04654222644669908,
+      "compression/movement_sparsity/importance_threshold": -0.251422154490591,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1853853315114975,
+      "epoch": 5.4,
+      "learning_rate": 4.940062617953567e-08,
+      "loss": 0.1701,
+      "step": 14940,
+      "task_loss": 0.3242225646972656
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04658568716241408,
+      "compression/movement_sparsity/importance_threshold": -0.2508301553120761,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16819274425506592,
+      "epoch": 5.4,
+      "learning_rate": 4.881492064949888e-08,
+      "loss": 0.1736,
+      "step": 14950,
+      "task_loss": 0.5310601592063904
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04662907960272768,
+      "compression/movement_sparsity/importance_threshold": -0.25023908614543233,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15723347663879395,
+      "epoch": 5.41,
+      "learning_rate": 4.823262111304904e-08,
+      "loss": 0.1747,
+      "step": 14960,
+      "task_loss": 0.5195972919464111
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04667240382131126,
+      "compression/movement_sparsity/importance_threshold": -0.249648946259576,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1590065211057663,
+      "epoch": 5.41,
+      "learning_rate": 4.7653729655278254e-08,
+      "loss": 0.1759,
+      "step": 14970,
+      "task_loss": 0.4165058135986328
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04671565987183626,
+      "compression/movement_sparsity/importance_threshold": -0.24905973492342304,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17201870679855347,
+      "epoch": 5.41,
+      "learning_rate": 4.707824834907481e-08,
+      "loss": 0.1829,
+      "step": 14980,
+      "task_loss": 0.3914673924446106
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.046758847807974076,
+      "compression/movement_sparsity/importance_threshold": -0.24847145140588967,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18516141176223755,
+      "epoch": 5.42,
+      "learning_rate": 4.650617925511635e-08,
+      "loss": 0.1768,
+      "step": 14990,
+      "task_loss": 0.47868090867996216
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04680196768339613,
+      "compression/movement_sparsity/importance_threshold": -0.2478840949758917,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13710492849349976,
+      "epoch": 5.42,
+      "learning_rate": 4.5937524421861826e-08,
+      "loss": 0.1677,
+      "step": 15000,
+      "task_loss": 0.3779285252094269
+    },
+    {
+      "epoch": 5.42,
+      "eval_exact_match": 83.49101229895932,
+      "eval_f1": 89.94383123761723,
+      "step": 15000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04684501955177381,
+      "compression/movement_sparsity/importance_threshold": -0.2472976649023455,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17632843554019928,
+      "epoch": 5.42,
+      "learning_rate": 4.537228588554476e-08,
+      "loss": 0.1732,
+      "step": 15010,
+      "task_loss": 0.6332323551177979
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.046888003466778544,
+      "compression/movement_sparsity/importance_threshold": -0.24671216045416688,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16848604381084442,
+      "epoch": 5.43,
+      "learning_rate": 4.4810465670164886e-08,
+      "loss": 0.1745,
+      "step": 15020,
+      "task_loss": 0.586732029914856
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04693091948208174,
+      "compression/movement_sparsity/importance_threshold": -0.24612758090027198,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16656005382537842,
+      "epoch": 5.43,
+      "learning_rate": 4.425206578748275e-08,
+      "loss": 0.1607,
+      "step": 15030,
+      "task_loss": 0.4396723508834839
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0469737676513548,
+      "compression/movement_sparsity/importance_threshold": -0.24554392550957704,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1422872245311737,
+      "epoch": 5.44,
+      "learning_rate": 4.369708823701024e-08,
+      "loss": 0.1739,
+      "step": 15040,
+      "task_loss": 0.4501122534275055
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047016548028269156,
+      "compression/movement_sparsity/importance_threshold": -0.24496119355099788,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15386220812797546,
+      "epoch": 5.44,
+      "learning_rate": 4.31455350060056e-08,
+      "loss": 0.1732,
+      "step": 15050,
+      "task_loss": 0.2968456447124481
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04705926066649619,
+      "compression/movement_sparsity/importance_threshold": -0.24437938429345074,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18353886902332306,
+      "epoch": 5.44,
+      "learning_rate": 4.259740806946477e-08,
+      "loss": 0.1725,
+      "step": 15060,
+      "task_loss": 0.4033396244049072
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047101905619707334,
+      "compression/movement_sparsity/importance_threshold": -0.24379849700585166,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1291903555393219,
+      "epoch": 5.45,
+      "learning_rate": 4.205270939011474e-08,
+      "loss": 0.1536,
+      "step": 15070,
+      "task_loss": 0.38127729296684265
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047144482941573994,
+      "compression/movement_sparsity/importance_threshold": -0.24321853095711654,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1640148162841797,
+      "epoch": 5.45,
+      "learning_rate": 4.151144091840708e-08,
+      "loss": 0.1776,
+      "step": 15080,
+      "task_loss": 0.6958640813827515
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04718699268576758,
+      "compression/movement_sparsity/importance_threshold": -0.24263948541616154,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17455732822418213,
+      "epoch": 5.45,
+      "learning_rate": 4.0973604592510094e-08,
+      "loss": 0.184,
+      "step": 15090,
+      "task_loss": 0.2959747612476349
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047229434905959496,
+      "compression/movement_sparsity/importance_threshold": -0.2420613596519029,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13450655341148376,
+      "epoch": 5.46,
+      "learning_rate": 4.043920233830267e-08,
+      "loss": 0.1819,
+      "step": 15100,
+      "task_loss": 0.2962379455566406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04727180965582116,
+      "compression/movement_sparsity/importance_threshold": -0.24148415293325654,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15026503801345825,
+      "epoch": 5.46,
+      "learning_rate": 3.990823606936666e-08,
+      "loss": 0.1767,
+      "step": 15110,
+      "task_loss": 0.7710201740264893
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04731411698902398,
+      "compression/movement_sparsity/importance_threshold": -0.24090786452913848,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1360689401626587,
+      "epoch": 5.46,
+      "learning_rate": 3.938070768698054e-08,
+      "loss": 0.1722,
+      "step": 15120,
+      "task_loss": 0.46412721276283264
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047356356959239364,
+      "compression/movement_sparsity/importance_threshold": -0.24033249370846488,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1195104569196701,
+      "epoch": 5.47,
+      "learning_rate": 3.885661908011273e-08,
+      "loss": 0.1808,
+      "step": 15130,
+      "task_loss": 0.4792066216468811
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04739852962013873,
+      "compression/movement_sparsity/importance_threshold": -0.23975803974015175,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1432269811630249,
+      "epoch": 5.47,
+      "learning_rate": 3.833597212541373e-08,
+      "loss": 0.1799,
+      "step": 15140,
+      "task_loss": 0.41720786690711975
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047440635025393474,
+      "compression/movement_sparsity/importance_threshold": -0.23918450189311524,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1752137839794159,
+      "epoch": 5.48,
+      "learning_rate": 3.781876868721112e-08,
+      "loss": 0.1808,
+      "step": 15150,
+      "task_loss": 0.42168617248535156
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04748267322867502,
+      "compression/movement_sparsity/importance_threshold": -0.23861187943627127,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15821881592273712,
+      "epoch": 5.48,
+      "learning_rate": 3.7305010617501245e-08,
+      "loss": 0.1747,
+      "step": 15160,
+      "task_loss": 0.25698161125183105
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04752464428365478,
+      "compression/movement_sparsity/importance_threshold": -0.23804017163853597,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.166069895029068,
+      "epoch": 5.48,
+      "learning_rate": 3.679469975594385e-08,
+      "loss": 0.1685,
+      "step": 15170,
+      "task_loss": 0.4625723361968994
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04756654824400414,
+      "compression/movement_sparsity/importance_threshold": -0.2374693777688256,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17632624506950378,
+      "epoch": 5.49,
+      "learning_rate": 3.6287837929854795e-08,
+      "loss": 0.1778,
+      "step": 15180,
+      "task_loss": 0.36426687240600586
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047608385163394565,
+      "compression/movement_sparsity/importance_threshold": -0.23689949709605584,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16632002592086792,
+      "epoch": 5.49,
+      "learning_rate": 3.578442695419925e-08,
+      "loss": 0.1632,
+      "step": 15190,
+      "task_loss": 0.4585450291633606
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0476501550954974,
+      "compression/movement_sparsity/importance_threshold": -0.2363305288891432,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20258350670337677,
+      "epoch": 5.49,
+      "learning_rate": 3.528446863158641e-08,
+      "loss": 0.1867,
+      "step": 15200,
+      "task_loss": 0.41815778613090515
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047691858093984116,
+      "compression/movement_sparsity/importance_threshold": -0.2357624724170032,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19658106565475464,
+      "epoch": 5.5,
+      "learning_rate": 3.4787964752261536e-08,
+      "loss": 0.1876,
+      "step": 15210,
+      "task_loss": 0.5894261002540588
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04773349421252606,
+      "compression/movement_sparsity/importance_threshold": -0.2351953269485526,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1922135055065155,
+      "epoch": 5.5,
+      "learning_rate": 3.4294917094100484e-08,
+      "loss": 0.1867,
+      "step": 15220,
+      "task_loss": 0.4709359407424927
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04777506350479469,
+      "compression/movement_sparsity/importance_threshold": -0.23462909175270685,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14158789813518524,
+      "epoch": 5.5,
+      "learning_rate": 3.380532742260334e-08,
+      "loss": 0.1907,
+      "step": 15230,
+      "task_loss": 0.7388123869895935
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04781656602446141,
+      "compression/movement_sparsity/importance_threshold": -0.23406376609838242,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21245448291301727,
+      "epoch": 5.51,
+      "learning_rate": 3.331919749088763e-08,
+      "loss": 0.1904,
+      "step": 15240,
+      "task_loss": 0.6762509346008301
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047858001825197616,
+      "compression/movement_sparsity/importance_threshold": -0.23349934925449511,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16487757861614227,
+      "epoch": 5.51,
+      "learning_rate": 3.283652903968237e-08,
+      "loss": 0.1809,
+      "step": 15250,
+      "task_loss": 0.6355116367340088
+    },
+    {
+      "epoch": 5.51,
+      "eval_exact_match": 83.60454115421003,
+      "eval_f1": 90.05225316670094,
+      "step": 15250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04789937096067474,
+      "compression/movement_sparsity/importance_threshold": -0.23293584048996108,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13231196999549866,
+      "epoch": 5.51,
+      "learning_rate": 3.235732379732148e-08,
+      "loss": 0.1582,
+      "step": 15260,
+      "task_loss": 0.23886415362358093
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04794067348456416,
+      "compression/movement_sparsity/importance_threshold": -0.23237323907369634,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17306077480316162,
+      "epoch": 5.52,
+      "learning_rate": 3.188158347973846e-08,
+      "loss": 0.1806,
+      "step": 15270,
+      "task_loss": 0.5274963974952698
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.047981909450537305,
+      "compression/movement_sparsity/importance_threshold": -0.23181154427461725,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1836722195148468,
+      "epoch": 5.52,
+      "learning_rate": 3.140930979045886e-08,
+      "loss": 0.1796,
+      "step": 15280,
+      "task_loss": 0.443234384059906
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0480230789122656,
+      "compression/movement_sparsity/importance_threshold": -0.23125075536163953,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14876201748847961,
+      "epoch": 5.53,
+      "learning_rate": 3.094050442059559e-08,
+      "loss": 0.1717,
+      "step": 15290,
+      "task_loss": 0.7542725801467896
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04806418192342043,
+      "compression/movement_sparsity/importance_threshold": -0.23069087160367951,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16534817218780518,
+      "epoch": 5.53,
+      "learning_rate": 3.047516904884206e-08,
+      "loss": 0.1689,
+      "step": 15300,
+      "task_loss": 0.4024174213409424
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048105218537673224,
+      "compression/movement_sparsity/importance_threshold": -0.23013189226965303,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19905927777290344,
+      "epoch": 5.53,
+      "learning_rate": 3.0013305341466066e-08,
+      "loss": 0.1737,
+      "step": 15310,
+      "task_loss": 0.5906176567077637
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048146188808695395,
+      "compression/movement_sparsity/importance_threshold": -0.22957381662847598,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.174982950091362,
+      "epoch": 5.54,
+      "learning_rate": 2.9554914952304665e-08,
+      "loss": 0.1761,
+      "step": 15320,
+      "task_loss": 0.45582154393196106
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04818709279015833,
+      "compression/movement_sparsity/importance_threshold": -0.22901664394906496,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17691166698932648,
+      "epoch": 5.54,
+      "learning_rate": 2.9099999522757103e-08,
+      "loss": 0.1961,
+      "step": 15330,
+      "task_loss": 0.5763674974441528
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04822793053573346,
+      "compression/movement_sparsity/importance_threshold": -0.22846037350033566,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19818875193595886,
+      "epoch": 5.54,
+      "learning_rate": 2.86485606817799e-08,
+      "loss": 0.1801,
+      "step": 15340,
+      "task_loss": 0.6044281721115112
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04826870209909218,
+      "compression/movement_sparsity/importance_threshold": -0.22790500455120444,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13256880640983582,
+      "epoch": 5.55,
+      "learning_rate": 2.820060004588054e-08,
+      "loss": 0.1709,
+      "step": 15350,
+      "task_loss": 0.4946630001068115
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048309407533905925,
+      "compression/movement_sparsity/importance_threshold": -0.227350536370587,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.177134171128273,
+      "epoch": 5.55,
+      "learning_rate": 2.7756119219111805e-08,
+      "loss": 0.1756,
+      "step": 15360,
+      "task_loss": 0.6153013706207275
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04835004689384608,
+      "compression/movement_sparsity/importance_threshold": -0.2267969682273997,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15522846579551697,
+      "epoch": 5.55,
+      "learning_rate": 2.7315119793065998e-08,
+      "loss": 0.1707,
+      "step": 15370,
+      "task_loss": 0.27729225158691406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04839062023258407,
+      "compression/movement_sparsity/importance_threshold": -0.22624429939055846,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16957354545593262,
+      "epoch": 5.56,
+      "learning_rate": 2.687760334686917e-08,
+      "loss": 0.1731,
+      "step": 15380,
+      "task_loss": 0.6803514361381531
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048431127603791306,
+      "compression/movement_sparsity/importance_threshold": -0.2256925291289793,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14271289110183716,
+      "epoch": 5.56,
+      "learning_rate": 2.6443571447175795e-08,
+      "loss": 0.1669,
+      "step": 15390,
+      "task_loss": 0.5242533087730408
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04847156906113919,
+      "compression/movement_sparsity/importance_threshold": -0.2251416567115785,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1309148520231247,
+      "epoch": 5.57,
+      "learning_rate": 2.6013025648162546e-08,
+      "loss": 0.1711,
+      "step": 15400,
+      "task_loss": 0.47524943947792053
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04851194465829914,
+      "compression/movement_sparsity/importance_threshold": -0.22459168140727181,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14253975450992584,
+      "epoch": 5.57,
+      "learning_rate": 2.558596749152342e-08,
+      "loss": 0.1968,
+      "step": 15410,
+      "task_loss": 0.4356352686882019
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04855225444894257,
+      "compression/movement_sparsity/importance_threshold": -0.22404260248497565,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17380890250205994,
+      "epoch": 5.57,
+      "learning_rate": 2.5162398506463957e-08,
+      "loss": 0.1748,
+      "step": 15420,
+      "task_loss": 0.48908424377441406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04859249848674087,
+      "compression/movement_sparsity/importance_threshold": -0.2234944192136059,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1803099513053894,
+      "epoch": 5.58,
+      "learning_rate": 2.4742320209695245e-08,
+      "loss": 0.1778,
+      "step": 15430,
+      "task_loss": 0.35538819432258606
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04863267682536546,
+      "compression/movement_sparsity/importance_threshold": -0.22294713086207874,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14477093517780304,
+      "epoch": 5.58,
+      "learning_rate": 2.4325734105429486e-08,
+      "loss": 0.1798,
+      "step": 15440,
+      "task_loss": 0.3041430115699768
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048672789518487775,
+      "compression/movement_sparsity/importance_threshold": -0.22240073669930993,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16156978905200958,
+      "epoch": 5.58,
+      "learning_rate": 2.391264168537377e-08,
+      "loss": 0.19,
+      "step": 15450,
+      "task_loss": 0.4806953966617584
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048712836619779196,
+      "compression/movement_sparsity/importance_threshold": -0.22185523599421586,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20278826355934143,
+      "epoch": 5.59,
+      "learning_rate": 2.350304442872497e-08,
+      "loss": 0.1881,
+      "step": 15460,
+      "task_loss": 0.7880595326423645
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048752818182911134,
+      "compression/movement_sparsity/importance_threshold": -0.22131062801571266,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15064328908920288,
+      "epoch": 5.59,
+      "learning_rate": 2.309694380216487e-08,
+      "loss": 0.1644,
+      "step": 15470,
+      "task_loss": 0.37797996401786804
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04879273426155503,
+      "compression/movement_sparsity/importance_threshold": -0.2207669120327158,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15130218863487244,
+      "epoch": 5.59,
+      "learning_rate": 2.2694341259854366e-08,
+      "loss": 0.1658,
+      "step": 15480,
+      "task_loss": 0.5249390602111816
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048832584909382255,
+      "compression/movement_sparsity/importance_threshold": -0.22022408731414223,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15106838941574097,
+      "epoch": 5.6,
+      "learning_rate": 2.2295238243428384e-08,
+      "loss": 0.1679,
+      "step": 15490,
+      "task_loss": 0.43280619382858276
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048872370180064253,
+      "compression/movement_sparsity/importance_threshold": -0.21968215312890738,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.161295086145401,
+      "epoch": 5.6,
+      "learning_rate": 2.1899636181990644e-08,
+      "loss": 0.1777,
+      "step": 15500,
+      "task_loss": 0.22472208738327026
+    },
+    {
+      "epoch": 5.6,
+      "eval_exact_match": 83.52885525070955,
+      "eval_f1": 89.91861288595577,
+      "step": 15500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04891209012727241,
+      "compression/movement_sparsity/importance_threshold": -0.2191411087459274,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15865418314933777,
+      "epoch": 5.61,
+      "learning_rate": 2.1507536492109123e-08,
+      "loss": 0.1714,
+      "step": 15510,
+      "task_loss": 0.3335818648338318
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.048951744804678156,
+      "compression/movement_sparsity/importance_threshold": -0.21860095343411856,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16958612203598022,
+      "epoch": 5.61,
+      "learning_rate": 2.1118940577810274e-08,
+      "loss": 0.1739,
+      "step": 15520,
+      "task_loss": 0.4664156436920166
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04899133426595289,
+      "compression/movement_sparsity/importance_threshold": -0.21806168646239676,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1692367047071457,
+      "epoch": 5.61,
+      "learning_rate": 2.0733849830574135e-08,
+      "loss": 0.1765,
+      "step": 15530,
+      "task_loss": 0.6259729862213135
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04903085856476802,
+      "compression/movement_sparsity/importance_threshold": -0.21752330709967815,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1735900342464447,
+      "epoch": 5.62,
+      "learning_rate": 2.0352265629329678e-08,
+      "loss": 0.192,
+      "step": 15540,
+      "task_loss": 0.343353807926178
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049070317754794965,
+      "compression/movement_sparsity/importance_threshold": -0.21698581461487876,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13655024766921997,
+      "epoch": 5.62,
+      "learning_rate": 1.997418934044959e-08,
+      "loss": 0.1741,
+      "step": 15550,
+      "task_loss": 0.16692593693733215
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049109711889705136,
+      "compression/movement_sparsity/importance_threshold": -0.2164492082769146,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14855730533599854,
+      "epoch": 5.62,
+      "learning_rate": 1.95996223177457e-08,
+      "loss": 0.1727,
+      "step": 15560,
+      "task_loss": 0.46668440103530884
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04914904102316992,
+      "compression/movement_sparsity/importance_threshold": -0.21591348735470217,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14958634972572327,
+      "epoch": 5.63,
+      "learning_rate": 1.9228565902463356e-08,
+      "loss": 0.1707,
+      "step": 15570,
+      "task_loss": 0.32905149459838867
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04918830520886077,
+      "compression/movement_sparsity/importance_threshold": -0.2153786511171567,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15305137634277344,
+      "epoch": 5.63,
+      "learning_rate": 1.8861021423277722e-08,
+      "loss": 0.1729,
+      "step": 15580,
+      "task_loss": 0.45828777551651
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049227504500449056,
+      "compression/movement_sparsity/importance_threshold": -0.21484469883319512,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1438327133655548,
+      "epoch": 5.63,
+      "learning_rate": 1.8496990196288143e-08,
+      "loss": 0.1723,
+      "step": 15590,
+      "task_loss": 0.28205084800720215
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04926663895160622,
+      "compression/movement_sparsity/importance_threshold": -0.2143116297717329,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19014272093772888,
+      "epoch": 5.64,
+      "learning_rate": 1.8136473525013907e-08,
+      "loss": 0.1907,
+      "step": 15600,
+      "task_loss": 0.6441313624382019
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04930570861600365,
+      "compression/movement_sparsity/importance_threshold": -0.2137794432016863,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1672857701778412,
+      "epoch": 5.64,
+      "learning_rate": 1.7779472700389265e-08,
+      "loss": 0.1924,
+      "step": 15610,
+      "task_loss": 0.4105015695095062
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04934471354731277,
+      "compression/movement_sparsity/importance_threshold": -0.21324813839197143,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1488228738307953,
+      "epoch": 5.65,
+      "learning_rate": 1.742598900075909e-08,
+      "loss": 0.1778,
+      "step": 15620,
+      "task_loss": 0.41871628165245056
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04938365379920498,
+      "compression/movement_sparsity/importance_threshold": -0.21271771461150446,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19621488451957703,
+      "epoch": 5.65,
+      "learning_rate": 1.7076023691874e-08,
+      "loss": 0.1715,
+      "step": 15630,
+      "task_loss": 0.36311233043670654
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04942252942535171,
+      "compression/movement_sparsity/importance_threshold": -0.2121881711292012,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14452539384365082,
+      "epoch": 5.65,
+      "learning_rate": 1.6729578026886347e-08,
+      "loss": 0.1759,
+      "step": 15640,
+      "task_loss": 0.3132791519165039
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049461340479424354,
+      "compression/movement_sparsity/importance_threshold": -0.21165950721397775,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20849350094795227,
+      "epoch": 5.66,
+      "learning_rate": 1.6386653246344916e-08,
+      "loss": 0.1801,
+      "step": 15650,
+      "task_loss": 0.4664916396141052
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04950008701509432,
+      "compression/movement_sparsity/importance_threshold": -0.2111317221347504,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14356830716133118,
+      "epoch": 5.66,
+      "learning_rate": 1.6047250578191342e-08,
+      "loss": 0.1875,
+      "step": 15660,
+      "task_loss": 0.33819547295570374
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049538769086033024,
+      "compression/movement_sparsity/importance_threshold": -0.21060481516043505,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17026101052761078,
+      "epoch": 5.66,
+      "learning_rate": 1.571137123775501e-08,
+      "loss": 0.198,
+      "step": 15670,
+      "task_loss": 0.28901436924934387
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04957738674591188,
+      "compression/movement_sparsity/importance_threshold": -0.21007878555994786,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18996986746788025,
+      "epoch": 5.67,
+      "learning_rate": 1.5379016427749193e-08,
+      "loss": 0.1702,
+      "step": 15680,
+      "task_loss": 0.3736341595649719
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0496159400484023,
+      "compression/movement_sparsity/importance_threshold": -0.20955363260220472,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16425611078739166,
+      "epoch": 5.67,
+      "learning_rate": 1.5050187338266574e-08,
+      "loss": 0.1707,
+      "step": 15690,
+      "task_loss": 0.32322365045547485
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04965442904717568,
+      "compression/movement_sparsity/importance_threshold": -0.2090293555561219,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17800205945968628,
+      "epoch": 5.67,
+      "learning_rate": 1.4724885146774834e-08,
+      "loss": 0.1811,
+      "step": 15700,
+      "task_loss": 0.4337901771068573
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04969285379590344,
+      "compression/movement_sparsity/importance_threshold": -0.20850595369061542,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15589317679405212,
+      "epoch": 5.68,
+      "learning_rate": 1.4403111018112645e-08,
+      "loss": 0.1792,
+      "step": 15710,
+      "task_loss": 0.357605516910553
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04973121434825701,
+      "compression/movement_sparsity/importance_threshold": -0.2079834262746012,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16989806294441223,
+      "epoch": 5.68,
+      "learning_rate": 1.408486610448567e-08,
+      "loss": 0.1705,
+      "step": 15720,
+      "task_loss": 0.5997334718704224
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04976951075790777,
+      "compression/movement_sparsity/importance_threshold": -0.2074617725769956,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15032757818698883,
+      "epoch": 5.68,
+      "learning_rate": 1.3770151545461683e-08,
+      "loss": 0.1719,
+      "step": 15730,
+      "task_loss": 0.4771418273448944
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04980774307852714,
+      "compression/movement_sparsity/importance_threshold": -0.20694099186671433,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15643621981143951,
+      "epoch": 5.69,
+      "learning_rate": 1.3458968467967457e-08,
+      "loss": 0.1763,
+      "step": 15740,
+      "task_loss": 0.41822129487991333
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049845911363786535,
+      "compression/movement_sparsity/importance_threshold": -0.20642108341267373,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12617532908916473,
+      "epoch": 5.69,
+      "learning_rate": 1.3151317986283994e-08,
+      "loss": 0.1741,
+      "step": 15750,
+      "task_loss": 0.5501689910888672
+    },
+    {
+      "epoch": 5.69,
+      "eval_exact_match": 83.65184484389782,
+      "eval_f1": 89.99673268802798,
+      "step": 15750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049884015667357354,
+      "compression/movement_sparsity/importance_threshold": -0.20590204648378985,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14693979918956757,
+      "epoch": 5.7,
+      "learning_rate": 1.2847201202043079e-08,
+      "loss": 0.1932,
+      "step": 15760,
+      "task_loss": 0.44467893242836
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.049922056042911035,
+      "compression/movement_sparsity/importance_threshold": -0.20538388034897848,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15097220242023468,
+      "epoch": 5.7,
+      "learning_rate": 1.254661920422273e-08,
+      "loss": 0.1731,
+      "step": 15770,
+      "task_loss": 0.2182091921567917
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04996003254411896,
+      "compression/movement_sparsity/importance_threshold": -0.20486658427715598,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17072612047195435,
+      "epoch": 5.7,
+      "learning_rate": 1.2249573069143981e-08,
+      "loss": 0.1689,
+      "step": 15780,
+      "task_loss": 0.35801267623901367
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.04999794522465255,
+      "compression/movement_sparsity/importance_threshold": -0.2043501575372384,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13755616545677185,
+      "epoch": 5.71,
+      "learning_rate": 1.1956063860466436e-08,
+      "loss": 0.173,
+      "step": 15790,
+      "task_loss": 0.3809490203857422
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05003579413818322,
+      "compression/movement_sparsity/importance_threshold": -0.20383459939814164,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17082442343235016,
+      "epoch": 5.71,
+      "learning_rate": 1.1666092629184831e-08,
+      "loss": 0.1782,
+      "step": 15800,
+      "task_loss": 0.571792721748352
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05007357933838238,
+      "compression/movement_sparsity/importance_threshold": -0.20331990912878184,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18530184030532837,
+      "epoch": 5.71,
+      "learning_rate": 1.1379660413625037e-08,
+      "loss": 0.183,
+      "step": 15810,
+      "task_loss": 0.5109858512878418
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05011130087892143,
+      "compression/movement_sparsity/importance_threshold": -0.20280608599807504,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14845629036426544,
+      "epoch": 5.72,
+      "learning_rate": 1.1096768239440612e-08,
+      "loss": 0.1628,
+      "step": 15820,
+      "task_loss": 0.2701829671859741
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0501489588134718,
+      "compression/movement_sparsity/importance_threshold": -0.20229312927493737,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16749542951583862,
+      "epoch": 5.72,
+      "learning_rate": 1.081741711960893e-08,
+      "loss": 0.1836,
+      "step": 15830,
+      "task_loss": 0.4017007350921631
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05018655319570488,
+      "compression/movement_sparsity/importance_threshold": -0.20178103822828497,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1643616259098053,
+      "epoch": 5.72,
+      "learning_rate": 1.0541608054427386e-08,
+      "loss": 0.1929,
+      "step": 15840,
+      "task_loss": 0.4987179636955261
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05022408407929209,
+      "compression/movement_sparsity/importance_threshold": -0.20126981212703376,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16851231455802917,
+      "epoch": 5.73,
+      "learning_rate": 1.0269342031510531e-08,
+      "loss": 0.1722,
+      "step": 15850,
+      "task_loss": 0.3005487620830536
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05026155151790483,
+      "compression/movement_sparsity/importance_threshold": -0.2007594502400999,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17689800262451172,
+      "epoch": 5.73,
+      "learning_rate": 1.000062002578539e-08,
+      "loss": 0.1869,
+      "step": 15860,
+      "task_loss": 0.1859908550977707
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05029895556521454,
+      "compression/movement_sparsity/importance_threshold": -0.20024995183639926,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20160090923309326,
+      "epoch": 5.74,
+      "learning_rate": 9.73544299948903e-09,
+      "loss": 0.1833,
+      "step": 15870,
+      "task_loss": 0.7696638107299805
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05033629627489259,
+      "compression/movement_sparsity/importance_threshold": -0.19974131618484825,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17273235321044922,
+      "epoch": 5.74,
+      "learning_rate": 9.473811902164564e-09,
+      "loss": 0.1757,
+      "step": 15880,
+      "task_loss": 0.5132439136505127
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05037357370061043,
+      "compression/movement_sparsity/importance_threshold": -0.19923354255436265,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1815074384212494,
+      "epoch": 5.74,
+      "learning_rate": 9.215727670657813e-09,
+      "loss": 0.1809,
+      "step": 15890,
+      "task_loss": 0.47850722074508667
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05041078789603944,
+      "compression/movement_sparsity/importance_threshold": -0.1987266302138586,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15570800006389618,
+      "epoch": 5.75,
+      "learning_rate": 8.961191229114317e-09,
+      "loss": 0.1657,
+      "step": 15900,
+      "task_loss": 0.38322216272354126
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.050447938914851054,
+      "compression/movement_sparsity/importance_threshold": -0.19822057843225227,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14382407069206238,
+      "epoch": 5.75,
+      "learning_rate": 8.710203488975221e-09,
+      "loss": 0.1711,
+      "step": 15910,
+      "task_loss": 0.3041207194328308
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05048502681071666,
+      "compression/movement_sparsity/importance_threshold": -0.19771538647845965,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.10968972742557526,
+      "epoch": 5.75,
+      "learning_rate": 8.462765348974943e-09,
+      "loss": 0.1669,
+      "step": 15920,
+      "task_loss": 0.47378888726234436
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.050522051637307684,
+      "compression/movement_sparsity/importance_threshold": -0.1972110536213968,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17376708984375,
+      "epoch": 5.76,
+      "learning_rate": 8.218877695137294e-09,
+      "loss": 0.1801,
+      "step": 15930,
+      "task_loss": 0.42871758341789246
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05055901344829554,
+      "compression/movement_sparsity/importance_threshold": -0.19670757912997971,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17503592371940613,
+      "epoch": 5.76,
+      "learning_rate": 7.97854140077281e-09,
+      "loss": 0.1781,
+      "step": 15940,
+      "task_loss": 0.3418278694152832
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05059591229735162,
+      "compression/movement_sparsity/importance_threshold": -0.19620496227312456,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19280436635017395,
+      "epoch": 5.76,
+      "learning_rate": 7.741757326475195e-09,
+      "loss": 0.1785,
+      "step": 15950,
+      "task_loss": 0.5458291172981262
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05063274823814735,
+      "compression/movement_sparsity/importance_threshold": -0.19570320231974747,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1474490612745285,
+      "epoch": 5.77,
+      "learning_rate": 7.508526320118114e-09,
+      "loss": 0.1703,
+      "step": 15960,
+      "task_loss": 0.31817954778671265
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.050669521324354136,
+      "compression/movement_sparsity/importance_threshold": -0.19520229853876425,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22078892588615417,
+      "epoch": 5.77,
+      "learning_rate": 7.2788492168529556e-09,
+      "loss": 0.1843,
+      "step": 15970,
+      "task_loss": 0.45727652311325073
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05070623160964339,
+      "compression/movement_sparsity/importance_threshold": -0.19470225019909138,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14431482553482056,
+      "epoch": 5.78,
+      "learning_rate": 7.052726839105072e-09,
+      "loss": 0.1673,
+      "step": 15980,
+      "task_loss": 0.7761343717575073
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05074287914768652,
+      "compression/movement_sparsity/importance_threshold": -0.19420305656964454,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1601599156856537,
+      "epoch": 5.78,
+      "learning_rate": 6.830159996570883e-09,
+      "loss": 0.1785,
+      "step": 15990,
+      "task_loss": 0.41845470666885376
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05077946399215494,
+      "compression/movement_sparsity/importance_threshold": -0.19370471691933988,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18368986248970032,
+      "epoch": 5.78,
+      "learning_rate": 6.611149486215772e-09,
+      "loss": 0.1674,
+      "step": 16000,
+      "task_loss": 0.35329797863960266
+    },
+    {
+      "epoch": 5.78,
+      "eval_exact_match": 83.65184484389782,
+      "eval_f1": 90.04175695740012,
+      "step": 16000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05081598619672006,
+      "compression/movement_sparsity/importance_threshold": -0.19320723051709365,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13221392035484314,
+      "epoch": 5.79,
+      "learning_rate": 6.395696092269975e-09,
+      "loss": 0.1698,
+      "step": 16010,
+      "task_loss": 0.43325942754745483
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05085244581505328,
+      "compression/movement_sparsity/importance_threshold": -0.19271059663182188,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16434437036514282,
+      "epoch": 5.79,
+      "learning_rate": 6.183800586226917e-09,
+      "loss": 0.1674,
+      "step": 16020,
+      "task_loss": 0.47905054688453674
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05088884290082603,
+      "compression/movement_sparsity/importance_threshold": -0.19221481453244038,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12508782744407654,
+      "epoch": 5.79,
+      "learning_rate": 5.975463726839769e-09,
+      "loss": 0.1762,
+      "step": 16030,
+      "task_loss": 0.16149437427520752
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05092517750770971,
+      "compression/movement_sparsity/importance_threshold": -0.1917198834878654,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13816924393177032,
+      "epoch": 5.8,
+      "learning_rate": 5.7706862601188956e-09,
+      "loss": 0.1769,
+      "step": 16040,
+      "task_loss": 0.4390493631362915
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.050961449689375715,
+      "compression/movement_sparsity/importance_threshold": -0.19122580276701318,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15949416160583496,
+      "epoch": 5.8,
+      "learning_rate": 5.569468919329412e-09,
+      "loss": 0.1825,
+      "step": 16050,
+      "task_loss": 0.376995712518692
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05099765949949549,
+      "compression/movement_sparsity/importance_threshold": -0.19073257163879942,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17084449529647827,
+      "epoch": 5.8,
+      "learning_rate": 5.371812424988298e-09,
+      "loss": 0.1777,
+      "step": 16060,
+      "task_loss": 0.5042399168014526
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05103380699174041,
+      "compression/movement_sparsity/importance_threshold": -0.1902401893721405,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14627447724342346,
+      "epoch": 5.81,
+      "learning_rate": 5.177717484861843e-09,
+      "loss": 0.1862,
+      "step": 16070,
+      "task_loss": 0.8221181631088257
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051069892219781914,
+      "compression/movement_sparsity/importance_threshold": -0.1897486552359523,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1746702343225479,
+      "epoch": 5.81,
+      "learning_rate": 4.987184793962984e-09,
+      "loss": 0.1725,
+      "step": 16080,
+      "task_loss": 0.7324734926223755
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05110591523729141,
+      "compression/movement_sparsity/importance_threshold": -0.18925796849915089,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1688476949930191,
+      "epoch": 5.81,
+      "learning_rate": 4.800215034549527e-09,
+      "loss": 0.183,
+      "step": 16090,
+      "task_loss": 0.46025651693344116
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051141876097940284,
+      "compression/movement_sparsity/importance_threshold": -0.1887681284306526,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1825210154056549,
+      "epoch": 5.82,
+      "learning_rate": 4.616808876120592e-09,
+      "loss": 0.1837,
+      "step": 16100,
+      "task_loss": 0.3381309509277344
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051177774855399975,
+      "compression/movement_sparsity/importance_threshold": -0.18827913429937304,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17920146882534027,
+      "epoch": 5.82,
+      "learning_rate": 4.4369669754150686e-09,
+      "loss": 0.188,
+      "step": 16110,
+      "task_loss": 0.5360010862350464
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05121361156334188,
+      "compression/movement_sparsity/importance_threshold": -0.18779098537422856,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16270099580287933,
+      "epoch": 5.83,
+      "learning_rate": 4.260689976408938e-09,
+      "loss": 0.1853,
+      "step": 16120,
+      "task_loss": 0.35809409618377686
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0512493862754374,
+      "compression/movement_sparsity/importance_threshold": -0.1873036809241353,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15442490577697754,
+      "epoch": 5.83,
+      "learning_rate": 4.087978510313173e-09,
+      "loss": 0.1841,
+      "step": 16130,
+      "task_loss": 0.3518342971801758
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05128509904535796,
+      "compression/movement_sparsity/importance_threshold": -0.18681722021800928,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13016200065612793,
+      "epoch": 5.83,
+      "learning_rate": 3.91883319557107e-09,
+      "loss": 0.1738,
+      "step": 16140,
+      "task_loss": 0.3382733464241028
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05132074992677497,
+      "compression/movement_sparsity/importance_threshold": -0.18633160252476644,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2215452790260315,
+      "epoch": 5.84,
+      "learning_rate": 3.753254637856362e-09,
+      "loss": 0.1911,
+      "step": 16150,
+      "task_loss": 0.3834210932254791
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05135633897335984,
+      "compression/movement_sparsity/importance_threshold": -0.1858468271133228,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1495056003332138,
+      "epoch": 5.84,
+      "learning_rate": 3.5912434300711113e-09,
+      "loss": 0.1791,
+      "step": 16160,
+      "task_loss": 0.2563254237174988
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05139186623878396,
+      "compression/movement_sparsity/importance_threshold": -0.1853628932525948,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1634816825389862,
+      "epoch": 5.84,
+      "learning_rate": 3.4328001523432625e-09,
+      "loss": 0.1836,
+      "step": 16170,
+      "task_loss": 0.49831482768058777
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05142733177671878,
+      "compression/movement_sparsity/importance_threshold": -0.18487980021149808,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18057052791118622,
+      "epoch": 5.85,
+      "learning_rate": 3.277925372024981e-09,
+      "loss": 0.1897,
+      "step": 16180,
+      "task_loss": 0.4678457975387573
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051462735640835686,
+      "compression/movement_sparsity/importance_threshold": -0.18439754725894886,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15450020134449005,
+      "epoch": 5.85,
+      "learning_rate": 3.1266196436902092e-09,
+      "loss": 0.1728,
+      "step": 16190,
+      "task_loss": 0.3961532711982727
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051498077884806086,
+      "compression/movement_sparsity/importance_threshold": -0.18391613366386328,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1460452675819397,
+      "epoch": 5.85,
+      "learning_rate": 2.9788835091328902e-09,
+      "loss": 0.1675,
+      "step": 16200,
+      "task_loss": 0.3941865563392639
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051533358562301394,
+      "compression/movement_sparsity/importance_threshold": -0.18343555869515726,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18922826647758484,
+      "epoch": 5.86,
+      "learning_rate": 2.834717497364969e-09,
+      "loss": 0.1761,
+      "step": 16210,
+      "task_loss": 0.6385120153427124
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05156857772699304,
+      "compression/movement_sparsity/importance_threshold": -0.18295582162174695,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16979092359542847,
+      "epoch": 5.86,
+      "learning_rate": 2.6941221246147283e-09,
+      "loss": 0.1839,
+      "step": 16220,
+      "task_loss": 0.4651219844818115
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0516037354325524,
+      "compression/movement_sparsity/importance_threshold": -0.1824769217125486,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21407416462898254,
+      "epoch": 5.87,
+      "learning_rate": 2.557097894324567e-09,
+      "loss": 0.1886,
+      "step": 16230,
+      "task_loss": 0.60257887840271
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0516388317326509,
+      "compression/movement_sparsity/importance_threshold": -0.181998858236478,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19913232326507568,
+      "epoch": 5.87,
+      "learning_rate": 2.4236452971493348e-09,
+      "loss": 0.1795,
+      "step": 16240,
+      "task_loss": 0.44450339674949646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05167386668095997,
+      "compression/movement_sparsity/importance_threshold": -0.1815216304624513,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17576679587364197,
+      "epoch": 5.87,
+      "learning_rate": 2.2937648109547793e-09,
+      "loss": 0.1725,
+      "step": 16250,
+      "task_loss": 0.3722856938838959
+    },
+    {
+      "epoch": 5.87,
+      "eval_exact_match": 83.62346263008514,
+      "eval_f1": 90.07747022728749,
+      "step": 16250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05170884033115099,
+      "compression/movement_sparsity/importance_threshold": -0.18104523765938463,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16510339081287384,
+      "epoch": 5.88,
+      "learning_rate": 2.167456900815545e-09,
+      "loss": 0.1934,
+      "step": 16260,
+      "task_loss": 0.5060644149780273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051743752736895396,
+      "compression/movement_sparsity/importance_threshold": -0.18056967909619392,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15950855612754822,
+      "epoch": 5.88,
+      "learning_rate": 2.0447220190136225e-09,
+      "loss": 0.1809,
+      "step": 16270,
+      "task_loss": 0.5934314727783203
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05177860395186458,
+      "compression/movement_sparsity/importance_threshold": -0.18009495404179532,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18966922163963318,
+      "epoch": 5.88,
+      "learning_rate": 1.9255606050369024e-09,
+      "loss": 0.1852,
+      "step": 16280,
+      "task_loss": 0.4227147698402405
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05181339402972995,
+      "compression/movement_sparsity/importance_threshold": -0.17962106176510495,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18544501066207886,
+      "epoch": 5.89,
+      "learning_rate": 1.8099730855773986e-09,
+      "loss": 0.1664,
+      "step": 16290,
+      "task_loss": 0.34008803963661194
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05184812302416294,
+      "compression/movement_sparsity/importance_threshold": -0.17914800153503885,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16752862930297852,
+      "epoch": 5.89,
+      "learning_rate": 1.6979598745294754e-09,
+      "loss": 0.1778,
+      "step": 16300,
+      "task_loss": 0.417269229888916
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051882790988834936,
+      "compression/movement_sparsity/importance_threshold": -0.17867577262051304,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15857253968715668,
+      "epoch": 5.89,
+      "learning_rate": 1.5895213729889555e-09,
+      "loss": 0.1804,
+      "step": 16310,
+      "task_loss": 0.773322582244873
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051917397977417366,
+      "compression/movement_sparsity/importance_threshold": -0.17820437429044367,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1497032344341278,
+      "epoch": 5.9,
+      "learning_rate": 1.484657969251346e-09,
+      "loss": 0.1761,
+      "step": 16320,
+      "task_loss": 0.3770208954811096
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.051951944043581624,
+      "compression/movement_sparsity/importance_threshold": -0.17773380581374676,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11823238432407379,
+      "epoch": 5.9,
+      "learning_rate": 1.3833700388103943e-09,
+      "loss": 0.1767,
+      "step": 16330,
+      "task_loss": 0.2198001593351364
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05198642924099913,
+      "compression/movement_sparsity/importance_threshold": -0.17726406645933845,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16819697618484497,
+      "epoch": 5.91,
+      "learning_rate": 1.285657944356977e-09,
+      "loss": 0.1708,
+      "step": 16340,
+      "task_loss": 0.35815563797950745
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.052020853623341315,
+      "compression/movement_sparsity/importance_threshold": -0.17679515549613445,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15140169858932495,
+      "epoch": 5.91,
+      "learning_rate": 1.1915220357772149e-09,
+      "loss": 0.1769,
+      "step": 16350,
+      "task_loss": 0.5908142328262329
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05205521724427954,
+      "compression/movement_sparsity/importance_threshold": -0.17632707219305144,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14047864079475403,
+      "epoch": 5.91,
+      "learning_rate": 1.1009626501523595e-09,
+      "loss": 0.1804,
+      "step": 16360,
+      "task_loss": 0.31691184639930725
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05208952015748527,
+      "compression/movement_sparsity/importance_threshold": -0.175859815819005,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1407729983329773,
+      "epoch": 5.92,
+      "learning_rate": 1.0139801117562408e-09,
+      "loss": 0.1801,
+      "step": 16370,
+      "task_loss": 0.5783429145812988
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05212376241662988,
+      "compression/movement_sparsity/importance_threshold": -0.1753933856429113,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1462913155555725,
+      "epoch": 5.92,
+      "learning_rate": 9.30574732055156e-10,
+      "loss": 0.179,
+      "step": 16380,
+      "task_loss": 0.5032361149787903
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.052157944075384786,
+      "compression/movement_sparsity/importance_threshold": -0.17492778093368655,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16070584952831268,
+      "epoch": 5.92,
+      "learning_rate": 8.507468097062043e-10,
+      "loss": 0.1658,
+      "step": 16390,
+      "task_loss": 0.27588170766830444
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05219206518742141,
+      "compression/movement_sparsity/importance_threshold": -0.17446300096024658,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18269900977611542,
+      "epoch": 5.93,
+      "learning_rate": 7.744966305563982e-10,
+      "loss": 0.1777,
+      "step": 16400,
+      "task_loss": 0.3831246495246887
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05222612580641116,
+      "compression/movement_sparsity/importance_threshold": -0.17399904499150776,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1743420958518982,
+      "epoch": 5.93,
+      "learning_rate": 7.018244676415541e-10,
+      "loss": 0.1687,
+      "step": 16410,
+      "task_loss": 0.460012823343277
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05226012598602544,
+      "compression/movement_sparsity/importance_threshold": -0.17353591229638587,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15871578454971313,
+      "epoch": 5.93,
+      "learning_rate": 6.327305811852923e-10,
+      "loss": 0.1759,
+      "step": 16420,
+      "task_loss": 0.3666446805000305
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05229406577993566,
+      "compression/movement_sparsity/importance_threshold": -0.17307360214379708,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12524762749671936,
+      "epoch": 5.94,
+      "learning_rate": 5.672152185983714e-10,
+      "loss": 0.1674,
+      "step": 16430,
+      "task_loss": 0.5719473361968994
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05232794524181323,
+      "compression/movement_sparsity/importance_threshold": -0.17261211380265762,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13641473650932312,
+      "epoch": 5.94,
+      "learning_rate": 5.052786144775778e-10,
+      "loss": 0.1772,
+      "step": 16440,
+      "task_loss": 0.491558313369751
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.052361764425329575,
+      "compression/movement_sparsity/importance_threshold": -0.1721514465418833,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13365453481674194,
+      "epoch": 5.95,
+      "learning_rate": 4.469209906048377e-10,
+      "loss": 0.1727,
+      "step": 16450,
+      "task_loss": 0.2934437394142151
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05239552338415609,
+      "compression/movement_sparsity/importance_threshold": -0.17169159963039038,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14834952354431152,
+      "epoch": 5.95,
+      "learning_rate": 3.921425559463287e-10,
+      "loss": 0.1874,
+      "step": 16460,
+      "task_loss": 0.4384889304637909
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05242922217196419,
+      "compression/movement_sparsity/importance_threshold": -0.17123257233709488,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15647485852241516,
+      "epoch": 5.95,
+      "learning_rate": 3.4094350665236913e-10,
+      "loss": 0.1962,
+      "step": 16470,
+      "task_loss": 0.5159170031547546
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05246286084242529,
+      "compression/movement_sparsity/importance_threshold": -0.17077436393091272,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14214615523815155,
+      "epoch": 5.96,
+      "learning_rate": 2.933240260558634e-10,
+      "loss": 0.1902,
+      "step": 16480,
+      "task_loss": 0.31043171882629395
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05249643944921079,
+      "compression/movement_sparsity/importance_threshold": -0.17031697368076015,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15785396099090576,
+      "epoch": 5.96,
+      "learning_rate": 2.4928428467207997e-10,
+      "loss": 0.1898,
+      "step": 16490,
+      "task_loss": 0.2698136568069458
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.052529958045992114,
+      "compression/movement_sparsity/importance_threshold": -0.1698604008555531,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1571805626153946,
+      "epoch": 5.96,
+      "learning_rate": 2.0882444019809653e-10,
+      "loss": 0.179,
+      "step": 16500,
+      "task_loss": 0.29651594161987305
+    },
+    {
+      "epoch": 5.96,
+      "eval_exact_match": 83.73699148533585,
+      "eval_f1": 90.03229638831709,
+      "step": 16500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05256341668644067,
+      "compression/movement_sparsity/importance_threshold": -0.1694046447242078,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1439880132675171,
+      "epoch": 5.97,
+      "learning_rate": 1.719446375121336e-10,
+      "loss": 0.1733,
+      "step": 16510,
+      "task_loss": 0.4038183093070984
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05259681542422786,
+      "compression/movement_sparsity/importance_threshold": -0.16894970455564018,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14894336462020874,
+      "epoch": 5.97,
+      "learning_rate": 1.3864500867311057e-10,
+      "loss": 0.1919,
+      "step": 16520,
+      "task_loss": 0.32719749212265015
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0526301543130251,
+      "compression/movement_sparsity/importance_threshold": -0.16849557961876638,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13948574662208557,
+      "epoch": 5.97,
+      "learning_rate": 1.089256729197574e-10,
+      "loss": 0.1815,
+      "step": 16530,
+      "task_loss": 0.6157231330871582
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0526634334065038,
+      "compression/movement_sparsity/importance_threshold": -0.16804226918250242,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15811459720134735,
+      "epoch": 5.98,
+      "learning_rate": 8.278673667094783e-11,
+      "loss": 0.169,
+      "step": 16540,
+      "task_loss": 0.3574429750442505
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05269665275833536,
+      "compression/movement_sparsity/importance_threshold": -0.16758977251576435,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17332813143730164,
+      "epoch": 5.98,
+      "learning_rate": 6.022829352458902e-11,
+      "loss": 0.1862,
+      "step": 16550,
+      "task_loss": 0.6019191741943359
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05272981242219122,
+      "compression/movement_sparsity/importance_threshold": -0.16713808888746828,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15140379965305328,
+      "epoch": 5.98,
+      "learning_rate": 4.125042425784375e-11,
+      "loss": 0.1758,
+      "step": 16560,
+      "task_loss": 0.3916362524032593
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05276291245174276,
+      "compression/movement_sparsity/importance_threshold": -0.16668721756653027,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18484221398830414,
+      "epoch": 5.99,
+      "learning_rate": 2.5853196826353118e-11,
+      "loss": 0.1708,
+      "step": 16570,
+      "task_loss": 0.5214443206787109
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05279595290066141,
+      "compression/movement_sparsity/importance_threshold": -0.16623715782186643,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14860549569129944,
+      "epoch": 5.99,
+      "learning_rate": 1.403666636445866e-11,
+      "loss": 0.1672,
+      "step": 16580,
+      "task_loss": 0.4291364848613739
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.052828933822618565,
+      "compression/movement_sparsity/importance_threshold": -0.1657879089223927,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1612284928560257,
+      "epoch": 6.0,
+      "learning_rate": 5.8008751845362024e-12,
+      "loss": 0.1767,
+      "step": 16590,
+      "task_loss": 0.4751649498939514
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.052861855271285646,
+      "compression/movement_sparsity/importance_threshold": -0.16533947013702532,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15080714225769043,
+      "epoch": 6.0,
+      "learning_rate": 1.1458527773289262e-12,
+      "loss": 0.1735,
+      "step": 16600,
+      "task_loss": 0.34060317277908325
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.052894717300334064,
+      "compression/movement_sparsity/importance_threshold": -0.16489184073468022,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13875526189804077,
+      "epoch": 6.0,
+      "learning_rate": 1.9999999283841884e-06,
+      "loss": 0.1644,
+      "step": 16610,
+      "task_loss": 0.36576491594314575
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05292751996343522,
+      "compression/movement_sparsity/importance_threshold": -0.16444501998427363,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16185107827186584,
+      "epoch": 6.01,
+      "learning_rate": 1.9999974218318666e-06,
+      "loss": 0.1683,
+      "step": 16620,
+      "task_loss": 0.30015283823013306
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05296026331426053,
+      "compression/movement_sparsity/importance_threshold": -0.1639990071547215,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13772368431091309,
+      "epoch": 6.01,
+      "learning_rate": 1.999991334499232e-06,
+      "loss": 0.1636,
+      "step": 16630,
+      "task_loss": 0.5743692517280579
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05299294740648142,
+      "compression/movement_sparsity/importance_threshold": -0.1635538015149396,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17779430747032166,
+      "epoch": 6.01,
+      "learning_rate": 1.9999816664080824e-06,
+      "loss": 0.168,
+      "step": 16640,
+      "task_loss": 0.47371160984039307
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053025572293769266,
+      "compression/movement_sparsity/importance_threshold": -0.16310940233384463,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12829241156578064,
+      "epoch": 6.02,
+      "learning_rate": 1.999968417593037e-06,
+      "loss": 0.1725,
+      "step": 16650,
+      "task_loss": 0.22890448570251465
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05305813802979552,
+      "compression/movement_sparsity/importance_threshold": -0.1626658088803521,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14386427402496338,
+      "epoch": 6.02,
+      "learning_rate": 1.9999515881015373e-06,
+      "loss": 0.1647,
+      "step": 16660,
+      "task_loss": 0.41270148754119873
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05309064466823156,
+      "compression/movement_sparsity/importance_threshold": -0.16222302042337844,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13118350505828857,
+      "epoch": 6.02,
+      "learning_rate": 1.999931177993846e-06,
+      "loss": 0.1577,
+      "step": 16670,
+      "task_loss": 0.9137722253799438
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05312309226274881,
+      "compression/movement_sparsity/importance_threshold": -0.16178103623183948,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14832520484924316,
+      "epoch": 6.03,
+      "learning_rate": 1.9999071873430475e-06,
+      "loss": 0.157,
+      "step": 16680,
+      "task_loss": 0.44995182752609253
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05315548086701868,
+      "compression/movement_sparsity/importance_threshold": -0.16133985557465147,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12737812101840973,
+      "epoch": 6.03,
+      "learning_rate": 1.9998796162350473e-06,
+      "loss": 0.1638,
+      "step": 16690,
+      "task_loss": 0.2989009916782379
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053187810534712575,
+      "compression/movement_sparsity/importance_threshold": -0.16089947772073032,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14384889602661133,
+      "epoch": 6.04,
+      "learning_rate": 1.999848464768571e-06,
+      "loss": 0.1604,
+      "step": 16700,
+      "task_loss": 0.636667013168335
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053220081319501907,
+      "compression/movement_sparsity/importance_threshold": -0.1604599019389923,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14905652403831482,
+      "epoch": 6.04,
+      "learning_rate": 1.999813733055167e-06,
+      "loss": 0.1519,
+      "step": 16710,
+      "task_loss": 0.5293204188346863
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0532522932750581,
+      "compression/movement_sparsity/importance_threshold": -0.16002112749835318,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14722052216529846,
+      "epoch": 6.04,
+      "learning_rate": 1.9997754212192007e-06,
+      "loss": 0.1677,
+      "step": 16720,
+      "task_loss": 0.4709875285625458
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05328444645505254,
+      "compression/movement_sparsity/importance_threshold": -0.15958315366772924,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16393886506557465,
+      "epoch": 6.05,
+      "learning_rate": 1.9997335293978595e-06,
+      "loss": 0.166,
+      "step": 16730,
+      "task_loss": 0.4563778340816498
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05331654091315667,
+      "compression/movement_sparsity/importance_threshold": -0.1591459797160365,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1607019305229187,
+      "epoch": 6.05,
+      "learning_rate": 1.999688057741149e-06,
+      "loss": 0.1704,
+      "step": 16740,
+      "task_loss": 0.49112173914909363
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05334857670304187,
+      "compression/movement_sparsity/importance_threshold": -0.1587096049121911,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1364935040473938,
+      "epoch": 6.05,
+      "learning_rate": 1.999639006411894e-06,
+      "loss": 0.1494,
+      "step": 16750,
+      "task_loss": 0.3835960328578949
+    },
+    {
+      "epoch": 6.05,
+      "eval_exact_match": 83.57615894039735,
+      "eval_f1": 89.92193376526602,
+      "step": 16750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053380553878379575,
+      "compression/movement_sparsity/importance_threshold": -0.15827402852510886,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1750296950340271,
+      "epoch": 6.06,
+      "learning_rate": 1.9995863755857365e-06,
+      "loss": 0.174,
+      "step": 16760,
+      "task_loss": 0.39857983589172363
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05341247249284118,
+      "compression/movement_sparsity/importance_threshold": -0.157839249823706,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15796607732772827,
+      "epoch": 6.06,
+      "learning_rate": 1.9995301654511367e-06,
+      "loss": 0.1571,
+      "step": 16770,
+      "task_loss": 0.6707438826560974
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05344433260009809,
+      "compression/movement_sparsity/importance_threshold": -0.1574052680768988,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14516857266426086,
+      "epoch": 6.06,
+      "learning_rate": 1.999470376209371e-06,
+      "loss": 0.1627,
+      "step": 16780,
+      "task_loss": 0.5306075811386108
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053476134253821736,
+      "compression/movement_sparsity/importance_threshold": -0.15697208255360307,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18241889774799347,
+      "epoch": 6.07,
+      "learning_rate": 1.9994070080745324e-06,
+      "loss": 0.1769,
+      "step": 16790,
+      "task_loss": 0.6663118600845337
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05350787750768351,
+      "compression/movement_sparsity/importance_threshold": -0.1565396925227348,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1332705169916153,
+      "epoch": 6.07,
+      "learning_rate": 1.9993400612735286e-06,
+      "loss": 0.1623,
+      "step": 16800,
+      "task_loss": 0.518804132938385
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053539562415354826,
+      "compression/movement_sparsity/importance_threshold": -0.1561080972532104,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13718751072883606,
+      "epoch": 6.08,
+      "learning_rate": 1.999269536046082e-06,
+      "loss": 0.1616,
+      "step": 16810,
+      "task_loss": 0.29684680700302124
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0535711890305071,
+      "compression/movement_sparsity/importance_threshold": -0.15567729601394564,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16599276661872864,
+      "epoch": 6.08,
+      "learning_rate": 1.9991954326447287e-06,
+      "loss": 0.1692,
+      "step": 16820,
+      "task_loss": 0.32731759548187256
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05360275740681175,
+      "compression/movement_sparsity/importance_threshold": -0.15524728807385668,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16123579442501068,
+      "epoch": 6.08,
+      "learning_rate": 1.9991177513348175e-06,
+      "loss": 0.1853,
+      "step": 16830,
+      "task_loss": 0.48672449588775635
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053634267597940176,
+      "compression/movement_sparsity/importance_threshold": -0.15481807270185954,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19667679071426392,
+      "epoch": 6.09,
+      "learning_rate": 1.9990364923945086e-06,
+      "loss": 0.1792,
+      "step": 16840,
+      "task_loss": 0.5587581992149353
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05366571965756378,
+      "compression/movement_sparsity/importance_threshold": -0.15438964916687037,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16758200526237488,
+      "epoch": 6.09,
+      "learning_rate": 1.9989516561147736e-06,
+      "loss": 0.1634,
+      "step": 16850,
+      "task_loss": 0.39092981815338135
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053697113639354,
+      "compression/movement_sparsity/importance_threshold": -0.15396201673780519,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16262221336364746,
+      "epoch": 6.09,
+      "learning_rate": 1.9988632427993927e-06,
+      "loss": 0.1754,
+      "step": 16860,
+      "task_loss": 0.632863461971283
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05372844959698221,
+      "compression/movement_sparsity/importance_threshold": -0.15353517468358013,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13204121589660645,
+      "epoch": 6.1,
+      "learning_rate": 1.9987712527649556e-06,
+      "loss": 0.1688,
+      "step": 16870,
+      "task_loss": 0.37428024411201477
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05375972758411986,
+      "compression/movement_sparsity/importance_threshold": -0.15310912227311113,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16641512513160706,
+      "epoch": 6.1,
+      "learning_rate": 1.9986756863408597e-06,
+      "loss": 0.1674,
+      "step": 16880,
+      "task_loss": 0.3117241859436035
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05379094765443833,
+      "compression/movement_sparsity/importance_threshold": -0.15268385877531432,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15495559573173523,
+      "epoch": 6.1,
+      "learning_rate": 1.9985765438693077e-06,
+      "loss": 0.1739,
+      "step": 16890,
+      "task_loss": 0.7027961015701294
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053822109861609034,
+      "compression/movement_sparsity/importance_threshold": -0.15225938345910583,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15895962715148926,
+      "epoch": 6.11,
+      "learning_rate": 1.998473825705308e-06,
+      "loss": 0.1733,
+      "step": 16900,
+      "task_loss": 0.5291743874549866
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0538532142593034,
+      "compression/movement_sparsity/importance_threshold": -0.1518356955934017,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15101155638694763,
+      "epoch": 6.11,
+      "learning_rate": 1.9983675322166733e-06,
+      "loss": 0.1672,
+      "step": 16910,
+      "task_loss": 0.5095721483230591
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053884260901192825,
+      "compression/movement_sparsity/importance_threshold": -0.15141279444711797,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12188731133937836,
+      "epoch": 6.11,
+      "learning_rate": 1.9982576637840178e-06,
+      "loss": 0.1629,
+      "step": 16920,
+      "task_loss": 0.5534610748291016
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053915249840948726,
+      "compression/movement_sparsity/importance_threshold": -0.15099067928917054,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15203392505645752,
+      "epoch": 6.12,
+      "learning_rate": 1.9981442208007564e-06,
+      "loss": 0.1687,
+      "step": 16930,
+      "task_loss": 0.4714369475841522
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0539461811322425,
+      "compression/movement_sparsity/importance_threshold": -0.15056934938847588,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1437663435935974,
+      "epoch": 6.12,
+      "learning_rate": 1.9980272036731065e-06,
+      "loss": 0.1692,
+      "step": 16940,
+      "task_loss": 0.2952896058559418
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.053977054828745576,
+      "compression/movement_sparsity/importance_threshold": -0.1501488040139497,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14852911233901978,
+      "epoch": 6.13,
+      "learning_rate": 1.9979066128200797e-06,
+      "loss": 0.1635,
+      "step": 16950,
+      "task_loss": 0.7087572813034058
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05400787098412936,
+      "compression/movement_sparsity/importance_threshold": -0.14972904243450824,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15441861748695374,
+      "epoch": 6.13,
+      "learning_rate": 1.997782448673488e-06,
+      "loss": 0.1647,
+      "step": 16960,
+      "task_loss": 0.46169987320899963
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05403862965206526,
+      "compression/movement_sparsity/importance_threshold": -0.14931006391906743,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13028943538665771,
+      "epoch": 6.13,
+      "learning_rate": 1.9976547116779365e-06,
+      "loss": 0.1576,
+      "step": 16970,
+      "task_loss": 0.4005166292190552
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054069330886224676,
+      "compression/movement_sparsity/importance_threshold": -0.1488918677365435,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1454225480556488,
+      "epoch": 6.14,
+      "learning_rate": 1.9975234022908244e-06,
+      "loss": 0.1506,
+      "step": 16980,
+      "task_loss": 0.6841634511947632
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054099974740279035,
+      "compression/movement_sparsity/importance_threshold": -0.1484744531558524,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15946821868419647,
+      "epoch": 6.14,
+      "learning_rate": 1.997388520982343e-06,
+      "loss": 0.1786,
+      "step": 16990,
+      "task_loss": 0.5624659061431885
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054130561267899745,
+      "compression/movement_sparsity/importance_threshold": -0.14805781944591023,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13070663809776306,
+      "epoch": 6.14,
+      "learning_rate": 1.997250068235474e-06,
+      "loss": 0.1544,
+      "step": 17000,
+      "task_loss": 0.46055838465690613
+    },
+    {
+      "epoch": 6.14,
+      "eval_exact_match": 83.52885525070955,
+      "eval_f1": 89.92910145189475,
+      "step": 17000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05416109052275821,
+      "compression/movement_sparsity/importance_threshold": -0.14764196587563316,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14563003182411194,
+      "epoch": 6.15,
+      "learning_rate": 1.9971080445459876e-06,
+      "loss": 0.1777,
+      "step": 17010,
+      "task_loss": 0.31575658917427063
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054191562558525835,
+      "compression/movement_sparsity/importance_threshold": -0.1472268917139371,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12489091604948044,
+      "epoch": 6.15,
+      "learning_rate": 1.9969624504224404e-06,
+      "loss": 0.1681,
+      "step": 17020,
+      "task_loss": 0.3158435821533203
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05422197742887405,
+      "compression/movement_sparsity/importance_threshold": -0.14681259622973808,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1576835811138153,
+      "epoch": 6.15,
+      "learning_rate": 1.996813286386175e-06,
+      "loss": 0.1627,
+      "step": 17030,
+      "task_loss": 0.5685656070709229
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05425233518747425,
+      "compression/movement_sparsity/importance_threshold": -0.14639907869195234,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15400083363056183,
+      "epoch": 6.16,
+      "learning_rate": 1.9966605529713155e-06,
+      "loss": 0.1656,
+      "step": 17040,
+      "task_loss": 0.24658185243606567
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05428263588799785,
+      "compression/movement_sparsity/importance_threshold": -0.14598633836949582,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13884764909744263,
+      "epoch": 6.16,
+      "learning_rate": 1.996504250724769e-06,
+      "loss": 0.1629,
+      "step": 17050,
+      "task_loss": 0.5981327295303345
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054312879584116264,
+      "compression/movement_sparsity/importance_threshold": -0.14557437453128474,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1670169234275818,
+      "epoch": 6.17,
+      "learning_rate": 1.9963443802062207e-06,
+      "loss": 0.1626,
+      "step": 17060,
+      "task_loss": 0.34697288274765015
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054343066329500894,
+      "compression/movement_sparsity/importance_threshold": -0.14516318644623505,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16179323196411133,
+      "epoch": 6.17,
+      "learning_rate": 1.996180941988133e-06,
+      "loss": 0.1609,
+      "step": 17070,
+      "task_loss": 0.5075516700744629
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05437319617782316,
+      "compression/movement_sparsity/importance_threshold": -0.14475277338326276,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1471652388572693,
+      "epoch": 6.17,
+      "learning_rate": 1.9960139366557434e-06,
+      "loss": 0.1641,
+      "step": 17080,
+      "task_loss": 0.41368719935417175
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05440326918275447,
+      "compression/movement_sparsity/importance_threshold": -0.144343134611284,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1576196253299713,
+      "epoch": 6.18,
+      "learning_rate": 1.995843364807064e-06,
+      "loss": 0.179,
+      "step": 17090,
+      "task_loss": 0.5158824324607849
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05443328539796623,
+      "compression/movement_sparsity/importance_threshold": -0.14393426939921494,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1396743804216385,
+      "epoch": 6.18,
+      "learning_rate": 1.9956692270528757e-06,
+      "loss": 0.1645,
+      "step": 17100,
+      "task_loss": 0.4924278259277344
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054463244877129856,
+      "compression/movement_sparsity/importance_threshold": -0.14352617701597148,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18293413519859314,
+      "epoch": 6.18,
+      "learning_rate": 1.9954915240167297e-06,
+      "loss": 0.1677,
+      "step": 17110,
+      "task_loss": 0.60299152135849
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05449314767391675,
+      "compression/movement_sparsity/importance_threshold": -0.14311885673046976,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.167672261595726,
+      "epoch": 6.19,
+      "learning_rate": 1.995310256334943e-06,
+      "loss": 0.1653,
+      "step": 17120,
+      "task_loss": 0.39202722907066345
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05452299384199834,
+      "compression/movement_sparsity/importance_threshold": -0.1427123078116258,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18624365329742432,
+      "epoch": 6.19,
+      "learning_rate": 1.995125424656597e-06,
+      "loss": 0.1685,
+      "step": 17130,
+      "task_loss": 0.6348949074745178
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054552783435046014,
+      "compression/movement_sparsity/importance_threshold": -0.14230652952835587,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14822807908058167,
+      "epoch": 6.19,
+      "learning_rate": 1.9949370296435347e-06,
+      "loss": 0.1655,
+      "step": 17140,
+      "task_loss": 0.44887471199035645
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0545825165067312,
+      "compression/movement_sparsity/importance_threshold": -0.14190152114957577,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1382816731929779,
+      "epoch": 6.2,
+      "learning_rate": 1.99474507197036e-06,
+      "loss": 0.1745,
+      "step": 17150,
+      "task_loss": 0.2659206986427307
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05461219311072531,
+      "compression/movement_sparsity/importance_threshold": -0.14149728194420164,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1857585608959198,
+      "epoch": 6.2,
+      "learning_rate": 1.9945495523244317e-06,
+      "loss": 0.1702,
+      "step": 17160,
+      "task_loss": 0.5841749906539917
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05464181330069973,
+      "compression/movement_sparsity/importance_threshold": -0.1410938111811496,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14488109946250916,
+      "epoch": 6.21,
+      "learning_rate": 1.994350471405865e-06,
+      "loss": 0.1559,
+      "step": 17170,
+      "task_loss": 0.7074770927429199
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054671377130325896,
+      "compression/movement_sparsity/importance_threshold": -0.14069110812933583,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13776680827140808,
+      "epoch": 6.21,
+      "learning_rate": 1.994147829927527e-06,
+      "loss": 0.1737,
+      "step": 17180,
+      "task_loss": 0.48739925026893616
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05470088465327521,
+      "compression/movement_sparsity/importance_threshold": -0.1402891720576761,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20274044573307037,
+      "epoch": 6.21,
+      "learning_rate": 1.9939416286150343e-06,
+      "loss": 0.1674,
+      "step": 17190,
+      "task_loss": 0.47881031036376953
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05473033592321909,
+      "compression/movement_sparsity/importance_threshold": -0.13988800223508668,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1323615312576294,
+      "epoch": 6.22,
+      "learning_rate": 1.9937318682067498e-06,
+      "loss": 0.1702,
+      "step": 17200,
+      "task_loss": 0.3447995185852051
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05475973099382892,
+      "compression/movement_sparsity/importance_threshold": -0.13948759793048382,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15247386693954468,
+      "epoch": 6.22,
+      "learning_rate": 1.9935185494537817e-06,
+      "loss": 0.1743,
+      "step": 17210,
+      "task_loss": 0.5565829277038574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054789069918776155,
+      "compression/movement_sparsity/importance_threshold": -0.1390879584127831,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16268417239189148,
+      "epoch": 6.22,
+      "learning_rate": 1.9933016731199798e-06,
+      "loss": 0.1532,
+      "step": 17220,
+      "task_loss": 0.5147459506988525
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05481835275173216,
+      "compression/movement_sparsity/importance_threshold": -0.138689082950901,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13939876854419708,
+      "epoch": 6.23,
+      "learning_rate": 1.993081239981932e-06,
+      "loss": 0.1782,
+      "step": 17230,
+      "task_loss": 0.19769251346588135
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05484757954636838,
+      "compression/movement_sparsity/importance_threshold": -0.1382909708137533,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1804233193397522,
+      "epoch": 6.23,
+      "learning_rate": 1.9928572508289638e-06,
+      "loss": 0.1763,
+      "step": 17240,
+      "task_loss": 0.3552435040473938
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0548767503563562,
+      "compression/movement_sparsity/importance_threshold": -0.1378936212702564,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12657399475574493,
+      "epoch": 6.23,
+      "learning_rate": 1.9926297064631324e-06,
+      "loss": 0.1487,
+      "step": 17250,
+      "task_loss": 0.3169633448123932
+    },
+    {
+      "epoch": 6.23,
+      "eval_exact_match": 83.73699148533585,
+      "eval_f1": 90.10480575796605,
+      "step": 17250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05490586523536706,
+      "compression/movement_sparsity/importance_threshold": -0.13749703358932597,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15277908742427826,
+      "epoch": 6.24,
+      "learning_rate": 1.9923986076992264e-06,
+      "loss": 0.171,
+      "step": 17260,
+      "task_loss": 0.472973108291626
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05493492423707234,
+      "compression/movement_sparsity/importance_threshold": -0.13710120703987838,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15695881843566895,
+      "epoch": 6.24,
+      "learning_rate": 1.9921639553647624e-06,
+      "loss": 0.1665,
+      "step": 17270,
+      "task_loss": 0.6075320839881897
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05496392741514347,
+      "compression/movement_sparsity/importance_threshold": -0.13670614089082955,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18700659275054932,
+      "epoch": 6.25,
+      "learning_rate": 1.991925750299981e-06,
+      "loss": 0.1821,
+      "step": 17280,
+      "task_loss": 0.6988071799278259
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.054992874823251846,
+      "compression/movement_sparsity/importance_threshold": -0.13631183441109584,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15885579586029053,
+      "epoch": 6.25,
+      "learning_rate": 1.9916839933578437e-06,
+      "loss": 0.162,
+      "step": 17290,
+      "task_loss": 0.19446536898612976
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05502176651506889,
+      "compression/movement_sparsity/importance_threshold": -0.13591828686959284,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19656088948249817,
+      "epoch": 6.25,
+      "learning_rate": 1.991438685404032e-06,
+      "loss": 0.1763,
+      "step": 17300,
+      "task_loss": 0.423044353723526
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05505060254426602,
+      "compression/movement_sparsity/importance_threshold": -0.1355254975352368,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16628031432628632,
+      "epoch": 6.26,
+      "learning_rate": 1.9911898273169412e-06,
+      "loss": 0.1661,
+      "step": 17310,
+      "task_loss": 0.35148802399635315
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05507938296451462,
+      "compression/movement_sparsity/importance_threshold": -0.13513346567694406,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16762763261795044,
+      "epoch": 6.26,
+      "learning_rate": 1.990937419987681e-06,
+      "loss": 0.1662,
+      "step": 17320,
+      "task_loss": 0.6487798690795898
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05510810782948613,
+      "compression/movement_sparsity/importance_threshold": -0.13474219056363024,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1576879620552063,
+      "epoch": 6.26,
+      "learning_rate": 1.9906814643200674e-06,
+      "loss": 0.1753,
+      "step": 17330,
+      "task_loss": 0.31458860635757446
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.055136777192851934,
+      "compression/movement_sparsity/importance_threshold": -0.13435167146421179,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12366840243339539,
+      "epoch": 6.27,
+      "learning_rate": 1.9904219612306246e-06,
+      "loss": 0.1771,
+      "step": 17340,
+      "task_loss": 0.3803785443305969
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05516539110828347,
+      "compression/movement_sparsity/importance_threshold": -0.13396190764760452,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16160424053668976,
+      "epoch": 6.27,
+      "learning_rate": 1.9901589116485788e-06,
+      "loss": 0.1682,
+      "step": 17350,
+      "task_loss": 0.5825801491737366
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05519394962945213,
+      "compression/movement_sparsity/importance_threshold": -0.13357289838272457,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.225599467754364,
+      "epoch": 6.27,
+      "learning_rate": 1.9898923165158548e-06,
+      "loss": 0.1655,
+      "step": 17360,
+      "task_loss": 0.45244693756103516
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05522245281002932,
+      "compression/movement_sparsity/importance_threshold": -0.1331846429384882,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16648636758327484,
+      "epoch": 6.28,
+      "learning_rate": 1.989622176787074e-06,
+      "loss": 0.164,
+      "step": 17370,
+      "task_loss": 0.3290000557899475
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05525090070368647,
+      "compression/movement_sparsity/importance_threshold": -0.1327971405838111,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18633422255516052,
+      "epoch": 6.28,
+      "learning_rate": 1.9893484934295492e-06,
+      "loss": 0.1719,
+      "step": 17380,
+      "task_loss": 0.5563036799430847
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05527929336409498,
+      "compression/movement_sparsity/importance_threshold": -0.13241039058760962,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1366187334060669,
+      "epoch": 6.28,
+      "learning_rate": 1.9890712674232838e-06,
+      "loss": 0.1834,
+      "step": 17390,
+      "task_loss": 0.3646396994590759
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05530763084492626,
+      "compression/movement_sparsity/importance_threshold": -0.1320243922187998,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16789717972278595,
+      "epoch": 6.29,
+      "learning_rate": 1.9887904997609654e-06,
+      "loss": 0.1746,
+      "step": 17400,
+      "task_loss": 0.47817733883857727
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05533591319985172,
+      "compression/movement_sparsity/importance_threshold": -0.13163914474629757,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21855862438678741,
+      "epoch": 6.29,
+      "learning_rate": 1.9885061914479633e-06,
+      "loss": 0.1875,
+      "step": 17410,
+      "task_loss": 0.40912604331970215
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05536414048254276,
+      "compression/movement_sparsity/importance_threshold": -0.13125464743901927,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1337123066186905,
+      "epoch": 6.3,
+      "learning_rate": 1.9882183435023266e-06,
+      "loss": 0.166,
+      "step": 17420,
+      "task_loss": 0.3562582731246948
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05539231274667082,
+      "compression/movement_sparsity/importance_threshold": -0.1308708995658806,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16915687918663025,
+      "epoch": 6.3,
+      "learning_rate": 1.987926956954778e-06,
+      "loss": 0.1834,
+      "step": 17430,
+      "task_loss": 0.5122113227844238
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.055420430045907285,
+      "compression/movement_sparsity/importance_threshold": -0.13048790039579783,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14700746536254883,
+      "epoch": 6.3,
+      "learning_rate": 1.9876320328487113e-06,
+      "loss": 0.1639,
+      "step": 17440,
+      "task_loss": 0.47502970695495605
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05544849243392357,
+      "compression/movement_sparsity/importance_threshold": -0.13010564919768708,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1848972737789154,
+      "epoch": 6.31,
+      "learning_rate": 1.9873335722401875e-06,
+      "loss": 0.1724,
+      "step": 17450,
+      "task_loss": 0.7271729707717896
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0554764999643911,
+      "compression/movement_sparsity/importance_threshold": -0.12972414524046427,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11952685564756393,
+      "epoch": 6.31,
+      "learning_rate": 1.9870315761979317e-06,
+      "loss": 0.1617,
+      "step": 17460,
+      "task_loss": 0.1481960266828537
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05550445269098127,
+      "compression/movement_sparsity/importance_threshold": -0.12934338779304566,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14205265045166016,
+      "epoch": 6.31,
+      "learning_rate": 1.9867260458033276e-06,
+      "loss": 0.1649,
+      "step": 17470,
+      "task_loss": 0.2205222249031067
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0555323506673655,
+      "compression/movement_sparsity/importance_threshold": -0.12896337612434705,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14286062121391296,
+      "epoch": 6.32,
+      "learning_rate": 1.986416982150416e-06,
+      "loss": 0.1646,
+      "step": 17480,
+      "task_loss": 0.28470635414123535
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05556019394721519,
+      "compression/movement_sparsity/importance_threshold": -0.1285841095032848,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1712353527545929,
+      "epoch": 6.32,
+      "learning_rate": 1.9861043863458876e-06,
+      "loss": 0.1574,
+      "step": 17490,
+      "task_loss": 0.5386769771575928
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05558798258420176,
+      "compression/movement_sparsity/importance_threshold": -0.12820558719877473,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13892130553722382,
+      "epoch": 6.32,
+      "learning_rate": 1.9857882595090833e-06,
+      "loss": 0.1648,
+      "step": 17500,
+      "task_loss": 0.49137255549430847
+    },
+    {
+      "epoch": 6.32,
+      "eval_exact_match": 83.58561967833491,
+      "eval_f1": 90.0004746665234,
+      "step": 17500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05561571663199662,
+      "compression/movement_sparsity/importance_threshold": -0.12782780847973296,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16053462028503418,
+      "epoch": 6.33,
+      "learning_rate": 1.985468602771986e-06,
+      "loss": 0.1744,
+      "step": 17510,
+      "task_loss": 0.41019684076309204
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05564339614427117,
+      "compression/movement_sparsity/importance_threshold": -0.12745077261507576,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1520998179912567,
+      "epoch": 6.33,
+      "learning_rate": 1.98514541727922e-06,
+      "loss": 0.1696,
+      "step": 17520,
+      "task_loss": 0.5022592544555664
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05567102117469682,
+      "compression/movement_sparsity/importance_threshold": -0.12707447887371903,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12280330061912537,
+      "epoch": 6.34,
+      "learning_rate": 1.984818704188044e-06,
+      "loss": 0.1538,
+      "step": 17530,
+      "task_loss": 0.34392112493515015
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05569859177694501,
+      "compression/movement_sparsity/importance_threshold": -0.12669892652457881,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2284255176782608,
+      "epoch": 6.34,
+      "learning_rate": 1.9844884646683487e-06,
+      "loss": 0.1699,
+      "step": 17540,
+      "task_loss": 0.39971989393234253
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05572610800468712,
+      "compression/movement_sparsity/importance_threshold": -0.12632411483657113,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15068349242210388,
+      "epoch": 6.34,
+      "learning_rate": 1.984154699902653e-06,
+      "loss": 0.1684,
+      "step": 17550,
+      "task_loss": 0.36631715297698975
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05575356991159457,
+      "compression/movement_sparsity/importance_threshold": -0.12595004307861224,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12671113014221191,
+      "epoch": 6.35,
+      "learning_rate": 1.983817411086097e-06,
+      "loss": 0.1697,
+      "step": 17560,
+      "task_loss": 0.49995699524879456
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.055780977551338776,
+      "compression/movement_sparsity/importance_threshold": -0.12557671051961794,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1240062266588211,
+      "epoch": 6.35,
+      "learning_rate": 1.9834765994264426e-06,
+      "loss": 0.1615,
+      "step": 17570,
+      "task_loss": 0.3404150605201721
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.055808330977591136,
+      "compression/movement_sparsity/importance_threshold": -0.1252041164285046,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15258857607841492,
+      "epoch": 6.35,
+      "learning_rate": 1.983132266144064e-06,
+      "loss": 0.1698,
+      "step": 17580,
+      "task_loss": 0.7967875599861145
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05583563024402308,
+      "compression/movement_sparsity/importance_threshold": -0.12483226007418802,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14428968727588654,
+      "epoch": 6.36,
+      "learning_rate": 1.9827844124719453e-06,
+      "loss": 0.1595,
+      "step": 17590,
+      "task_loss": 0.44335755705833435
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05586287540430599,
+      "compression/movement_sparsity/importance_threshold": -0.12446114072558456,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19588825106620789,
+      "epoch": 6.36,
+      "learning_rate": 1.9824330396556784e-06,
+      "loss": 0.1669,
+      "step": 17600,
+      "task_loss": 0.3872692286968231
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0558900665121113,
+      "compression/movement_sparsity/importance_threshold": -0.12409075765161004,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15780013799667358,
+      "epoch": 6.36,
+      "learning_rate": 1.982078148953455e-06,
+      "loss": 0.1693,
+      "step": 17610,
+      "task_loss": 0.36154231429100037
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05591720362111042,
+      "compression/movement_sparsity/importance_threshold": -0.12372111012118059,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18099361658096313,
+      "epoch": 6.37,
+      "learning_rate": 1.981719741636064e-06,
+      "loss": 0.1772,
+      "step": 17620,
+      "task_loss": 0.3962492346763611
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.055944286784974755,
+      "compression/movement_sparsity/importance_threshold": -0.12335219740321224,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1900426745414734,
+      "epoch": 6.37,
+      "learning_rate": 1.981357818986887e-06,
+      "loss": 0.1792,
+      "step": 17630,
+      "task_loss": 0.5194408893585205
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0559713160573757,
+      "compression/movement_sparsity/importance_threshold": -0.12298401876662124,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15779553353786469,
+      "epoch": 6.38,
+      "learning_rate": 1.9809923823018917e-06,
+      "loss": 0.1569,
+      "step": 17640,
+      "task_loss": 0.47046637535095215
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05599829149198469,
+      "compression/movement_sparsity/importance_threshold": -0.1226165734803234,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.134331613779068,
+      "epoch": 6.38,
+      "learning_rate": 1.980623432889631e-06,
+      "loss": 0.1596,
+      "step": 17650,
+      "task_loss": 0.3972647786140442
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05602521314247313,
+      "compression/movement_sparsity/importance_threshold": -0.12224986081323497,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18308016657829285,
+      "epoch": 6.38,
+      "learning_rate": 1.9802509720712354e-06,
+      "loss": 0.1725,
+      "step": 17660,
+      "task_loss": 0.6477333307266235
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05605208106251243,
+      "compression/movement_sparsity/importance_threshold": -0.12188388003427186,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13036686182022095,
+      "epoch": 6.39,
+      "learning_rate": 1.9798750011804076e-06,
+      "loss": 0.1592,
+      "step": 17670,
+      "task_loss": 0.31419873237609863
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056078895305773986,
+      "compression/movement_sparsity/importance_threshold": -0.12151863041235034,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1570032238960266,
+      "epoch": 6.39,
+      "learning_rate": 1.979495521563421e-06,
+      "loss": 0.1522,
+      "step": 17680,
+      "task_loss": 0.37213003635406494
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056105655925929226,
+      "compression/movement_sparsity/importance_threshold": -0.12115411121638642,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15974989533424377,
+      "epoch": 6.39,
+      "learning_rate": 1.9791125345791115e-06,
+      "loss": 0.165,
+      "step": 17690,
+      "task_loss": 0.33860349655151367
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05613236297664955,
+      "compression/movement_sparsity/importance_threshold": -0.12079032171529602,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13290277123451233,
+      "epoch": 6.4,
+      "learning_rate": 1.9787260415988757e-06,
+      "loss": 0.1589,
+      "step": 17700,
+      "task_loss": 0.2330818772315979
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05615901651160638,
+      "compression/movement_sparsity/importance_threshold": -0.12042726117799529,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15578773617744446,
+      "epoch": 6.4,
+      "learning_rate": 1.9783360440066637e-06,
+      "loss": 0.1779,
+      "step": 17710,
+      "task_loss": 0.7083296775817871
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05618561658447112,
+      "compression/movement_sparsity/importance_threshold": -0.12006492887340048,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15509989857673645,
+      "epoch": 6.4,
+      "learning_rate": 1.977942543198974e-06,
+      "loss": 0.1666,
+      "step": 17720,
+      "task_loss": 0.4361785352230072
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056212163248915176,
+      "compression/movement_sparsity/importance_threshold": -0.11970332407042727,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17246806621551514,
+      "epoch": 6.41,
+      "learning_rate": 1.9775455405848506e-06,
+      "loss": 0.171,
+      "step": 17730,
+      "task_loss": 0.756430983543396
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05623865655860996,
+      "compression/movement_sparsity/importance_threshold": -0.11934244603799216,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14905114471912384,
+      "epoch": 6.41,
+      "learning_rate": 1.977145037585877e-06,
+      "loss": 0.171,
+      "step": 17740,
+      "task_loss": 0.33792349696159363
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05626509656722689,
+      "compression/movement_sparsity/importance_threshold": -0.11898229404501082,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13120922446250916,
+      "epoch": 6.41,
+      "learning_rate": 1.9767410356361683e-06,
+      "loss": 0.1557,
+      "step": 17750,
+      "task_loss": 0.32760465145111084
+    },
+    {
+      "epoch": 6.41,
+      "eval_exact_match": 83.59508041627247,
+      "eval_f1": 89.9605980268485,
+      "step": 17750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05629148332843737,
+      "compression/movement_sparsity/importance_threshold": -0.11862286736039962,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17200222611427307,
+      "epoch": 6.42,
+      "learning_rate": 1.9763335361823723e-06,
+      "loss": 0.1676,
+      "step": 17760,
+      "task_loss": 0.4891778826713562
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05631781689591282,
+      "compression/movement_sparsity/importance_threshold": -0.11826416525307437,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14608396589756012,
+      "epoch": 6.42,
+      "learning_rate": 1.975922540683658e-06,
+      "loss": 0.1627,
+      "step": 17770,
+      "task_loss": 0.21372440457344055
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056344097323324634,
+      "compression/movement_sparsity/importance_threshold": -0.11790618699195143,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15041396021842957,
+      "epoch": 6.43,
+      "learning_rate": 1.975508050611714e-06,
+      "loss": 0.1692,
+      "step": 17780,
+      "task_loss": 0.372314989566803
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05637032466434423,
+      "compression/movement_sparsity/importance_threshold": -0.11754893184594672,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17189109325408936,
+      "epoch": 6.43,
+      "learning_rate": 1.975090067450742e-06,
+      "loss": 0.186,
+      "step": 17790,
+      "task_loss": 0.3796417713165283
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05639649897264304,
+      "compression/movement_sparsity/importance_threshold": -0.11719239908397616,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14438897371292114,
+      "epoch": 6.43,
+      "learning_rate": 1.9746685926974515e-06,
+      "loss": 0.1726,
+      "step": 17800,
+      "task_loss": 0.4204254746437073
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05642262030189243,
+      "compression/movement_sparsity/importance_threshold": -0.11683658797495611,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15841056406497955,
+      "epoch": 6.44,
+      "learning_rate": 1.9742436278610548e-06,
+      "loss": 0.1613,
+      "step": 17810,
+      "task_loss": 0.23542027175426483
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05644868870576385,
+      "compression/movement_sparsity/importance_threshold": -0.11648149778780237,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17361599206924438,
+      "epoch": 6.44,
+      "learning_rate": 1.9738151744632616e-06,
+      "loss": 0.195,
+      "step": 17820,
+      "task_loss": 0.2202863097190857
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05647470423792869,
+      "compression/movement_sparsity/importance_threshold": -0.11612712779143108,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14202536642551422,
+      "epoch": 6.44,
+      "learning_rate": 1.973383234038274e-06,
+      "loss": 0.1661,
+      "step": 17830,
+      "task_loss": 0.30595502257347107
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05650066695205837,
+      "compression/movement_sparsity/importance_threshold": -0.1157734772547585,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1708425134420395,
+      "epoch": 6.45,
+      "learning_rate": 1.972947808132779e-06,
+      "loss": 0.1743,
+      "step": 17840,
+      "task_loss": 0.849858820438385
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0565265769018243,
+      "compression/movement_sparsity/importance_threshold": -0.11542054544670044,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15541870892047882,
+      "epoch": 6.45,
+      "learning_rate": 1.972508898305946e-06,
+      "loss": 0.1744,
+      "step": 17850,
+      "task_loss": 0.4322483241558075
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05655243414089788,
+      "compression/movement_sparsity/importance_threshold": -0.11506833163617303,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15814724564552307,
+      "epoch": 6.45,
+      "learning_rate": 1.9720665061294173e-06,
+      "loss": 0.171,
+      "step": 17860,
+      "task_loss": 0.2430177628993988
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05657823872295053,
+      "compression/movement_sparsity/importance_threshold": -0.11471683509209252,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14094632863998413,
+      "epoch": 6.46,
+      "learning_rate": 1.9716206331873075e-06,
+      "loss": 0.175,
+      "step": 17870,
+      "task_loss": 0.36099082231521606
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05660399070165367,
+      "compression/movement_sparsity/importance_threshold": -0.11436605508337472,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15439045429229736,
+      "epoch": 6.46,
+      "learning_rate": 1.971171281076193e-06,
+      "loss": 0.1787,
+      "step": 17880,
+      "task_loss": 0.5687848329544067
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056629690130678687,
+      "compression/movement_sparsity/importance_threshold": -0.11401599087893588,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16982746124267578,
+      "epoch": 6.47,
+      "learning_rate": 1.9707184514051093e-06,
+      "loss": 0.1699,
+      "step": 17890,
+      "task_loss": 0.5424094200134277
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05665533706369701,
+      "compression/movement_sparsity/importance_threshold": -0.11366664174769192,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1268695890903473,
+      "epoch": 6.47,
+      "learning_rate": 1.970262145795545e-06,
+      "loss": 0.1744,
+      "step": 17900,
+      "task_loss": 0.22294151782989502
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056680931554380046,
+      "compression/movement_sparsity/importance_threshold": -0.11331800695855909,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15782135725021362,
+      "epoch": 6.47,
+      "learning_rate": 1.969802365881433e-06,
+      "loss": 0.1716,
+      "step": 17910,
+      "task_loss": 0.6972410678863525
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0567064736563992,
+      "compression/movement_sparsity/importance_threshold": -0.11297008578045331,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1635473221540451,
+      "epoch": 6.48,
+      "learning_rate": 1.969339113309149e-06,
+      "loss": 0.1581,
+      "step": 17920,
+      "task_loss": 0.24740125238895416
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05673196342342589,
+      "compression/movement_sparsity/importance_threshold": -0.1126228774822906,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16152726113796234,
+      "epoch": 6.48,
+      "learning_rate": 1.9688723897375036e-06,
+      "loss": 0.1625,
+      "step": 17930,
+      "task_loss": 0.4657655954360962
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05675740090913152,
+      "compression/movement_sparsity/importance_threshold": -0.11227638133298723,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.24781015515327454,
+      "epoch": 6.48,
+      "learning_rate": 1.968402196837735e-06,
+      "loss": 0.1717,
+      "step": 17940,
+      "task_loss": 0.33787935972213745
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05678278616718751,
+      "compression/movement_sparsity/importance_threshold": -0.11193059660145899,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15699215233325958,
+      "epoch": 6.49,
+      "learning_rate": 1.9679285362935054e-06,
+      "loss": 0.1605,
+      "step": 17950,
+      "task_loss": 0.3983635902404785
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056808119251265256,
+      "compression/movement_sparsity/importance_threshold": -0.11158552255662224,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14720289409160614,
+      "epoch": 6.49,
+      "learning_rate": 1.967451409800893e-06,
+      "loss": 0.1625,
+      "step": 17960,
+      "task_loss": 0.5441750288009644
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056833400215036176,
+      "compression/movement_sparsity/importance_threshold": -0.11124115846739302,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.10097290575504303,
+      "epoch": 6.49,
+      "learning_rate": 1.966970819068388e-06,
+      "loss": 0.168,
+      "step": 17970,
+      "task_loss": 0.5651923418045044
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05685862911217168,
+      "compression/movement_sparsity/importance_threshold": -0.11089750360268713,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12678371369838715,
+      "epoch": 6.5,
+      "learning_rate": 1.966486765816884e-06,
+      "loss": 0.1623,
+      "step": 17980,
+      "task_loss": 0.2238824963569641
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05688380599634319,
+      "compression/movement_sparsity/importance_threshold": -0.11055455723142082,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1631462424993515,
+      "epoch": 6.5,
+      "learning_rate": 1.9659992517796746e-06,
+      "loss": 0.1727,
+      "step": 17990,
+      "task_loss": 0.4262044131755829
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.056908930921222095,
+      "compression/movement_sparsity/importance_threshold": -0.11021231862251013,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15143990516662598,
+      "epoch": 6.51,
+      "learning_rate": 1.965508278702444e-06,
+      "loss": 0.1656,
+      "step": 18000,
+      "task_loss": 0.20069824159145355
+    },
+    {
+      "epoch": 6.51,
+      "eval_exact_match": 83.56669820245979,
+      "eval_f1": 89.97247850295564,
+      "step": 18000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05693400394047982,
+      "compression/movement_sparsity/importance_threshold": -0.10987078704487119,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16191574931144714,
+      "epoch": 6.51,
+      "learning_rate": 1.9650138483432644e-06,
+      "loss": 0.1679,
+      "step": 18010,
+      "task_loss": 0.2866957187652588
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05695902510778778,
+      "compression/movement_sparsity/importance_threshold": -0.10952996176741991,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17104315757751465,
+      "epoch": 6.51,
+      "learning_rate": 1.964515962472586e-06,
+      "loss": 0.1615,
+      "step": 18020,
+      "task_loss": 0.278532475233078
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05698399447681737,
+      "compression/movement_sparsity/importance_threshold": -0.10918984205907256,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17607031762599945,
+      "epoch": 6.52,
+      "learning_rate": 1.9640146228732343e-06,
+      "loss": 0.1609,
+      "step": 18030,
+      "task_loss": 0.624789834022522
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05700891210124001,
+      "compression/movement_sparsity/importance_threshold": -0.10885042718874505,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18854406476020813,
+      "epoch": 6.52,
+      "learning_rate": 1.9635098313404e-06,
+      "loss": 0.1678,
+      "step": 18040,
+      "task_loss": 0.5639091730117798
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05703377803472711,
+      "compression/movement_sparsity/importance_threshold": -0.10851171642535351,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18219125270843506,
+      "epoch": 6.52,
+      "learning_rate": 1.963001589681636e-06,
+      "loss": 0.1618,
+      "step": 18050,
+      "task_loss": 0.41501083970069885
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057058592330950085,
+      "compression/movement_sparsity/importance_threshold": -0.10817370903781398,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1165059357881546,
+      "epoch": 6.53,
+      "learning_rate": 1.962541223834976e-06,
+      "loss": 0.1657,
+      "step": 18060,
+      "task_loss": 0.17311452329158783
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05708335504358033,
+      "compression/movement_sparsity/importance_threshold": -0.10783640429504271,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16131412982940674,
+      "epoch": 6.53,
+      "learning_rate": 1.9620264319609926e-06,
+      "loss": 0.1773,
+      "step": 18070,
+      "task_loss": 0.451940655708313
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05710806622628928,
+      "compression/movement_sparsity/importance_threshold": -0.10749980146595539,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15116122364997864,
+      "epoch": 6.53,
+      "learning_rate": 1.96150819527282e-06,
+      "loss": 0.1819,
+      "step": 18080,
+      "task_loss": 0.49812251329421997
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05713272593274832,
+      "compression/movement_sparsity/importance_threshold": -0.10716389981946839,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1451411247253418,
+      "epoch": 6.54,
+      "learning_rate": 1.960986515626155e-06,
+      "loss": 0.1655,
+      "step": 18090,
+      "task_loss": 0.2867373824119568
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05715733421662887,
+      "compression/movement_sparsity/importance_threshold": -0.10682869862449773,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14213800430297852,
+      "epoch": 6.54,
+      "learning_rate": 1.960461394889023e-06,
+      "loss": 0.1562,
+      "step": 18100,
+      "task_loss": 0.3731827139854431
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05718189113160235,
+      "compression/movement_sparsity/importance_threshold": -0.10649419714995934,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1480969786643982,
+      "epoch": 6.54,
+      "learning_rate": 1.95993283494177e-06,
+      "loss": 0.1588,
+      "step": 18110,
+      "task_loss": 0.45702794194221497
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05720639673134016,
+      "compression/movement_sparsity/importance_threshold": -0.10616039466476945,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16650226712226868,
+      "epoch": 6.55,
+      "learning_rate": 1.9594008376770582e-06,
+      "loss": 0.1623,
+      "step": 18120,
+      "task_loss": 0.3911457359790802
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05723085106951372,
+      "compression/movement_sparsity/importance_threshold": -0.105827290437844,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1613444685935974,
+      "epoch": 6.55,
+      "learning_rate": 1.9588654049998583e-06,
+      "loss": 0.1854,
+      "step": 18130,
+      "task_loss": 0.46520888805389404
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057255254199794436,
+      "compression/movement_sparsity/importance_threshold": -0.10549488373809901,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15832461416721344,
+      "epoch": 6.56,
+      "learning_rate": 1.958326538827442e-06,
+      "loss": 0.1664,
+      "step": 18140,
+      "task_loss": 0.6141856908798218
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0572796061758537,
+      "compression/movement_sparsity/importance_threshold": -0.10516317383445084,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2309219241142273,
+      "epoch": 6.56,
+      "learning_rate": 1.9577842410893747e-06,
+      "loss": 0.1814,
+      "step": 18150,
+      "task_loss": 0.7296000719070435
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05730390705136296,
+      "compression/movement_sparsity/importance_threshold": -0.10483215999581541,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1386280059814453,
+      "epoch": 6.56,
+      "learning_rate": 1.9572385137275114e-06,
+      "loss": 0.1704,
+      "step": 18160,
+      "task_loss": 0.33172696828842163
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05732815687999359,
+      "compression/movement_sparsity/importance_threshold": -0.10450184149110864,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16742317378520966,
+      "epoch": 6.57,
+      "learning_rate": 1.9566893586959866e-06,
+      "loss": 0.1627,
+      "step": 18170,
+      "task_loss": 0.7185513973236084
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05735235571541704,
+      "compression/movement_sparsity/importance_threshold": -0.10417221758924655,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14879506826400757,
+      "epoch": 6.57,
+      "learning_rate": 1.956136777961209e-06,
+      "loss": 0.1696,
+      "step": 18180,
+      "task_loss": 0.5774948596954346
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057376503611304676,
+      "compression/movement_sparsity/importance_threshold": -0.10384328755914563,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1316477358341217,
+      "epoch": 6.57,
+      "learning_rate": 1.955580773501854e-06,
+      "loss": 0.1585,
+      "step": 18190,
+      "task_loss": 0.15516257286071777
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05740060062132793,
+      "compression/movement_sparsity/importance_threshold": -0.10351505066972155,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13433092832565308,
+      "epoch": 6.58,
+      "learning_rate": 1.955021347308856e-06,
+      "loss": 0.1766,
+      "step": 18200,
+      "task_loss": 0.3908587694168091
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05742464679915822,
+      "compression/movement_sparsity/importance_threshold": -0.10318750618989048,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12410083413124084,
+      "epoch": 6.58,
+      "learning_rate": 1.954458501385403e-06,
+      "loss": 0.1743,
+      "step": 18210,
+      "task_loss": 0.5834453105926514
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05744864219846695,
+      "compression/movement_sparsity/importance_threshold": -0.10286065338856853,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14193576574325562,
+      "epoch": 6.58,
+      "learning_rate": 1.953892237746928e-06,
+      "loss": 0.1661,
+      "step": 18220,
+      "task_loss": 0.4615253806114197
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05747258687292553,
+      "compression/movement_sparsity/importance_threshold": -0.10253449153467176,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17011338472366333,
+      "epoch": 6.59,
+      "learning_rate": 1.9533225584211015e-06,
+      "loss": 0.1622,
+      "step": 18230,
+      "task_loss": 0.2667291462421417
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05749648087620537,
+      "compression/movement_sparsity/importance_threshold": -0.10220901989711617,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.156767338514328,
+      "epoch": 6.59,
+      "learning_rate": 1.952749465447825e-06,
+      "loss": 0.1639,
+      "step": 18240,
+      "task_loss": 0.37695831060409546
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057520324261977875,
+      "compression/movement_sparsity/importance_threshold": -0.10188423774481792,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13007321953773499,
+      "epoch": 6.6,
+      "learning_rate": 1.9521729608792247e-06,
+      "loss": 0.1629,
+      "step": 18250,
+      "task_loss": 0.50368332862854
+    },
+    {
+      "epoch": 6.6,
+      "eval_exact_match": 83.60454115421003,
+      "eval_f1": 89.95005100815796,
+      "step": 18250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05754411708391447,
+      "compression/movement_sparsity/importance_threshold": -0.10156014434669303,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1553541123867035,
+      "epoch": 6.6,
+      "learning_rate": 1.9515930467796414e-06,
+      "loss": 0.1703,
+      "step": 18260,
+      "task_loss": 0.3957485556602478
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05756785939568656,
+      "compression/movement_sparsity/importance_threshold": -0.10123673897165752,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18168096244335175,
+      "epoch": 6.6,
+      "learning_rate": 1.9510097252256255e-06,
+      "loss": 0.1604,
+      "step": 18270,
+      "task_loss": 0.38172927498817444
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057591551250965545,
+      "compression/movement_sparsity/importance_threshold": -0.10091402088862766,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17573542892932892,
+      "epoch": 6.61,
+      "learning_rate": 1.9504229983059294e-06,
+      "loss": 0.1685,
+      "step": 18280,
+      "task_loss": 0.23665164411067963
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05761519270342284,
+      "compression/movement_sparsity/importance_threshold": -0.10059198936651925,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14210020005702972,
+      "epoch": 6.61,
+      "learning_rate": 1.949832868121498e-06,
+      "loss": 0.168,
+      "step": 18290,
+      "task_loss": 0.3023013472557068
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05763878380672986,
+      "compression/movement_sparsity/importance_threshold": -0.10027064367424865,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1647496223449707,
+      "epoch": 6.61,
+      "learning_rate": 1.9492393367854633e-06,
+      "loss": 0.1695,
+      "step": 18300,
+      "task_loss": 0.5862131118774414
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05766232461455803,
+      "compression/movement_sparsity/importance_threshold": -0.09994998308073144,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18408089876174927,
+      "epoch": 6.62,
+      "learning_rate": 1.9486424064231367e-06,
+      "loss": 0.1789,
+      "step": 18310,
+      "task_loss": 0.5712409615516663
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05768581518057873,
+      "compression/movement_sparsity/importance_threshold": -0.09963000685488421,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16597400605678558,
+      "epoch": 6.62,
+      "learning_rate": 1.9480420791719995e-06,
+      "loss": 0.172,
+      "step": 18320,
+      "task_loss": 0.297050803899765
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05770925555846339,
+      "compression/movement_sparsity/importance_threshold": -0.09931071426562277,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15080735087394714,
+      "epoch": 6.62,
+      "learning_rate": 1.9474383571816978e-06,
+      "loss": 0.1865,
+      "step": 18330,
+      "task_loss": 0.6137457489967346
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05773264580188341,
+      "compression/movement_sparsity/importance_threshold": -0.09899210458186325,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13079148530960083,
+      "epoch": 6.63,
+      "learning_rate": 1.9468312426140326e-06,
+      "loss": 0.1616,
+      "step": 18340,
+      "task_loss": 0.3845100402832031
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057755985964510224,
+      "compression/movement_sparsity/importance_threshold": -0.09867417707252157,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19262845814228058,
+      "epoch": 6.63,
+      "learning_rate": 1.9462207376429537e-06,
+      "loss": 0.1708,
+      "step": 18350,
+      "task_loss": 0.3163360357284546
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05777927610001521,
+      "compression/movement_sparsity/importance_threshold": -0.0983569310065141,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15635263919830322,
+      "epoch": 6.64,
+      "learning_rate": 1.9456068444545504e-06,
+      "loss": 0.1548,
+      "step": 18360,
+      "task_loss": 0.3761829733848572
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0578025162620698,
+      "compression/movement_sparsity/importance_threshold": -0.09804036565275664,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14289672672748566,
+      "epoch": 6.64,
+      "learning_rate": 1.944989565247046e-06,
+      "loss": 0.167,
+      "step": 18370,
+      "task_loss": 0.3219255805015564
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057825706504345396,
+      "compression/movement_sparsity/importance_threshold": -0.09772448028016545,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1459888368844986,
+      "epoch": 6.64,
+      "learning_rate": 1.944368902230786e-06,
+      "loss": 0.1658,
+      "step": 18380,
+      "task_loss": 0.33508729934692383
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057848846880513415,
+      "compression/movement_sparsity/importance_threshold": -0.09740927415765632,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15043103694915771,
+      "epoch": 6.65,
+      "learning_rate": 1.943744857628235e-06,
+      "loss": 0.1693,
+      "step": 18390,
+      "task_loss": 0.3376499116420746
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057871937444245264,
+      "compression/movement_sparsity/importance_threshold": -0.09709474655414563,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1579783409833908,
+      "epoch": 6.65,
+      "learning_rate": 1.9431174336739656e-06,
+      "loss": 0.1664,
+      "step": 18400,
+      "task_loss": 0.4792447090148926
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05789497824921235,
+      "compression/movement_sparsity/importance_threshold": -0.09678089673854928,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12249864637851715,
+      "epoch": 6.65,
+      "learning_rate": 1.9424866326146506e-06,
+      "loss": 0.1631,
+      "step": 18410,
+      "task_loss": 0.4236283302307129
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05791796934908609,
+      "compression/movement_sparsity/importance_threshold": -0.09646772397978332,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15789994597434998,
+      "epoch": 6.66,
+      "learning_rate": 1.941852456709056e-06,
+      "loss": 0.166,
+      "step": 18420,
+      "task_loss": 0.3791453540325165
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057940910797537895,
+      "compression/movement_sparsity/importance_threshold": -0.09615522754676387,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11831511557102203,
+      "epoch": 6.66,
+      "learning_rate": 1.9412149082280315e-06,
+      "loss": 0.1675,
+      "step": 18430,
+      "task_loss": 0.28735044598579407
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057963802648239166,
+      "compression/movement_sparsity/importance_threshold": -0.09584340670840708,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17035847902297974,
+      "epoch": 6.66,
+      "learning_rate": 1.9405739894545044e-06,
+      "loss": 0.1814,
+      "step": 18440,
+      "task_loss": 0.3237995505332947
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.057986644954861326,
+      "compression/movement_sparsity/importance_threshold": -0.09553226073362886,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14559730887413025,
+      "epoch": 6.67,
+      "learning_rate": 1.9399297026834707e-06,
+      "loss": 0.1559,
+      "step": 18450,
+      "task_loss": 0.3083050549030304
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05800943777107577,
+      "compression/movement_sparsity/importance_threshold": -0.09522178889134547,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1738000512123108,
+      "epoch": 6.67,
+      "learning_rate": 1.939282050221985e-06,
+      "loss": 0.1549,
+      "step": 18460,
+      "task_loss": 0.7337498664855957
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058032181150553926,
+      "compression/movement_sparsity/importance_threshold": -0.0949119904504726,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13351115584373474,
+      "epoch": 6.68,
+      "learning_rate": 1.9386310343891546e-06,
+      "loss": 0.1679,
+      "step": 18470,
+      "task_loss": 0.33444127440452576
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05805487514696719,
+      "compression/movement_sparsity/importance_threshold": -0.09460286467992685,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15732640027999878,
+      "epoch": 6.68,
+      "learning_rate": 1.9379766575161305e-06,
+      "loss": 0.1589,
+      "step": 18480,
+      "task_loss": 0.35811203718185425
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05807751981398699,
+      "compression/movement_sparsity/importance_threshold": -0.09429441084862367,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14750367403030396,
+      "epoch": 6.68,
+      "learning_rate": 1.937318921946098e-06,
+      "loss": 0.1596,
+      "step": 18490,
+      "task_loss": 0.21471939980983734
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05810011520528472,
+      "compression/movement_sparsity/importance_threshold": -0.09398662822547976,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16651684045791626,
+      "epoch": 6.69,
+      "learning_rate": 1.93665783003427e-06,
+      "loss": 0.167,
+      "step": 18500,
+      "task_loss": 0.6148971319198608
+    },
+    {
+      "epoch": 6.69,
+      "eval_exact_match": 83.69914853358561,
+      "eval_f1": 90.03513064764907,
+      "step": 18500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058122661374531794,
+      "compression/movement_sparsity/importance_threshold": -0.09367951607941072,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16546697914600372,
+      "epoch": 6.69,
+      "learning_rate": 1.935993384147878e-06,
+      "loss": 0.1774,
+      "step": 18510,
+      "task_loss": 0.5665580630302429
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05814515837539962,
+      "compression/movement_sparsity/importance_threshold": -0.0933730736793329,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14349332451820374,
+      "epoch": 6.69,
+      "learning_rate": 1.9353255866661615e-06,
+      "loss": 0.1656,
+      "step": 18520,
+      "task_loss": 0.6033084988594055
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058167606261559625,
+      "compression/movement_sparsity/importance_threshold": -0.09306730029416221,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14493785798549652,
+      "epoch": 6.7,
+      "learning_rate": 1.9346544399803647e-06,
+      "loss": 0.1629,
+      "step": 18530,
+      "task_loss": 0.3323573172092438
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05819000508668321,
+      "compression/movement_sparsity/importance_threshold": -0.0927621951928147,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12968416512012482,
+      "epoch": 6.7,
+      "learning_rate": 1.933979946493721e-06,
+      "loss": 0.16,
+      "step": 18540,
+      "task_loss": 0.27857789397239685
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05821235490444178,
+      "compression/movement_sparsity/importance_threshold": -0.0924577576442066,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14049646258354187,
+      "epoch": 6.7,
+      "learning_rate": 1.93330210862145e-06,
+      "loss": 0.1607,
+      "step": 18550,
+      "task_loss": 0.4084530472755432
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05823465576850675,
+      "compression/movement_sparsity/importance_threshold": -0.09215398691725374,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15300214290618896,
+      "epoch": 6.71,
+      "learning_rate": 1.9326209287907472e-06,
+      "loss": 0.1835,
+      "step": 18560,
+      "task_loss": 0.3902439773082733
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05825690773254952,
+      "compression/movement_sparsity/importance_threshold": -0.09185088228087246,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1685321033000946,
+      "epoch": 6.71,
+      "learning_rate": 1.9319364094407734e-06,
+      "loss": 0.1601,
+      "step": 18570,
+      "task_loss": 0.27366265654563904
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05827911085024152,
+      "compression/movement_sparsity/importance_threshold": -0.09154844300397869,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18406498432159424,
+      "epoch": 6.71,
+      "learning_rate": 1.931248553022649e-06,
+      "loss": 0.1699,
+      "step": 18580,
+      "task_loss": 0.5142942070960999
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05830126517525415,
+      "compression/movement_sparsity/importance_threshold": -0.09124666835548845,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15226216614246368,
+      "epoch": 6.72,
+      "learning_rate": 1.9305573619994426e-06,
+      "loss": 0.1693,
+      "step": 18590,
+      "task_loss": 0.43030428886413574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058323370761258826,
+      "compression/movement_sparsity/importance_threshold": -0.09094555760431777,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14825284481048584,
+      "epoch": 6.72,
+      "learning_rate": 1.929862838846164e-06,
+      "loss": 0.1628,
+      "step": 18600,
+      "task_loss": 0.4481026530265808
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05834542766192694,
+      "compression/movement_sparsity/importance_threshold": -0.09064511001938291,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1773342490196228,
+      "epoch": 6.73,
+      "learning_rate": 1.929164986049754e-06,
+      "loss": 0.1774,
+      "step": 18610,
+      "task_loss": 0.4238778352737427
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05836743593092993,
+      "compression/movement_sparsity/importance_threshold": -0.09034532486959979,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16140668094158173,
+      "epoch": 6.73,
+      "learning_rate": 1.928463806109077e-06,
+      "loss": 0.1705,
+      "step": 18620,
+      "task_loss": 0.650934100151062
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05838939562193919,
+      "compression/movement_sparsity/importance_threshold": -0.09004620142388442,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17616376280784607,
+      "epoch": 6.73,
+      "learning_rate": 1.9277593015349107e-06,
+      "loss": 0.1894,
+      "step": 18630,
+      "task_loss": 0.4096485376358032
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05841130678862614,
+      "compression/movement_sparsity/importance_threshold": -0.08974773895115307,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1400645673274994,
+      "epoch": 6.74,
+      "learning_rate": 1.927051474849938e-06,
+      "loss": 0.1758,
+      "step": 18640,
+      "task_loss": 0.45845314860343933
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05843316948466218,
+      "compression/movement_sparsity/importance_threshold": -0.08944993672032164,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16155488789081573,
+      "epoch": 6.74,
+      "learning_rate": 1.926340328588737e-06,
+      "loss": 0.1759,
+      "step": 18650,
+      "task_loss": 0.44465121626853943
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05845498376371872,
+      "compression/movement_sparsity/importance_threshold": -0.08915279400030629,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.21582606434822083,
+      "epoch": 6.74,
+      "learning_rate": 1.9256258652977727e-06,
+      "loss": 0.1758,
+      "step": 18660,
+      "task_loss": 0.5472663640975952
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05847674967946718,
+      "compression/movement_sparsity/importance_threshold": -0.08885631006002304,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13278156518936157,
+      "epoch": 6.75,
+      "learning_rate": 1.924908087535388e-06,
+      "loss": 0.1683,
+      "step": 18670,
+      "task_loss": 0.3198769688606262
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05849846728557897,
+      "compression/movement_sparsity/importance_threshold": -0.08856048416838802,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16864389181137085,
+      "epoch": 6.75,
+      "learning_rate": 1.924186997871794e-06,
+      "loss": 0.1601,
+      "step": 18680,
+      "task_loss": 0.4776211082935333
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0585201366357255,
+      "compression/movement_sparsity/importance_threshold": -0.08826531559431705,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13846157491207123,
+      "epoch": 6.75,
+      "learning_rate": 1.9234625988890605e-06,
+      "loss": 0.1714,
+      "step": 18690,
+      "task_loss": 0.5768707990646362
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05854175778357817,
+      "compression/movement_sparsity/importance_threshold": -0.0879708036067266,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18022726476192474,
+      "epoch": 6.76,
+      "learning_rate": 1.9227348931811093e-06,
+      "loss": 0.165,
+      "step": 18700,
+      "task_loss": 0.46484941244125366
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0585633307828084,
+      "compression/movement_sparsity/importance_threshold": -0.08767694747453247,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1907450407743454,
+      "epoch": 6.76,
+      "learning_rate": 1.922003883353699e-06,
+      "loss": 0.1671,
+      "step": 18710,
+      "task_loss": 0.5632059574127197
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05858485568708759,
+      "compression/movement_sparsity/importance_threshold": -0.08738374646665081,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15245582163333893,
+      "epoch": 6.77,
+      "learning_rate": 1.9212695720244245e-06,
+      "loss": 0.1807,
+      "step": 18720,
+      "task_loss": 0.5414676070213318
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058606332550087174,
+      "compression/movement_sparsity/importance_threshold": -0.08709119985199754,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1406639814376831,
+      "epoch": 6.77,
+      "learning_rate": 1.9205319618226984e-06,
+      "loss": 0.1676,
+      "step": 18730,
+      "task_loss": 0.3787824213504791
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05862776142547855,
+      "compression/movement_sparsity/importance_threshold": -0.08679930689948889,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1576058268547058,
+      "epoch": 6.77,
+      "learning_rate": 1.919791055389748e-06,
+      "loss": 0.1666,
+      "step": 18740,
+      "task_loss": 0.5415380001068115
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05864914236693311,
+      "compression/movement_sparsity/importance_threshold": -0.08650806687804102,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1747387945652008,
+      "epoch": 6.78,
+      "learning_rate": 1.919046855378604e-06,
+      "loss": 0.1728,
+      "step": 18750,
+      "task_loss": 0.3638462424278259
+    },
+    {
+      "epoch": 6.78,
+      "eval_exact_match": 83.69914853358561,
+      "eval_f1": 90.11730656848496,
+      "step": 18750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058670475428122294,
+      "compression/movement_sparsity/importance_threshold": -0.08621747905656973,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14378315210342407,
+      "epoch": 6.78,
+      "learning_rate": 1.918299364454089e-06,
+      "loss": 0.1612,
+      "step": 18760,
+      "task_loss": 0.7437037825584412
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058691760662717495,
+      "compression/movement_sparsity/importance_threshold": -0.08592754270399128,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16446062922477722,
+      "epoch": 6.78,
+      "learning_rate": 1.917548585292811e-06,
+      "loss": 0.1757,
+      "step": 18770,
+      "task_loss": 0.5021160840988159
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05871299812439014,
+      "compression/movement_sparsity/importance_threshold": -0.08563825708922157,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14091575145721436,
+      "epoch": 6.79,
+      "learning_rate": 1.9167945205831526e-06,
+      "loss": 0.177,
+      "step": 18780,
+      "task_loss": 0.618760883808136
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05873418786681161,
+      "compression/movement_sparsity/importance_threshold": -0.08534962148117686,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13678541779518127,
+      "epoch": 6.79,
+      "learning_rate": 1.9160371730252607e-06,
+      "loss": 0.1767,
+      "step": 18790,
+      "task_loss": 0.43866440653800964
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058755329943653345,
+      "compression/movement_sparsity/importance_threshold": -0.08506163514877318,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17583860456943512,
+      "epoch": 6.79,
+      "learning_rate": 1.9152765453310366e-06,
+      "loss": 0.1779,
+      "step": 18800,
+      "task_loss": 0.7005617618560791
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05877642440858674,
+      "compression/movement_sparsity/importance_threshold": -0.08477429736092645,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14417672157287598,
+      "epoch": 6.8,
+      "learning_rate": 1.9145126402241293e-06,
+      "loss": 0.1687,
+      "step": 18810,
+      "task_loss": 0.5040542483329773
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05879747131528321,
+      "compression/movement_sparsity/importance_threshold": -0.08448760738655292,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17511731386184692,
+      "epoch": 6.8,
+      "learning_rate": 1.9137454604399215e-06,
+      "loss": 0.1786,
+      "step": 18820,
+      "task_loss": 0.6716142892837524
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05881847071741417,
+      "compression/movement_sparsity/importance_threshold": -0.0842015644945685,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16290408372879028,
+      "epoch": 6.81,
+      "learning_rate": 1.9129750087255232e-06,
+      "loss": 0.1747,
+      "step": 18830,
+      "task_loss": 0.4927728772163391
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05883942266865102,
+      "compression/movement_sparsity/importance_threshold": -0.08391616795388934,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16758540272712708,
+      "epoch": 6.81,
+      "learning_rate": 1.9122012878397593e-06,
+      "loss": 0.1568,
+      "step": 18840,
+      "task_loss": 0.3878645896911621
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058860327222665175,
+      "compression/movement_sparsity/importance_threshold": -0.08363141703343147,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14906227588653564,
+      "epoch": 6.81,
+      "learning_rate": 1.911424300553161e-06,
+      "loss": 0.1536,
+      "step": 18850,
+      "task_loss": 0.20304948091506958
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05888118443312805,
+      "compression/movement_sparsity/importance_threshold": -0.08334731100211101,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1479981690645218,
+      "epoch": 6.82,
+      "learning_rate": 1.9106440496479573e-06,
+      "loss": 0.1643,
+      "step": 18860,
+      "task_loss": 0.6089077591896057
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05890199435371106,
+      "compression/movement_sparsity/importance_threshold": -0.08306384912884401,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.143125981092453,
+      "epoch": 6.82,
+      "learning_rate": 1.9098605379180613e-06,
+      "loss": 0.1653,
+      "step": 18870,
+      "task_loss": 0.32572343945503235
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058922757038085596,
+      "compression/movement_sparsity/importance_threshold": -0.08278103068254661,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13448187708854675,
+      "epoch": 6.82,
+      "learning_rate": 1.909073768169065e-06,
+      "loss": 0.1586,
+      "step": 18880,
+      "task_loss": 0.4831852912902832
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058943472539923096,
+      "compression/movement_sparsity/importance_threshold": -0.0824988549321346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14394140243530273,
+      "epoch": 6.83,
+      "learning_rate": 1.908283743218224e-06,
+      "loss": 0.1585,
+      "step": 18890,
+      "task_loss": 0.41934144496917725
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05896414091289494,
+      "compression/movement_sparsity/importance_threshold": -0.08221732114652447,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14577503502368927,
+      "epoch": 6.83,
+      "learning_rate": 1.9074904658944524e-06,
+      "loss": 0.1639,
+      "step": 18900,
+      "task_loss": 0.29828184843063354
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.058984762210672566,
+      "compression/movement_sparsity/importance_threshold": -0.0819364285946318,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1624283492565155,
+      "epoch": 6.83,
+      "learning_rate": 1.9066939390383086e-06,
+      "loss": 0.1667,
+      "step": 18910,
+      "task_loss": 0.37106114625930786
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059005336486927365,
+      "compression/movement_sparsity/importance_threshold": -0.08165617654537305,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1468050479888916,
+      "epoch": 6.84,
+      "learning_rate": 1.905894165501988e-06,
+      "loss": 0.163,
+      "step": 18920,
+      "task_loss": 0.7496539354324341
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05902586379533076,
+      "compression/movement_sparsity/importance_threshold": -0.08137656426766415,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15505670011043549,
+      "epoch": 6.84,
+      "learning_rate": 1.9050911481493112e-06,
+      "loss": 0.163,
+      "step": 18930,
+      "task_loss": 0.45304474234580994
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05904634418955415,
+      "compression/movement_sparsity/importance_threshold": -0.08109759103042113,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17738257348537445,
+      "epoch": 6.84,
+      "learning_rate": 1.9042848898557145e-06,
+      "loss": 0.1714,
+      "step": 18940,
+      "task_loss": 0.4849020838737488
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05906677772326896,
+      "compression/movement_sparsity/importance_threshold": -0.08081925610256013,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12414862960577011,
+      "epoch": 6.85,
+      "learning_rate": 1.903475393508239e-06,
+      "loss": 0.1536,
+      "step": 18950,
+      "task_loss": 0.5212274789810181
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05908716445014659,
+      "compression/movement_sparsity/importance_threshold": -0.08054155875299718,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16516438126564026,
+      "epoch": 6.85,
+      "learning_rate": 1.9026626620055208e-06,
+      "loss": 0.1734,
+      "step": 18960,
+      "task_loss": 0.3675074577331543
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059107504423858453,
+      "compression/movement_sparsity/importance_threshold": -0.0802644982506483,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13828526437282562,
+      "epoch": 6.86,
+      "learning_rate": 1.9018466982577802e-06,
+      "loss": 0.1617,
+      "step": 18970,
+      "task_loss": 0.44366180896759033
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05912779769807596,
+      "compression/movement_sparsity/importance_threshold": -0.07998807386442963,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1504247784614563,
+      "epoch": 6.86,
+      "learning_rate": 1.9010275051868123e-06,
+      "loss": 0.1575,
+      "step": 18980,
+      "task_loss": 0.5267570614814758
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05914804432647053,
+      "compression/movement_sparsity/importance_threshold": -0.07971228486325721,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1422831118106842,
+      "epoch": 6.86,
+      "learning_rate": 1.9002050857259743e-06,
+      "loss": 0.1798,
+      "step": 18990,
+      "task_loss": 0.38829371333122253
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059168244362713555,
+      "compression/movement_sparsity/importance_threshold": -0.07943713051604717,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14333003759384155,
+      "epoch": 6.87,
+      "learning_rate": 1.8993794428201775e-06,
+      "loss": 0.1553,
+      "step": 19000,
+      "task_loss": 0.5657933950424194
+    },
+    {
+      "epoch": 6.87,
+      "eval_exact_match": 83.60454115421003,
+      "eval_f1": 89.96767923298626,
+      "step": 19000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059188397860476465,
+      "compression/movement_sparsity/importance_threshold": -0.07916261009171532,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16756048798561096,
+      "epoch": 6.87,
+      "learning_rate": 1.8985505794258754e-06,
+      "loss": 0.1683,
+      "step": 19010,
+      "task_loss": 0.4580082893371582
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059208504873430656,
+      "compression/movement_sparsity/importance_threshold": -0.07888872285917803,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13767385482788086,
+      "epoch": 6.87,
+      "learning_rate": 1.8977184985110535e-06,
+      "loss": 0.1644,
+      "step": 19020,
+      "task_loss": 0.33297887444496155
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059228565455247545,
+      "compression/movement_sparsity/importance_threshold": -0.07861546808735143,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1662845015525818,
+      "epoch": 6.88,
+      "learning_rate": 1.8968832030552182e-06,
+      "loss": 0.1624,
+      "step": 19030,
+      "task_loss": 0.7603532671928406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05924857965959853,
+      "compression/movement_sparsity/importance_threshold": -0.07834284504515132,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14940595626831055,
+      "epoch": 6.88,
+      "learning_rate": 1.8960446960493872e-06,
+      "loss": 0.168,
+      "step": 19040,
+      "task_loss": 0.357892781496048
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05926854754015506,
+      "compression/movement_sparsity/importance_threshold": -0.07807085300149363,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1585623174905777,
+      "epoch": 6.88,
+      "learning_rate": 1.895202980496077e-06,
+      "loss": 0.172,
+      "step": 19050,
+      "task_loss": 0.2738313674926758
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059288469150588496,
+      "compression/movement_sparsity/importance_threshold": -0.07779949122529495,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14924949407577515,
+      "epoch": 6.89,
+      "learning_rate": 1.8943580594092942e-06,
+      "loss": 0.1706,
+      "step": 19060,
+      "task_loss": 0.4149706959724426
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059308344544570284,
+      "compression/movement_sparsity/importance_threshold": -0.07752875898547096,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12119010835886002,
+      "epoch": 6.89,
+      "learning_rate": 1.8935099358145233e-06,
+      "loss": 0.1463,
+      "step": 19070,
+      "task_loss": 0.31337571144104004
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05932817377577181,
+      "compression/movement_sparsity/importance_threshold": -0.0772586555509378,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13046619296073914,
+      "epoch": 6.9,
+      "learning_rate": 1.8926586127487165e-06,
+      "loss": 0.1732,
+      "step": 19080,
+      "task_loss": 0.577675461769104
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05934795689786451,
+      "compression/movement_sparsity/importance_threshold": -0.07698918019061152,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13301792740821838,
+      "epoch": 6.9,
+      "learning_rate": 1.8918040932602822e-06,
+      "loss": 0.1594,
+      "step": 19090,
+      "task_loss": 0.38307079672813416
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059367693964519776,
+      "compression/movement_sparsity/importance_threshold": -0.07672033217340835,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15103420615196228,
+      "epoch": 6.9,
+      "learning_rate": 1.8909463804090753e-06,
+      "loss": 0.1592,
+      "step": 19100,
+      "task_loss": 0.5020593404769897
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059387385029409025,
+      "compression/movement_sparsity/importance_threshold": -0.0764521107682441,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14066827297210693,
+      "epoch": 6.91,
+      "learning_rate": 1.890085477266385e-06,
+      "loss": 0.1688,
+      "step": 19110,
+      "task_loss": 0.2139877825975418
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05940703014620367,
+      "compression/movement_sparsity/importance_threshold": -0.07618451524403502,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1647796630859375,
+      "epoch": 6.91,
+      "learning_rate": 1.8892213869149238e-06,
+      "loss": 0.1717,
+      "step": 19120,
+      "task_loss": 0.4196796417236328
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05942662936857511,
+      "compression/movement_sparsity/importance_threshold": -0.07591754486969715,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17903751134872437,
+      "epoch": 6.91,
+      "learning_rate": 1.8883541124488178e-06,
+      "loss": 0.1747,
+      "step": 19130,
+      "task_loss": 0.399991512298584
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059446182750194775,
+      "compression/movement_sparsity/importance_threshold": -0.07565119891414651,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13912296295166016,
+      "epoch": 6.92,
+      "learning_rate": 1.8874836569735942e-06,
+      "loss": 0.1705,
+      "step": 19140,
+      "task_loss": 0.6287709474563599
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05946569034473405,
+      "compression/movement_sparsity/importance_threshold": -0.07538547664629924,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14840209484100342,
+      "epoch": 6.92,
+      "learning_rate": 1.8866100236061708e-06,
+      "loss": 0.1693,
+      "step": 19150,
+      "task_loss": 0.45292603969573975
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05948515220586437,
+      "compression/movement_sparsity/importance_threshold": -0.07512037733507126,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1409136801958084,
+      "epoch": 6.92,
+      "learning_rate": 1.885733215474845e-06,
+      "loss": 0.1563,
+      "step": 19160,
+      "task_loss": 0.23241209983825684
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05950456838725712,
+      "compression/movement_sparsity/importance_threshold": -0.07485590024937894,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2178533971309662,
+      "epoch": 6.93,
+      "learning_rate": 1.8848532357192824e-06,
+      "loss": 0.1765,
+      "step": 19170,
+      "task_loss": 0.4487258791923523
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059523938942583746,
+      "compression/movement_sparsity/importance_threshold": -0.07459204465813785,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13762247562408447,
+      "epoch": 6.93,
+      "learning_rate": 1.8839700874905046e-06,
+      "loss": 0.169,
+      "step": 19180,
+      "task_loss": 0.3723566234111786
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059543263925515635,
+      "compression/movement_sparsity/importance_threshold": -0.07432880983026457,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17009657621383667,
+      "epoch": 6.94,
+      "learning_rate": 1.8830837739508802e-06,
+      "loss": 0.1631,
+      "step": 19190,
+      "task_loss": 0.23757542669773102
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05956254338972419,
+      "compression/movement_sparsity/importance_threshold": -0.07406619503467493,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19928023219108582,
+      "epoch": 6.94,
+      "learning_rate": 1.8821942982741113e-06,
+      "loss": 0.1832,
+      "step": 19200,
+      "task_loss": 0.39194488525390625
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05958177738888084,
+      "compression/movement_sparsity/importance_threshold": -0.07380419954028494,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13645857572555542,
+      "epoch": 6.94,
+      "learning_rate": 1.8813016636452228e-06,
+      "loss": 0.155,
+      "step": 19210,
+      "task_loss": 0.3137187361717224
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059600965976657,
+      "compression/movement_sparsity/importance_threshold": -0.07354282261601064,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1318303644657135,
+      "epoch": 6.95,
+      "learning_rate": 1.8804058732605516e-06,
+      "loss": 0.1635,
+      "step": 19220,
+      "task_loss": 0.3633446991443634
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05962010920672406,
+      "compression/movement_sparsity/importance_threshold": -0.07328206353076827,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1735188364982605,
+      "epoch": 6.95,
+      "learning_rate": 1.879506930327735e-06,
+      "loss": 0.1601,
+      "step": 19230,
+      "task_loss": 0.5617966651916504
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05963920713275343,
+      "compression/movement_sparsity/importance_threshold": -0.07302192155347387,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1602572202682495,
+      "epoch": 6.95,
+      "learning_rate": 1.8786048380656979e-06,
+      "loss": 0.1736,
+      "step": 19240,
+      "task_loss": 0.35640949010849
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05965825980841654,
+      "compression/movement_sparsity/importance_threshold": -0.07276239595304346,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17654402554035187,
+      "epoch": 6.96,
+      "learning_rate": 1.8776995997046424e-06,
+      "loss": 0.1577,
+      "step": 19250,
+      "task_loss": 0.3391542434692383
+    },
+    {
+      "epoch": 6.96,
+      "eval_exact_match": 83.50047303689688,
+      "eval_f1": 89.92843125598556,
+      "step": 19250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05967726728738478,
+      "compression/movement_sparsity/importance_threshold": -0.07250348599839318,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12063628435134888,
+      "epoch": 6.96,
+      "learning_rate": 1.876791218486038e-06,
+      "loss": 0.1641,
+      "step": 19260,
+      "task_loss": 0.405428946018219
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059696229623329586,
+      "compression/movement_sparsity/importance_threshold": -0.07224519095843895,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.148264080286026,
+      "epoch": 6.96,
+      "learning_rate": 1.8758796976626056e-06,
+      "loss": 0.1597,
+      "step": 19270,
+      "task_loss": 0.3504221439361572
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05971514686992235,
+      "compression/movement_sparsity/importance_threshold": -0.07198751010209681,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18574409186840057,
+      "epoch": 6.97,
+      "learning_rate": 1.8749650404983096e-06,
+      "loss": 0.1745,
+      "step": 19280,
+      "task_loss": 0.5480473041534424
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05973401908083449,
+      "compression/movement_sparsity/importance_threshold": -0.07173044269828299,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1708531677722931,
+      "epoch": 6.97,
+      "learning_rate": 1.8740472502683445e-06,
+      "loss": 0.1658,
+      "step": 19290,
+      "task_loss": 0.329237699508667
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05975284630973741,
+      "compression/movement_sparsity/importance_threshold": -0.07147398801591365,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14285686612129211,
+      "epoch": 6.98,
+      "learning_rate": 1.8731263302591249e-06,
+      "loss": 0.1752,
+      "step": 19300,
+      "task_loss": 0.46866947412490845
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05977162861030252,
+      "compression/movement_sparsity/importance_threshold": -0.07121814532390458,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.149366557598114,
+      "epoch": 6.98,
+      "learning_rate": 1.8722022837682707e-06,
+      "loss": 0.1703,
+      "step": 19310,
+      "task_loss": 0.5933884382247925
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059790366036201234,
+      "compression/movement_sparsity/importance_threshold": -0.07096291389117193,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16207867860794067,
+      "epoch": 6.98,
+      "learning_rate": 1.8712751141045983e-06,
+      "loss": 0.1811,
+      "step": 19320,
+      "task_loss": 0.36161190271377563
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05980905864110496,
+      "compression/movement_sparsity/importance_threshold": -0.07070829298663195,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17707979679107666,
+      "epoch": 6.99,
+      "learning_rate": 1.8703448245881071e-06,
+      "loss": 0.1718,
+      "step": 19330,
+      "task_loss": 0.3630777597427368
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05982770647868512,
+      "compression/movement_sparsity/importance_threshold": -0.07045428187920033,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14741402864456177,
+      "epoch": 6.99,
+      "learning_rate": 1.8694114185499679e-06,
+      "loss": 0.172,
+      "step": 19340,
+      "task_loss": 0.31712833046913147
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05984630960261311,
+      "compression/movement_sparsity/importance_threshold": -0.07020087983779355,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13535742461681366,
+      "epoch": 6.99,
+      "learning_rate": 1.8684748993325111e-06,
+      "loss": 0.1702,
+      "step": 19350,
+      "task_loss": 0.33675703406333923
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05986486806656035,
+      "compression/movement_sparsity/importance_threshold": -0.06994808613132752,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16717709600925446,
+      "epoch": 7.0,
+      "learning_rate": 1.8675352702892155e-06,
+      "loss": 0.1711,
+      "step": 19360,
+      "task_loss": 0.6665349006652832
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05988338192419825,
+      "compression/movement_sparsity/importance_threshold": -0.06969590002871806,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17918677628040314,
+      "epoch": 7.0,
+      "learning_rate": 1.866592534784695e-06,
+      "loss": 0.1832,
+      "step": 19370,
+      "task_loss": 0.6708546876907349
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.059901851229198215,
+      "compression/movement_sparsity/importance_threshold": -0.06944432079888163,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14213892817497253,
+      "epoch": 7.0,
+      "learning_rate": 1.8656466961946862e-06,
+      "loss": 0.169,
+      "step": 19380,
+      "task_loss": 0.372379332780838
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05992027603523166,
+      "compression/movement_sparsity/importance_threshold": -0.06919334771073415,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17070825397968292,
+      "epoch": 7.01,
+      "learning_rate": 1.8646977579060389e-06,
+      "loss": 0.1609,
+      "step": 19390,
+      "task_loss": 0.3748677968978882
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05993865639596999,
+      "compression/movement_sparsity/importance_threshold": -0.06894298003319155,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2126743048429489,
+      "epoch": 7.01,
+      "learning_rate": 1.8637457233167005e-06,
+      "loss": 0.1668,
+      "step": 19400,
+      "task_loss": 0.5745400190353394
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05995699236508463,
+      "compression/movement_sparsity/importance_threshold": -0.06869321703517006,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.130209818482399,
+      "epoch": 7.01,
+      "learning_rate": 1.8627905958357073e-06,
+      "loss": 0.1665,
+      "step": 19410,
+      "task_loss": 0.34854692220687866
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05997528399624697,
+      "compression/movement_sparsity/importance_threshold": -0.06844405798558584,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15571898221969604,
+      "epoch": 7.02,
+      "learning_rate": 1.8618323788831697e-06,
+      "loss": 0.1792,
+      "step": 19420,
+      "task_loss": 0.6182477474212646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.05999353134312843,
+      "compression/movement_sparsity/importance_threshold": -0.06819550215335468,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1204761266708374,
+      "epoch": 7.02,
+      "learning_rate": 1.8608710758902607e-06,
+      "loss": 0.1644,
+      "step": 19430,
+      "task_loss": 0.415132999420166
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06001173445940043,
+      "compression/movement_sparsity/importance_threshold": -0.06794754880739273,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18349982798099518,
+      "epoch": 7.03,
+      "learning_rate": 1.859906690299204e-06,
+      "loss": 0.1842,
+      "step": 19440,
+      "task_loss": 0.5370660424232483
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06002989339873437,
+      "compression/movement_sparsity/importance_threshold": -0.06770019721661613,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1359555423259735,
+      "epoch": 7.03,
+      "learning_rate": 1.8589392255632617e-06,
+      "loss": 0.1724,
+      "step": 19450,
+      "task_loss": 0.41707509756088257
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060048008214801656,
+      "compression/movement_sparsity/importance_threshold": -0.06745344664994113,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15165475010871887,
+      "epoch": 7.03,
+      "learning_rate": 1.857968685146721e-06,
+      "loss": 0.1643,
+      "step": 19460,
+      "task_loss": 0.43051207065582275
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06006607896127371,
+      "compression/movement_sparsity/importance_threshold": -0.06720729637628331,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1730663776397705,
+      "epoch": 7.04,
+      "learning_rate": 1.8569950725248831e-06,
+      "loss": 0.1654,
+      "step": 19470,
+      "task_loss": 0.5514428615570068
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06008410569182194,
+      "compression/movement_sparsity/importance_threshold": -0.06696174566455915,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15489190816879272,
+      "epoch": 7.04,
+      "learning_rate": 1.85601839118405e-06,
+      "loss": 0.1711,
+      "step": 19480,
+      "task_loss": 0.3652356266975403
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06010208846011775,
+      "compression/movement_sparsity/importance_threshold": -0.06671679378368456,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12107902020215988,
+      "epoch": 7.04,
+      "learning_rate": 1.8550386446215121e-06,
+      "loss": 0.1532,
+      "step": 19490,
+      "task_loss": 0.49454283714294434
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060120027319832556,
+      "compression/movement_sparsity/importance_threshold": -0.06647244000257568,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1640836000442505,
+      "epoch": 7.05,
+      "learning_rate": 1.8540558363455353e-06,
+      "loss": 0.1532,
+      "step": 19500,
+      "task_loss": 0.3784339427947998
+    },
+    {
+      "epoch": 7.05,
+      "eval_exact_match": 83.57615894039735,
+      "eval_f1": 89.98257156583203,
+      "step": 19500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06013792232463777,
+      "compression/movement_sparsity/importance_threshold": -0.06622868359014844,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1305304914712906,
+      "epoch": 7.05,
+      "learning_rate": 1.8530699698753494e-06,
+      "loss": 0.1526,
+      "step": 19510,
+      "task_loss": 0.4855495095252991
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0601557735282048,
+      "compression/movement_sparsity/importance_threshold": -0.06598552381531908,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.121201291680336,
+      "epoch": 7.05,
+      "learning_rate": 1.8520810487411347e-06,
+      "loss": 0.1668,
+      "step": 19520,
+      "task_loss": 0.5691750049591064
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060173580984205055,
+      "compression/movement_sparsity/importance_threshold": -0.06574295994700352,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14304503798484802,
+      "epoch": 7.06,
+      "learning_rate": 1.8510890764840098e-06,
+      "loss": 0.1623,
+      "step": 19530,
+      "task_loss": 0.4884259104728699
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060191344746309945,
+      "compression/movement_sparsity/importance_threshold": -0.06550099125411801,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1405264437198639,
+      "epoch": 7.06,
+      "learning_rate": 1.8500940566560187e-06,
+      "loss": 0.1557,
+      "step": 19540,
+      "task_loss": 0.7580517530441284
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060209064868190894,
+      "compression/movement_sparsity/importance_threshold": -0.06525961700557836,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14326691627502441,
+      "epoch": 7.07,
+      "learning_rate": 1.8490959928201173e-06,
+      "loss": 0.1639,
+      "step": 19550,
+      "task_loss": 0.7660905122756958
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06022674140351929,
+      "compression/movement_sparsity/importance_threshold": -0.06501883647030082,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13954105973243713,
+      "epoch": 7.07,
+      "learning_rate": 1.8480948885501627e-06,
+      "loss": 0.1734,
+      "step": 19560,
+      "task_loss": 0.5161733627319336
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06024437440596656,
+      "compression/movement_sparsity/importance_threshold": -0.06477864891720131,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1333414614200592,
+      "epoch": 7.07,
+      "learning_rate": 1.847090747430899e-06,
+      "loss": 0.1631,
+      "step": 19570,
+      "task_loss": 0.24418434500694275
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0602619639292041,
+      "compression/movement_sparsity/importance_threshold": -0.0645390536151963,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13161346316337585,
+      "epoch": 7.08,
+      "learning_rate": 1.8460835730579434e-06,
+      "loss": 0.1733,
+      "step": 19580,
+      "task_loss": 0.5065572261810303
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06027951002690334,
+      "compression/movement_sparsity/importance_threshold": -0.06430004983320126,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12809817492961884,
+      "epoch": 7.08,
+      "learning_rate": 1.8450733690377757e-06,
+      "loss": 0.1826,
+      "step": 19590,
+      "task_loss": 0.36705049872398376
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06029701275273568,
+      "compression/movement_sparsity/importance_threshold": -0.06406163684013266,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1483440101146698,
+      "epoch": 7.08,
+      "learning_rate": 1.8440601389877241e-06,
+      "loss": 0.1648,
+      "step": 19600,
+      "task_loss": 0.2816522419452667
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060314472160372536,
+      "compression/movement_sparsity/importance_threshold": -0.06382381390490643,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16983579099178314,
+      "epoch": 7.09,
+      "learning_rate": 1.843043886535952e-06,
+      "loss": 0.1687,
+      "step": 19610,
+      "task_loss": 0.5111091136932373
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060331888303485307,
+      "compression/movement_sparsity/importance_threshold": -0.06358658029643882,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1196693629026413,
+      "epoch": 7.09,
+      "learning_rate": 1.8420246153214451e-06,
+      "loss": 0.154,
+      "step": 19620,
+      "task_loss": 0.24485935270786285
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06034926123574542,
+      "compression/movement_sparsity/importance_threshold": -0.06334993528364552,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11787790060043335,
+      "epoch": 7.09,
+      "learning_rate": 1.841002328994e-06,
+      "loss": 0.1685,
+      "step": 19630,
+      "task_loss": 0.6096109747886658
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06036659101082427,
+      "compression/movement_sparsity/importance_threshold": -0.06311387813544289,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1214839369058609,
+      "epoch": 7.1,
+      "learning_rate": 1.8399770312142082e-06,
+      "loss": 0.1656,
+      "step": 19640,
+      "task_loss": 0.24309919774532318
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06038387768239327,
+      "compression/movement_sparsity/importance_threshold": -0.06287840812074696,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12063048779964447,
+      "epoch": 7.1,
+      "learning_rate": 1.8389487256534456e-06,
+      "loss": 0.163,
+      "step": 19650,
+      "task_loss": 0.29860949516296387
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06040112130412384,
+      "compression/movement_sparsity/importance_threshold": -0.06264352450847377,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18652105331420898,
+      "epoch": 7.11,
+      "learning_rate": 1.8379174159938578e-06,
+      "loss": 0.1688,
+      "step": 19660,
+      "task_loss": 0.5233631134033203
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06041832192968739,
+      "compression/movement_sparsity/importance_threshold": -0.06240922656753922,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1551060527563095,
+      "epoch": 7.11,
+      "learning_rate": 1.8368831059283476e-06,
+      "loss": 0.1645,
+      "step": 19670,
+      "task_loss": 0.529505729675293
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060435479612755305,
+      "compression/movement_sparsity/importance_threshold": -0.0621755135668598,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15519507229328156,
+      "epoch": 7.11,
+      "learning_rate": 1.835845799160562e-06,
+      "loss": 0.1601,
+      "step": 19680,
+      "task_loss": 0.6162427067756653
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06045259440699903,
+      "compression/movement_sparsity/importance_threshold": -0.06194238477535119,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1276751011610031,
+      "epoch": 7.12,
+      "learning_rate": 1.8348054994048783e-06,
+      "loss": 0.1812,
+      "step": 19690,
+      "task_loss": 0.36186686158180237
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06046966636608997,
+      "compression/movement_sparsity/importance_threshold": -0.06170983946192954,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1895449459552765,
+      "epoch": 7.12,
+      "learning_rate": 1.8337622103863906e-06,
+      "loss": 0.1648,
+      "step": 19700,
+      "task_loss": 0.6113171577453613
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06048669554369951,
+      "compression/movement_sparsity/importance_threshold": -0.0614778768955111,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12751251459121704,
+      "epoch": 7.12,
+      "learning_rate": 1.832715935840897e-06,
+      "loss": 0.1482,
+      "step": 19710,
+      "task_loss": 0.271990031003952
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06050368199349909,
+      "compression/movement_sparsity/importance_threshold": -0.06124649634501167,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1760406345129013,
+      "epoch": 7.13,
+      "learning_rate": 1.8316666795148873e-06,
+      "loss": 0.175,
+      "step": 19720,
+      "task_loss": 0.5232373476028442
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06052062576916011,
+      "compression/movement_sparsity/importance_threshold": -0.0610156970793474,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1406281739473343,
+      "epoch": 7.13,
+      "learning_rate": 1.8306144451655273e-06,
+      "loss": 0.1719,
+      "step": 19730,
+      "task_loss": 0.2717032730579376
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06053752692435397,
+      "compression/movement_sparsity/importance_threshold": -0.06078547836743464,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14542102813720703,
+      "epoch": 7.13,
+      "learning_rate": 1.8295592365606462e-06,
+      "loss": 0.1952,
+      "step": 19740,
+      "task_loss": 0.4864187240600586
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0605543855127521,
+      "compression/movement_sparsity/importance_threshold": -0.06055583947818899,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15917694568634033,
+      "epoch": 7.14,
+      "learning_rate": 1.8285010574787249e-06,
+      "loss": 0.1618,
+      "step": 19750,
+      "task_loss": 0.5574923753738403
+    },
+    {
+      "epoch": 7.14,
+      "eval_exact_match": 83.54777672658467,
+      "eval_f1": 90.08027567236861,
+      "step": 19750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0605712015880259,
+      "compression/movement_sparsity/importance_threshold": -0.06032677968052669,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19061726331710815,
+      "epoch": 7.14,
+      "learning_rate": 1.827439911708879e-06,
+      "loss": 0.1815,
+      "step": 19760,
+      "task_loss": 0.5931074023246765
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060587975203846775,
+      "compression/movement_sparsity/importance_threshold": -0.06009829824336399,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14040836691856384,
+      "epoch": 7.14,
+      "learning_rate": 1.8263758030508489e-06,
+      "loss": 0.173,
+      "step": 19770,
+      "task_loss": 0.8596678972244263
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06060470641388614,
+      "compression/movement_sparsity/importance_threshold": -0.059870394435616814,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1635446846485138,
+      "epoch": 7.15,
+      "learning_rate": 1.8253087353149833e-06,
+      "loss": 0.1812,
+      "step": 19780,
+      "task_loss": 0.29845842719078064
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06062139527181541,
+      "compression/movement_sparsity/importance_threshold": -0.05964306752620119,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1550963819026947,
+      "epoch": 7.15,
+      "learning_rate": 1.8242387123222275e-06,
+      "loss": 0.1731,
+      "step": 19790,
+      "task_loss": 0.542272686958313
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060638041831306,
+      "compression/movement_sparsity/importance_threshold": -0.05941631678403325,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12241744995117188,
+      "epoch": 7.16,
+      "learning_rate": 1.8231657379041089e-06,
+      "loss": 0.1505,
+      "step": 19800,
+      "task_loss": 0.41791096329689026
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060654646146029306,
+      "compression/movement_sparsity/importance_threshold": -0.059190141478029146,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12771350145339966,
+      "epoch": 7.16,
+      "learning_rate": 1.8220898159027223e-06,
+      "loss": 0.1572,
+      "step": 19810,
+      "task_loss": 0.4617471396923065
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060671208269656746,
+      "compression/movement_sparsity/importance_threshold": -0.05896454087710479,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1922406703233719,
+      "epoch": 7.16,
+      "learning_rate": 1.8210109501707184e-06,
+      "loss": 0.1773,
+      "step": 19820,
+      "task_loss": 0.39758336544036865
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06068772825585973,
+      "compression/movement_sparsity/importance_threshold": -0.058739514250176206,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1719903200864792,
+      "epoch": 7.17,
+      "learning_rate": 1.8199291445712883e-06,
+      "loss": 0.1861,
+      "step": 19830,
+      "task_loss": 0.5382665395736694
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060704206158309675,
+      "compression/movement_sparsity/importance_threshold": -0.05851506086615965,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14048738777637482,
+      "epoch": 7.17,
+      "learning_rate": 1.8188444029781502e-06,
+      "loss": 0.1595,
+      "step": 19840,
+      "task_loss": 0.169685959815979
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06072064203067798,
+      "compression/movement_sparsity/importance_threshold": -0.05829117999397104,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1779119223356247,
+      "epoch": 7.17,
+      "learning_rate": 1.8177567292755352e-06,
+      "loss": 0.167,
+      "step": 19850,
+      "task_loss": 0.4589795470237732
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06073703592663606,
+      "compression/movement_sparsity/importance_threshold": -0.05806787090252663,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15580281615257263,
+      "epoch": 7.18,
+      "learning_rate": 1.8166661273581744e-06,
+      "loss": 0.1726,
+      "step": 19860,
+      "task_loss": 0.2717253267765045
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06075338789985533,
+      "compression/movement_sparsity/importance_threshold": -0.05784513286074233,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17201679944992065,
+      "epoch": 7.18,
+      "learning_rate": 1.8155726011312838e-06,
+      "loss": 0.1703,
+      "step": 19870,
+      "task_loss": 0.46242088079452515
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060769698004007194,
+      "compression/movement_sparsity/importance_threshold": -0.05762296513753418,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14266745746135712,
+      "epoch": 7.18,
+      "learning_rate": 1.8144761545105498e-06,
+      "loss": 0.16,
+      "step": 19880,
+      "task_loss": 0.3505728542804718
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060785966292763075,
+      "compression/movement_sparsity/importance_threshold": -0.05740136700181819,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19506075978279114,
+      "epoch": 7.19,
+      "learning_rate": 1.8133767914221179e-06,
+      "loss": 0.159,
+      "step": 19890,
+      "task_loss": 0.731766939163208
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06080219281979437,
+      "compression/movement_sparsity/importance_threshold": -0.05718033772251074,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14748713374137878,
+      "epoch": 7.19,
+      "learning_rate": 1.8122745158025756e-06,
+      "loss": 0.1759,
+      "step": 19900,
+      "task_loss": 0.5381277203559875
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060818377638772486,
+      "compression/movement_sparsity/importance_threshold": -0.056959876568527634,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1392291784286499,
+      "epoch": 7.2,
+      "learning_rate": 1.81116933159894e-06,
+      "loss": 0.1629,
+      "step": 19910,
+      "task_loss": 0.3705242872238159
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060834520803368854,
+      "compression/movement_sparsity/importance_threshold": -0.056739982808785006,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13060082495212555,
+      "epoch": 7.2,
+      "learning_rate": 1.810061242768643e-06,
+      "loss": 0.1549,
+      "step": 19920,
+      "task_loss": 0.4211186468601227
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06085062236725487,
+      "compression/movement_sparsity/importance_threshold": -0.056520655712198775,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12718503177165985,
+      "epoch": 7.2,
+      "learning_rate": 1.8089502532795175e-06,
+      "loss": 0.1536,
+      "step": 19930,
+      "task_loss": 0.36818772554397583
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060866682384101936,
+      "compression/movement_sparsity/importance_threshold": -0.056301894547685305,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14205113053321838,
+      "epoch": 7.21,
+      "learning_rate": 1.807836367109783e-06,
+      "loss": 0.1711,
+      "step": 19940,
+      "task_loss": 0.579256534576416
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06088270090758148,
+      "compression/movement_sparsity/importance_threshold": -0.05608369858416051,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1530269980430603,
+      "epoch": 7.21,
+      "learning_rate": 1.8067195882480321e-06,
+      "loss": 0.1737,
+      "step": 19950,
+      "task_loss": 0.43539872765541077
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06089867799136491,
+      "compression/movement_sparsity/importance_threshold": -0.05586606709054043,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18445491790771484,
+      "epoch": 7.21,
+      "learning_rate": 1.805599920693214e-06,
+      "loss": 0.1709,
+      "step": 19960,
+      "task_loss": 0.651823103427887
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06091461368912364,
+      "compression/movement_sparsity/importance_threshold": -0.05564899933574119,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12383359670639038,
+      "epoch": 7.22,
+      "learning_rate": 1.8044773684546228e-06,
+      "loss": 0.1732,
+      "step": 19970,
+      "task_loss": 0.5851423740386963
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06093050805452906,
+      "compression/movement_sparsity/importance_threshold": -0.055432494588678716,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1711319088935852,
+      "epoch": 7.22,
+      "learning_rate": 1.8033519355518822e-06,
+      "loss": 0.1678,
+      "step": 19980,
+      "task_loss": 0.5596441030502319
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060946361141252604,
+      "compression/movement_sparsity/importance_threshold": -0.05521655211826926,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15698492527008057,
+      "epoch": 7.22,
+      "learning_rate": 1.8022236260149303e-06,
+      "loss": 0.1647,
+      "step": 19990,
+      "task_loss": 0.33208391070365906
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.060962173002965664,
+      "compression/movement_sparsity/importance_threshold": -0.055001171193428844,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15464134514331818,
+      "epoch": 7.23,
+      "learning_rate": 1.8010924438840057e-06,
+      "loss": 0.1562,
+      "step": 20000,
+      "task_loss": 0.3163996636867523
+    },
+    {
+      "epoch": 7.23,
+      "eval_exact_match": 83.44370860927152,
+      "eval_f1": 89.87271615204905,
+      "step": 20000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06097794369333966,
+      "compression/movement_sparsity/importance_threshold": -0.05478635108307339,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16933295130729675,
+      "epoch": 7.23,
+      "learning_rate": 1.7999583932096346e-06,
+      "loss": 0.1647,
+      "step": 20010,
+      "task_loss": 0.45220547914505005
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06099367326604601,
+      "compression/movement_sparsity/importance_threshold": -0.054572091056119154,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14466992020606995,
+      "epoch": 7.24,
+      "learning_rate": 1.7988214780526128e-06,
+      "loss": 0.1618,
+      "step": 20020,
+      "task_loss": 0.282554566860199
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06100936177475611,
+      "compression/movement_sparsity/importance_threshold": -0.05435839038148216,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13395962119102478,
+      "epoch": 7.24,
+      "learning_rate": 1.7976817024839943e-06,
+      "loss": 0.1693,
+      "step": 20030,
+      "task_loss": 0.6613667011260986
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061025009273141376,
+      "compression/movement_sparsity/importance_threshold": -0.05414524832807843,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.22142064571380615,
+      "epoch": 7.24,
+      "learning_rate": 1.796539070585076e-06,
+      "loss": 0.1735,
+      "step": 20040,
+      "task_loss": 0.6772729754447937
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06104061581487323,
+      "compression/movement_sparsity/importance_threshold": -0.053932664164823896,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.145456463098526,
+      "epoch": 7.25,
+      "learning_rate": 1.7953935864473823e-06,
+      "loss": 0.1496,
+      "step": 20050,
+      "task_loss": 0.14888328313827515
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061056181453623064,
+      "compression/movement_sparsity/importance_threshold": -0.05372063716063491,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14171883463859558,
+      "epoch": 7.25,
+      "learning_rate": 1.7942452541726505e-06,
+      "loss": 0.1598,
+      "step": 20060,
+      "task_loss": 0.5084316730499268
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06107170624306229,
+      "compression/movement_sparsity/importance_threshold": -0.05350916658442739,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15908685326576233,
+      "epoch": 7.25,
+      "learning_rate": 1.7930940778728165e-06,
+      "loss": 0.1678,
+      "step": 20070,
+      "task_loss": 0.8238155841827393
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06108719023686233,
+      "compression/movement_sparsity/importance_threshold": -0.05329825170511748,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15507642924785614,
+      "epoch": 7.26,
+      "learning_rate": 1.791940061670001e-06,
+      "loss": 0.158,
+      "step": 20080,
+      "task_loss": 0.4280283451080322
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0611026334886946,
+      "compression/movement_sparsity/importance_threshold": -0.05308789179162099,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14263886213302612,
+      "epoch": 7.26,
+      "learning_rate": 1.790783209696493e-06,
+      "loss": 0.1545,
+      "step": 20090,
+      "task_loss": 0.33214807510375977
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061118036052230484,
+      "compression/movement_sparsity/importance_threshold": -0.05287808611285438,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16570046544075012,
+      "epoch": 7.26,
+      "learning_rate": 1.789623526094736e-06,
+      "loss": 0.1755,
+      "step": 20100,
+      "task_loss": 0.5707616209983826
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061133397981141424,
+      "compression/movement_sparsity/importance_threshold": -0.05266883393773336,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1842001974582672,
+      "epoch": 7.27,
+      "learning_rate": 1.7884610150173121e-06,
+      "loss": 0.1682,
+      "step": 20110,
+      "task_loss": 0.5207316279411316
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06114871932909881,
+      "compression/movement_sparsity/importance_threshold": -0.052460134535174285,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16815443336963654,
+      "epoch": 7.27,
+      "learning_rate": 1.78729568062693e-06,
+      "loss": 0.1692,
+      "step": 20120,
+      "task_loss": 0.801066517829895
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06116400014977406,
+      "compression/movement_sparsity/importance_threshold": -0.05225198717409296,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1244630366563797,
+      "epoch": 7.28,
+      "learning_rate": 1.7861275270964063e-06,
+      "loss": 0.1751,
+      "step": 20130,
+      "task_loss": 0.18696001172065735
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06117924049683858,
+      "compression/movement_sparsity/importance_threshold": -0.05204439112340564,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16450370848178864,
+      "epoch": 7.28,
+      "learning_rate": 1.7849565586086527e-06,
+      "loss": 0.1742,
+      "step": 20140,
+      "task_loss": 0.5837537050247192
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06119444042396378,
+      "compression/movement_sparsity/importance_threshold": -0.051837345652028355,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1398741602897644,
+      "epoch": 7.28,
+      "learning_rate": 1.7837827793566615e-06,
+      "loss": 0.1666,
+      "step": 20150,
+      "task_loss": 0.35871630907058716
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061209599984821075,
+      "compression/movement_sparsity/importance_threshold": -0.05163085002887713,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19207346439361572,
+      "epoch": 7.29,
+      "learning_rate": 1.7826061935434892e-06,
+      "loss": 0.1716,
+      "step": 20160,
+      "task_loss": 0.5226284861564636
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061224719233081884,
+      "compression/movement_sparsity/importance_threshold": -0.05142490352286799,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1372203230857849,
+      "epoch": 7.29,
+      "learning_rate": 1.781426805382241e-06,
+      "loss": 0.1636,
+      "step": 20170,
+      "task_loss": 0.514137864112854
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0612397982224176,
+      "compression/movement_sparsity/importance_threshold": -0.05121950540291709,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1332128494977951,
+      "epoch": 7.29,
+      "learning_rate": 1.780244619096059e-06,
+      "loss": 0.1751,
+      "step": 20180,
+      "task_loss": 0.2380894273519516
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06125483700649964,
+      "compression/movement_sparsity/importance_threshold": -0.05101465493794055,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1710924506187439,
+      "epoch": 7.3,
+      "learning_rate": 1.7790596389181026e-06,
+      "loss": 0.1642,
+      "step": 20190,
+      "task_loss": 0.2540561854839325
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06126983563899942,
+      "compression/movement_sparsity/importance_threshold": -0.050810351396854414,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15287163853645325,
+      "epoch": 7.3,
+      "learning_rate": 1.7778718690915366e-06,
+      "loss": 0.1765,
+      "step": 20200,
+      "task_loss": 0.2441101372241974
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06128479417358835,
+      "compression/movement_sparsity/importance_threshold": -0.05060659404857448,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17295891046524048,
+      "epoch": 7.3,
+      "learning_rate": 1.776681313869515e-06,
+      "loss": 0.1763,
+      "step": 20210,
+      "task_loss": 0.40276211500167847
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061299712663937835,
+      "compression/movement_sparsity/importance_threshold": -0.05040338216201712,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1395740807056427,
+      "epoch": 7.31,
+      "learning_rate": 1.7754879775151655e-06,
+      "loss": 0.1655,
+      "step": 20220,
+      "task_loss": 0.5500630140304565
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06131459116371929,
+      "compression/movement_sparsity/importance_threshold": -0.05020071500609835,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16768819093704224,
+      "epoch": 7.31,
+      "learning_rate": 1.774291864301574e-06,
+      "loss": 0.1599,
+      "step": 20230,
+      "task_loss": 0.3271426856517792
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061329429726604115,
+      "compression/movement_sparsity/importance_threshold": -0.04999859184973421,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12167343497276306,
+      "epoch": 7.31,
+      "learning_rate": 1.7730929785117707e-06,
+      "loss": 0.1561,
+      "step": 20240,
+      "task_loss": 0.19313254952430725
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061344228406263746,
+      "compression/movement_sparsity/importance_threshold": -0.04979701196184061,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15813778340816498,
+      "epoch": 7.32,
+      "learning_rate": 1.7718913244387133e-06,
+      "loss": 0.1774,
+      "step": 20250,
+      "task_loss": 0.46160903573036194
+    },
+    {
+      "epoch": 7.32,
+      "eval_exact_match": 83.61400189214758,
+      "eval_f1": 89.96683277095251,
+      "step": 20250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06135898725636957,
+      "compression/movement_sparsity/importance_threshold": -0.049595974611333804,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1122448593378067,
+      "epoch": 7.32,
+      "learning_rate": 1.7706869063852716e-06,
+      "loss": 0.1572,
+      "step": 20260,
+      "task_loss": 0.2982158660888672
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061373706330593,
+      "compression/movement_sparsity/importance_threshold": -0.04939547906712993,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15496289730072021,
+      "epoch": 7.33,
+      "learning_rate": 1.7694797286642137e-06,
+      "loss": 0.1866,
+      "step": 20270,
+      "task_loss": 0.3803407549858093
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06138838568260545,
+      "compression/movement_sparsity/importance_threshold": -0.04919552459814491,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19763313233852386,
+      "epoch": 7.33,
+      "learning_rate": 1.7683909127719155e-06,
+      "loss": 0.1794,
+      "step": 20280,
+      "task_loss": 0.3198865056037903
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061403025366078334,
+      "compression/movement_sparsity/importance_threshold": -0.048996110473294774,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14763984084129333,
+      "epoch": 7.33,
+      "learning_rate": 1.7671785035994402e-06,
+      "loss": 0.1589,
+      "step": 20290,
+      "task_loss": 0.3247777223587036
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061417625434683064,
+      "compression/movement_sparsity/importance_threshold": -0.048797235961495655,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16530966758728027,
+      "epoch": 7.34,
+      "learning_rate": 1.7659633473222004e-06,
+      "loss": 0.1628,
+      "step": 20300,
+      "task_loss": 0.3593147397041321
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061432185942091044,
+      "compression/movement_sparsity/importance_threshold": -0.048598900331663586,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18628555536270142,
+      "epoch": 7.34,
+      "learning_rate": 1.7647454482914155e-06,
+      "loss": 0.1713,
+      "step": 20310,
+      "task_loss": 0.42950117588043213
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06144670694197368,
+      "compression/movement_sparsity/importance_threshold": -0.04840110285271482,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13749028742313385,
+      "epoch": 7.34,
+      "learning_rate": 1.7635248108681248e-06,
+      "loss": 0.168,
+      "step": 20320,
+      "task_loss": 0.5608773231506348
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06146118848800241,
+      "compression/movement_sparsity/importance_threshold": -0.048203842793565155,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1740993857383728,
+      "epoch": 7.35,
+      "learning_rate": 1.762301439423175e-06,
+      "loss": 0.1668,
+      "step": 20330,
+      "task_loss": 0.5474882125854492
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061475630633848616,
+      "compression/movement_sparsity/importance_threshold": -0.04800711942313074,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17211446166038513,
+      "epoch": 7.35,
+      "learning_rate": 1.7610753383372007e-06,
+      "loss": 0.1616,
+      "step": 20340,
+      "task_loss": 0.5157222747802734
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06149003343318371,
+      "compression/movement_sparsity/importance_threshold": -0.04781093201032771,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17125245928764343,
+      "epoch": 7.35,
+      "learning_rate": 1.7598465120006126e-06,
+      "loss": 0.1605,
+      "step": 20350,
+      "task_loss": 0.32079434394836426
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06150439693967911,
+      "compression/movement_sparsity/importance_threshold": -0.04761527982407221,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15011651813983917,
+      "epoch": 7.36,
+      "learning_rate": 1.7586149648135792e-06,
+      "loss": 0.1772,
+      "step": 20360,
+      "task_loss": 0.3235490918159485
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06151872120700623,
+      "compression/movement_sparsity/importance_threshold": -0.04742016213328004,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1297205686569214,
+      "epoch": 7.36,
+      "learning_rate": 1.7573807011860113e-06,
+      "loss": 0.1701,
+      "step": 20370,
+      "task_loss": 0.36008718609809875
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061533006288836484,
+      "compression/movement_sparsity/importance_threshold": -0.04722557820686746,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15162158012390137,
+      "epoch": 7.37,
+      "learning_rate": 1.7561437255375478e-06,
+      "loss": 0.1748,
+      "step": 20380,
+      "task_loss": 0.6992220282554626
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06154725223884127,
+      "compression/movement_sparsity/importance_threshold": -0.04703152731375049,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12533384561538696,
+      "epoch": 7.37,
+      "learning_rate": 1.7549040422975377e-06,
+      "loss": 0.1749,
+      "step": 20390,
+      "task_loss": 0.4742255210876465
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061561459110691996,
+      "compression/movement_sparsity/importance_threshold": -0.04683800872284527,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15761375427246094,
+      "epoch": 7.37,
+      "learning_rate": 1.7536616559050254e-06,
+      "loss": 0.1763,
+      "step": 20400,
+      "task_loss": 0.5680642127990723
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0615756269580601,
+      "compression/movement_sparsity/importance_threshold": -0.046645021703067724,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11964351683855057,
+      "epoch": 7.38,
+      "learning_rate": 1.7524165708087364e-06,
+      "loss": 0.1665,
+      "step": 20410,
+      "task_loss": 0.1860896497964859
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061589755834616955,
+      "compression/movement_sparsity/importance_threshold": -0.04645256552333399,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12572947144508362,
+      "epoch": 7.38,
+      "learning_rate": 1.7511687914670574e-06,
+      "loss": 0.1527,
+      "step": 20420,
+      "task_loss": 0.4305400550365448
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061603845794034,
+      "compression/movement_sparsity/importance_threshold": -0.046260639452560204,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12916436791419983,
+      "epoch": 7.38,
+      "learning_rate": 1.7499183223480233e-06,
+      "loss": 0.1843,
+      "step": 20430,
+      "task_loss": 0.461367130279541
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061617896889982635,
+      "compression/movement_sparsity/importance_threshold": -0.04606924275966229,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1794300675392151,
+      "epoch": 7.39,
+      "learning_rate": 1.7486651679293021e-06,
+      "loss": 0.1691,
+      "step": 20440,
+      "task_loss": 0.4559490382671356
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06163190917613426,
+      "compression/movement_sparsity/importance_threshold": -0.0458783747135566,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16324125230312347,
+      "epoch": 7.39,
+      "learning_rate": 1.7474093326981751e-06,
+      "loss": 0.166,
+      "step": 20450,
+      "task_loss": 0.5274643898010254
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06164588270616032,
+      "compression/movement_sparsity/importance_threshold": -0.04568803458315873,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1191713958978653,
+      "epoch": 7.39,
+      "learning_rate": 1.7461508211515242e-06,
+      "loss": 0.1474,
+      "step": 20460,
+      "task_loss": 0.48396289348602295
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06165981753373218,
+      "compression/movement_sparsity/importance_threshold": -0.04549822163738515,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12512516975402832,
+      "epoch": 7.4,
+      "learning_rate": 1.7448896377958144e-06,
+      "loss": 0.1547,
+      "step": 20470,
+      "task_loss": 0.33188262581825256
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06167371371252128,
+      "compression/movement_sparsity/importance_threshold": -0.045308935145151774,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13970869779586792,
+      "epoch": 7.4,
+      "learning_rate": 1.743625787147078e-06,
+      "loss": 0.1544,
+      "step": 20480,
+      "task_loss": 0.5282965302467346
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06168757129619902,
+      "compression/movement_sparsity/importance_threshold": -0.045120174375374744,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1316584199666977,
+      "epoch": 7.41,
+      "learning_rate": 1.7423592737308973e-06,
+      "loss": 0.1702,
+      "step": 20490,
+      "task_loss": 0.2873547673225403
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06170139033843682,
+      "compression/movement_sparsity/importance_threshold": -0.04493193859696998,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16573722660541534,
+      "epoch": 7.41,
+      "learning_rate": 1.7410901020823918e-06,
+      "loss": 0.1697,
+      "step": 20500,
+      "task_loss": 0.39910686016082764
+    },
+    {
+      "epoch": 7.41,
+      "eval_exact_match": 83.71807000946073,
+      "eval_f1": 90.07741181805484,
+      "step": 20500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06171517089290609,
+      "compression/movement_sparsity/importance_threshold": -0.04474422707885373,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13655081391334534,
+      "epoch": 7.41,
+      "learning_rate": 1.7398182767461971e-06,
+      "loss": 0.1551,
+      "step": 20510,
+      "task_loss": 0.2691548466682434
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06172891301327822,
+      "compression/movement_sparsity/importance_threshold": -0.04455703908994191,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16987422108650208,
+      "epoch": 7.42,
+      "learning_rate": 1.7385438022764523e-06,
+      "loss": 0.1721,
+      "step": 20520,
+      "task_loss": 0.4175964593887329
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06174261675322465,
+      "compression/movement_sparsity/importance_threshold": -0.04437037389915055,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13351169228553772,
+      "epoch": 7.42,
+      "learning_rate": 1.7372666832367822e-06,
+      "loss": 0.1573,
+      "step": 20530,
+      "task_loss": 0.46691519021987915
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06175628216641678,
+      "compression/movement_sparsity/importance_threshold": -0.044184230775395905,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16343604028224945,
+      "epoch": 7.42,
+      "learning_rate": 1.7359869242002813e-06,
+      "loss": 0.1737,
+      "step": 20540,
+      "task_loss": 0.5338377356529236
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06176990930652601,
+      "compression/movement_sparsity/importance_threshold": -0.04399860898759389,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13753941655158997,
+      "epoch": 7.43,
+      "learning_rate": 1.7347045297494976e-06,
+      "loss": 0.1782,
+      "step": 20550,
+      "task_loss": 0.4684370756149292
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06178349822722375,
+      "compression/movement_sparsity/importance_threshold": -0.043813507804660756,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13331389427185059,
+      "epoch": 7.43,
+      "learning_rate": 1.7334195044764152e-06,
+      "loss": 0.1693,
+      "step": 20560,
+      "task_loss": 0.42766016721725464
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061797048982181434,
+      "compression/movement_sparsity/importance_threshold": -0.04362892649551231,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15660671889781952,
+      "epoch": 7.43,
+      "learning_rate": 1.73213185298244e-06,
+      "loss": 0.1692,
+      "step": 20570,
+      "task_loss": 0.4442064166069031
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06181056162507043,
+      "compression/movement_sparsity/importance_threshold": -0.043444864329064914,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1403474658727646,
+      "epoch": 7.44,
+      "learning_rate": 1.7308415798783801e-06,
+      "loss": 0.166,
+      "step": 20580,
+      "task_loss": 0.44031822681427
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0618240362095622,
+      "compression/movement_sparsity/importance_threshold": -0.043261320574234374,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14684978127479553,
+      "epoch": 7.44,
+      "learning_rate": 1.7295486897844326e-06,
+      "loss": 0.162,
+      "step": 20590,
+      "task_loss": 0.3407401144504547
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06183747278932813,
+      "compression/movement_sparsity/importance_threshold": -0.04307829449993672,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13846829533576965,
+      "epoch": 7.44,
+      "learning_rate": 1.7282531873301647e-06,
+      "loss": 0.1647,
+      "step": 20600,
+      "task_loss": 0.3741005063056946
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06185087141803962,
+      "compression/movement_sparsity/importance_threshold": -0.042895785375088424,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15826284885406494,
+      "epoch": 7.45,
+      "learning_rate": 1.7269550771544977e-06,
+      "loss": 0.1675,
+      "step": 20610,
+      "task_loss": 0.5317988991737366
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0618642321493681,
+      "compression/movement_sparsity/importance_threshold": -0.04271379246860507,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20660480856895447,
+      "epoch": 7.45,
+      "learning_rate": 1.7256543639056912e-06,
+      "loss": 0.1728,
+      "step": 20620,
+      "task_loss": 0.6406430006027222
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06187755503698497,
+      "compression/movement_sparsity/importance_threshold": -0.04253231504940291,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19647446274757385,
+      "epoch": 7.46,
+      "learning_rate": 1.7243510522413259e-06,
+      "loss": 0.1688,
+      "step": 20630,
+      "task_loss": 0.5294222831726074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06189084013456164,
+      "compression/movement_sparsity/importance_threshold": -0.0423513523863982,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1321870982646942,
+      "epoch": 7.46,
+      "learning_rate": 1.723045146828286e-06,
+      "loss": 0.1639,
+      "step": 20640,
+      "task_loss": 0.3000491261482239
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061904087495769526,
+      "compression/movement_sparsity/importance_threshold": -0.04217090374850685,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17913860082626343,
+      "epoch": 7.46,
+      "learning_rate": 1.7217366523427442e-06,
+      "loss": 0.1631,
+      "step": 20650,
+      "task_loss": 0.6945570707321167
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061917297174280024,
+      "compression/movement_sparsity/importance_threshold": -0.04199096840464489,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17457491159439087,
+      "epoch": 7.47,
+      "learning_rate": 1.720425573470144e-06,
+      "loss": 0.1761,
+      "step": 20660,
+      "task_loss": 0.3351823091506958
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06193046922376457,
+      "compression/movement_sparsity/importance_threshold": -0.04181154562372835,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1305508315563202,
+      "epoch": 7.47,
+      "learning_rate": 1.7191119149051824e-06,
+      "loss": 0.1625,
+      "step": 20670,
+      "task_loss": 0.36937570571899414
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06194360369789456,
+      "compression/movement_sparsity/importance_threshold": -0.041632634674673374,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17179100215435028,
+      "epoch": 7.47,
+      "learning_rate": 1.717795681351795e-06,
+      "loss": 0.1638,
+      "step": 20680,
+      "task_loss": 0.37270528078079224
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061956700650341395,
+      "compression/movement_sparsity/importance_threshold": -0.04145423482639621,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1304541826248169,
+      "epoch": 7.48,
+      "learning_rate": 1.716476877523137e-06,
+      "loss": 0.1696,
+      "step": 20690,
+      "task_loss": 0.2637747526168823
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06196976013477651,
+      "compression/movement_sparsity/importance_threshold": -0.04127634534781255,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1455475091934204,
+      "epoch": 7.48,
+      "learning_rate": 1.7151555081415668e-06,
+      "loss": 0.171,
+      "step": 20700,
+      "task_loss": 0.5703924894332886
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.061982782204871294,
+      "compression/movement_sparsity/importance_threshold": -0.04109896550783865,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15408097207546234,
+      "epoch": 7.48,
+      "learning_rate": 1.7138315779386306e-06,
+      "loss": 0.1617,
+      "step": 20710,
+      "task_loss": 0.49040016531944275
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06199576691429716,
+      "compression/movement_sparsity/importance_threshold": -0.040922094575390644,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15398012101650238,
+      "epoch": 7.49,
+      "learning_rate": 1.7125050916550437e-06,
+      "loss": 0.157,
+      "step": 20720,
+      "task_loss": 0.18766553699970245
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062008714316725534,
+      "compression/movement_sparsity/importance_threshold": -0.040745731819384456,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15429307520389557,
+      "epoch": 7.49,
+      "learning_rate": 1.711176054040674e-06,
+      "loss": 0.1717,
+      "step": 20730,
+      "task_loss": 0.40597110986709595
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062021624465827804,
+      "compression/movement_sparsity/importance_threshold": -0.040569876508736336,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12975449860095978,
+      "epoch": 7.5,
+      "learning_rate": 1.7098444698545262e-06,
+      "loss": 0.1546,
+      "step": 20740,
+      "task_loss": 0.3054530620574951
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062034497415275405,
+      "compression/movement_sparsity/importance_threshold": -0.0403945279123622,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17744165658950806,
+      "epoch": 7.5,
+      "learning_rate": 1.7085103438647223e-06,
+      "loss": 0.1682,
+      "step": 20750,
+      "task_loss": 0.42306089401245117
+    },
+    {
+      "epoch": 7.5,
+      "eval_exact_match": 83.519394512772,
+      "eval_f1": 89.93130104446098,
+      "step": 20750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06204733321873974,
+      "compression/movement_sparsity/importance_threshold": -0.040219685299178076,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16971740126609802,
+      "epoch": 7.5,
+      "learning_rate": 1.7071736808484873e-06,
+      "loss": 0.1686,
+      "step": 20760,
+      "task_loss": 0.6131412386894226
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062060131929892196,
+      "compression/movement_sparsity/importance_threshold": -0.04004534793810022,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11441051959991455,
+      "epoch": 7.51,
+      "learning_rate": 1.70583448559213e-06,
+      "loss": 0.1578,
+      "step": 20770,
+      "task_loss": 0.38000303506851196
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06207289360240422,
+      "compression/movement_sparsity/importance_threshold": -0.03987151509804454,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13867764174938202,
+      "epoch": 7.51,
+      "learning_rate": 1.7044927628910259e-06,
+      "loss": 0.168,
+      "step": 20780,
+      "task_loss": 0.37611913681030273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0620856182899472,
+      "compression/movement_sparsity/importance_threshold": -0.039698186047927186,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18539825081825256,
+      "epoch": 7.51,
+      "learning_rate": 1.7031485175496028e-06,
+      "loss": 0.1753,
+      "step": 20790,
+      "task_loss": 0.3999943733215332
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06209830604619255,
+      "compression/movement_sparsity/importance_threshold": -0.03952536005666407,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14076153934001923,
+      "epoch": 7.52,
+      "learning_rate": 1.7018017543813196e-06,
+      "loss": 0.1617,
+      "step": 20800,
+      "task_loss": 0.5043025612831116
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06211095692481168,
+      "compression/movement_sparsity/importance_threshold": -0.03935303639317156,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17567318677902222,
+      "epoch": 7.52,
+      "learning_rate": 1.7004524782086524e-06,
+      "loss": 0.1791,
+      "step": 20810,
+      "task_loss": 0.38481491804122925
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062123570979476,
+      "compression/movement_sparsity/importance_threshold": -0.039181214326365454,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14990533888339996,
+      "epoch": 7.52,
+      "learning_rate": 1.699100693863075e-06,
+      "loss": 0.1671,
+      "step": 20820,
+      "task_loss": 0.4502103328704834
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06213614826385694,
+      "compression/movement_sparsity/importance_threshold": -0.0390098931251619,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.19391518831253052,
+      "epoch": 7.53,
+      "learning_rate": 1.6977464061850425e-06,
+      "loss": 0.1825,
+      "step": 20830,
+      "task_loss": 0.501262903213501
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06214868883162588,
+      "compression/movement_sparsity/importance_threshold": -0.03883907205847703,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17029324173927307,
+      "epoch": 7.53,
+      "learning_rate": 1.6963896200239738e-06,
+      "loss": 0.1572,
+      "step": 20840,
+      "task_loss": 0.34914785623550415
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06216119273645425,
+      "compression/movement_sparsity/importance_threshold": -0.03866875039522688,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14604946970939636,
+      "epoch": 7.54,
+      "learning_rate": 1.6950303402382348e-06,
+      "loss": 0.1772,
+      "step": 20850,
+      "task_loss": 0.4782135486602783
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06217366003201345,
+      "compression/movement_sparsity/importance_threshold": -0.038498927404327477,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15026389062404633,
+      "epoch": 7.54,
+      "learning_rate": 1.6936685716951208e-06,
+      "loss": 0.1653,
+      "step": 20860,
+      "task_loss": 0.3965921401977539
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0621860907719749,
+      "compression/movement_sparsity/importance_threshold": -0.03832960235469485,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16776353120803833,
+      "epoch": 7.54,
+      "learning_rate": 1.692304319270838e-06,
+      "loss": 0.1725,
+      "step": 20870,
+      "task_loss": 0.6324939131736755
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06219848501001001,
+      "compression/movement_sparsity/importance_threshold": -0.03816077451524502,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14998579025268555,
+      "epoch": 7.55,
+      "learning_rate": 1.690937587850487e-06,
+      "loss": 0.1652,
+      "step": 20880,
+      "task_loss": 0.5109502077102661
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06221084279979019,
+      "compression/movement_sparsity/importance_threshold": -0.03799244315489425,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15119841694831848,
+      "epoch": 7.55,
+      "learning_rate": 1.6895683823280459e-06,
+      "loss": 0.1545,
+      "step": 20890,
+      "task_loss": 0.3803994059562683
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06222316419498684,
+      "compression/movement_sparsity/importance_threshold": -0.037824607542558564,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14079336822032928,
+      "epoch": 7.55,
+      "learning_rate": 1.6881967076063509e-06,
+      "loss": 0.152,
+      "step": 20900,
+      "task_loss": 0.3902343809604645
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06223544924927138,
+      "compression/movement_sparsity/importance_threshold": -0.03765726694715399,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18181651830673218,
+      "epoch": 7.56,
+      "learning_rate": 1.6868225685970807e-06,
+      "loss": 0.1599,
+      "step": 20910,
+      "task_loss": 0.41076356172561646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062247698016315224,
+      "compression/movement_sparsity/importance_threshold": -0.037490420637596444,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1383550614118576,
+      "epoch": 7.56,
+      "learning_rate": 1.6854459702207384e-06,
+      "loss": 0.1609,
+      "step": 20920,
+      "task_loss": 0.253571093082428
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06225991054978977,
+      "compression/movement_sparsity/importance_threshold": -0.03732406788280218,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15035834908485413,
+      "epoch": 7.56,
+      "learning_rate": 1.6840669174066326e-06,
+      "loss": 0.1672,
+      "step": 20930,
+      "task_loss": 0.48510587215423584
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06227208690336644,
+      "compression/movement_sparsity/importance_threshold": -0.03715820795168734,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.145534485578537,
+      "epoch": 7.57,
+      "learning_rate": 1.6826854150928612e-06,
+      "loss": 0.1726,
+      "step": 20940,
+      "task_loss": 0.35285377502441406
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06228422713071664,
+      "compression/movement_sparsity/importance_threshold": -0.036992840113167724,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1519620716571808,
+      "epoch": 7.57,
+      "learning_rate": 1.6813014682262937e-06,
+      "loss": 0.178,
+      "step": 20950,
+      "task_loss": 0.32412058115005493
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062296331285511784,
+      "compression/movement_sparsity/importance_threshold": -0.03682796363615959,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1372935175895691,
+      "epoch": 7.57,
+      "learning_rate": 1.6799150817625515e-06,
+      "loss": 0.1757,
+      "step": 20960,
+      "task_loss": 0.3011651337146759
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06230839942142328,
+      "compression/movement_sparsity/importance_threshold": -0.03666357778957896,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1638549268245697,
+      "epoch": 7.58,
+      "learning_rate": 1.6785262606659937e-06,
+      "loss": 0.1654,
+      "step": 20970,
+      "task_loss": 0.6097940802574158
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062320431592122534,
+      "compression/movement_sparsity/importance_threshold": -0.03649968184234187,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15273943543434143,
+      "epoch": 7.58,
+      "learning_rate": 1.6771350099096963e-06,
+      "loss": 0.1603,
+      "step": 20980,
+      "task_loss": 0.48636484146118164
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062332427851280965,
+      "compression/movement_sparsity/importance_threshold": -0.03633627506336434,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15129825472831726,
+      "epoch": 7.59,
+      "learning_rate": 1.6757413344754353e-06,
+      "loss": 0.1675,
+      "step": 20990,
+      "task_loss": 0.3011537194252014
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06234438825256998,
+      "compression/movement_sparsity/importance_threshold": -0.03617335672156263,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18178239464759827,
+      "epoch": 7.59,
+      "learning_rate": 1.674345239353669e-06,
+      "loss": 0.1767,
+      "step": 21000,
+      "task_loss": 0.3912660479545593
+    },
+    {
+      "epoch": 7.59,
+      "eval_exact_match": 83.68968779564806,
+      "eval_f1": 90.02347462983266,
+      "step": 21000
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062356312849660984,
+      "compression/movement_sparsity/importance_threshold": -0.03601092608585277,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1544092297554016,
+      "epoch": 7.59,
+      "learning_rate": 1.6729467295435202e-06,
+      "loss": 0.1677,
+      "step": 21010,
+      "task_loss": 0.4685562252998352
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0623682016962254,
+      "compression/movement_sparsity/importance_threshold": -0.035848982425150555,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14076654613018036,
+      "epoch": 7.6,
+      "learning_rate": 1.6715458100527587e-06,
+      "loss": 0.1547,
+      "step": 21020,
+      "task_loss": 0.484361469745636
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062380054845934625,
+      "compression/movement_sparsity/importance_threshold": -0.035687525008372356,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14936229586601257,
+      "epoch": 7.6,
+      "learning_rate": 1.6701424858977814e-06,
+      "loss": 0.1765,
+      "step": 21030,
+      "task_loss": 0.4672033190727234
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06239187235246008,
+      "compression/movement_sparsity/importance_threshold": -0.03552655310443398,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1623292863368988,
+      "epoch": 7.6,
+      "learning_rate": 1.668736762103598e-06,
+      "loss": 0.1618,
+      "step": 21040,
+      "task_loss": 0.41577792167663574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06240365426947318,
+      "compression/movement_sparsity/importance_threshold": -0.03536606598225167,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14613062143325806,
+      "epoch": 7.61,
+      "learning_rate": 1.6673286437038083e-06,
+      "loss": 0.1754,
+      "step": 21050,
+      "task_loss": 0.22772684693336487
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06241540065064532,
+      "compression/movement_sparsity/importance_threshold": -0.035206062910741576,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17443513870239258,
+      "epoch": 7.61,
+      "learning_rate": 1.665918135740589e-06,
+      "loss": 0.1671,
+      "step": 21060,
+      "task_loss": 0.37917977571487427
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06242711154964792,
+      "compression/movement_sparsity/importance_threshold": -0.03504654315881961,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1646181046962738,
+      "epoch": 7.61,
+      "learning_rate": 1.6645052432646715e-06,
+      "loss": 0.1775,
+      "step": 21070,
+      "task_loss": 0.3403213620185852
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06243878702015238,
+      "compression/movement_sparsity/importance_threshold": -0.0348875059954018,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15902748703956604,
+      "epoch": 7.62,
+      "learning_rate": 1.663089971335327e-06,
+      "loss": 0.157,
+      "step": 21080,
+      "task_loss": 0.3937772512435913
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06245042711583012,
+      "compression/movement_sparsity/importance_threshold": -0.034728950689404514,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16536450386047363,
+      "epoch": 7.62,
+      "learning_rate": 1.661672325020346e-06,
+      "loss": 0.1618,
+      "step": 21090,
+      "task_loss": 0.3008047938346863
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06246203189035256,
+      "compression/movement_sparsity/importance_threshold": -0.03457087650974333,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16399919986724854,
+      "epoch": 7.63,
+      "learning_rate": 1.660252309396022e-06,
+      "loss": 0.1695,
+      "step": 21100,
+      "task_loss": 0.45590633153915405
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.062473601397391096,
+      "compression/movement_sparsity/importance_threshold": -0.034413282725334726,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14936356246471405,
+      "epoch": 7.63,
+      "learning_rate": 1.6588299295471316e-06,
+      "loss": 0.1614,
+      "step": 21110,
+      "task_loss": 0.30914896726608276
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06248513569061714,
+      "compression/movement_sparsity/importance_threshold": -0.03425616860509462,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13448117673397064,
+      "epoch": 7.63,
+      "learning_rate": 1.6574051905669179e-06,
+      "loss": 0.1685,
+      "step": 21120,
+      "task_loss": 0.5696876049041748
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0624966348237021,
+      "compression/movement_sparsity/importance_threshold": -0.03409953341793903,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15890441834926605,
+      "epoch": 7.64,
+      "learning_rate": 1.6559780975570715e-06,
+      "loss": 0.177,
+      "step": 21130,
+      "task_loss": 0.29223620891571045
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0625080988503174,
+      "compression/movement_sparsity/importance_threshold": -0.03394337643278411,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15977126359939575,
+      "epoch": 7.64,
+      "learning_rate": 1.6545486556277118e-06,
+      "loss": 0.1579,
+      "step": 21140,
+      "task_loss": 0.42903733253479004
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06251952782413445,
+      "compression/movement_sparsity/importance_threshold": -0.033787696918545884,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12481575459241867,
+      "epoch": 7.64,
+      "learning_rate": 1.6531168698973698e-06,
+      "loss": 0.1673,
+      "step": 21150,
+      "task_loss": 0.4769006669521332
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06253092179882463,
+      "compression/movement_sparsity/importance_threshold": -0.03363249414414049,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14009490609169006,
+      "epoch": 7.65,
+      "learning_rate": 1.6516827454929691e-06,
+      "loss": 0.167,
+      "step": 21160,
+      "task_loss": 0.47750040888786316
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06254228082805939,
+      "compression/movement_sparsity/importance_threshold": -0.033477767378483736,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13786697387695312,
+      "epoch": 7.65,
+      "learning_rate": 1.6502462875498072e-06,
+      "loss": 0.1607,
+      "step": 21170,
+      "task_loss": 0.31475692987442017
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06255360496551013,
+      "compression/movement_sparsity/importance_threshold": -0.033323515890492095,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13212624192237854,
+      "epoch": 7.65,
+      "learning_rate": 1.6488075012115372e-06,
+      "loss": 0.1696,
+      "step": 21180,
+      "task_loss": 0.2864471673965454
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06256489426484825,
+      "compression/movement_sparsity/importance_threshold": -0.03316973894908137,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1384587585926056,
+      "epoch": 7.66,
+      "learning_rate": 1.6473663916301506e-06,
+      "loss": 0.1717,
+      "step": 21190,
+      "task_loss": 0.23976373672485352
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06257614877974516,
+      "compression/movement_sparsity/importance_threshold": -0.0330164358231676,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1388477087020874,
+      "epoch": 7.66,
+      "learning_rate": 1.6459229639659574e-06,
+      "loss": 0.1524,
+      "step": 21200,
+      "task_loss": 0.30393633246421814
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06258736856387229,
+      "compression/movement_sparsity/importance_threshold": -0.03286360578166703,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1598781794309616,
+      "epoch": 7.67,
+      "learning_rate": 1.6444772233875686e-06,
+      "loss": 0.1706,
+      "step": 21210,
+      "task_loss": 0.4479847252368927
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06259855367090102,
+      "compression/movement_sparsity/importance_threshold": -0.03271124809349546,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15409858524799347,
+      "epoch": 7.67,
+      "learning_rate": 1.6430291750718763e-06,
+      "loss": 0.1681,
+      "step": 21220,
+      "task_loss": 0.6857647895812988
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06260970415450279,
+      "compression/movement_sparsity/importance_threshold": -0.03255936202756937,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.156455859541893,
+      "epoch": 7.67,
+      "learning_rate": 1.6415788242040375e-06,
+      "loss": 0.1702,
+      "step": 21230,
+      "task_loss": 0.4796447157859802
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06262082006834899,
+      "compression/movement_sparsity/importance_threshold": -0.03240794685280446,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17359215021133423,
+      "epoch": 7.68,
+      "learning_rate": 1.6401261759774529e-06,
+      "loss": 0.17,
+      "step": 21240,
+      "task_loss": 0.6077663898468018
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06263190146611104,
+      "compression/movement_sparsity/importance_threshold": -0.03225700183811686,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15661515295505524,
+      "epoch": 7.68,
+      "learning_rate": 1.6386712355937506e-06,
+      "loss": 0.1798,
+      "step": 21250,
+      "task_loss": 0.4524965286254883
+    },
+    {
+      "epoch": 7.68,
+      "eval_exact_match": 83.59508041627247,
+      "eval_f1": 89.99440399360535,
+      "step": 21250
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06264294840146034,
+      "compression/movement_sparsity/importance_threshold": -0.03210652625242283,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16243040561676025,
+      "epoch": 7.68,
+      "learning_rate": 1.6372140082627653e-06,
+      "loss": 0.1725,
+      "step": 21260,
+      "task_loss": 0.7392611503601074
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06265396092806833,
+      "compression/movement_sparsity/importance_threshold": -0.03195651936463828,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1820927858352661,
+      "epoch": 7.69,
+      "learning_rate": 1.6357544992025214e-06,
+      "loss": 0.1629,
+      "step": 21270,
+      "task_loss": 0.7152500152587891
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06266493909960638,
+      "compression/movement_sparsity/importance_threshold": -0.031806980443679245,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1378469318151474,
+      "epoch": 7.69,
+      "learning_rate": 1.6342927136392146e-06,
+      "loss": 0.1635,
+      "step": 21280,
+      "task_loss": 0.4715365171432495
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06267588296974594,
+      "compression/movement_sparsity/importance_threshold": -0.03165790875846186,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14740951359272003,
+      "epoch": 7.69,
+      "learning_rate": 1.6328286568071903e-06,
+      "loss": 0.1732,
+      "step": 21290,
+      "task_loss": 0.5006458163261414
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0626867925921584,
+      "compression/movement_sparsity/importance_threshold": -0.03150930357790216,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13728134334087372,
+      "epoch": 7.7,
+      "learning_rate": 1.6313623339489285e-06,
+      "loss": 0.16,
+      "step": 21300,
+      "task_loss": 0.3875589966773987
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06269766802051516,
+      "compression/movement_sparsity/importance_threshold": -0.03136116417091628,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.24846616387367249,
+      "epoch": 7.7,
+      "learning_rate": 1.6298937503150226e-06,
+      "loss": 0.1714,
+      "step": 21310,
+      "task_loss": 0.4736020565032959
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06270850930848765,
+      "compression/movement_sparsity/importance_threshold": -0.031213489806420247,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2179969847202301,
+      "epoch": 7.71,
+      "learning_rate": 1.6284229111641613e-06,
+      "loss": 0.1854,
+      "step": 21320,
+      "task_loss": 0.5530951619148254
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06271931650974727,
+      "compression/movement_sparsity/importance_threshold": -0.031066279753330095,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13526931405067444,
+      "epoch": 7.71,
+      "learning_rate": 1.6269498217631102e-06,
+      "loss": 0.1558,
+      "step": 21330,
+      "task_loss": 0.42102596163749695
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06273008967796542,
+      "compression/movement_sparsity/importance_threshold": -0.03091953328056196,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14113759994506836,
+      "epoch": 7.71,
+      "learning_rate": 1.6254744873866926e-06,
+      "loss": 0.1727,
+      "step": 21340,
+      "task_loss": 0.277980774641037
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06274082886681355,
+      "compression/movement_sparsity/importance_threshold": -0.030773249657031876,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13323111832141876,
+      "epoch": 7.72,
+      "learning_rate": 1.6239969133177703e-06,
+      "loss": 0.182,
+      "step": 21350,
+      "task_loss": 0.44536280632019043
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06275153412996302,
+      "compression/movement_sparsity/importance_threshold": -0.030627428151655756,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16452021896839142,
+      "epoch": 7.72,
+      "learning_rate": 1.622517104847225e-06,
+      "loss": 0.1607,
+      "step": 21360,
+      "task_loss": 0.38459068536758423
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06276220552108529,
+      "compression/movement_sparsity/importance_threshold": -0.030482068033349963,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16616493463516235,
+      "epoch": 7.72,
+      "learning_rate": 1.6210350672739396e-06,
+      "loss": 0.1731,
+      "step": 21370,
+      "task_loss": 0.8876696825027466
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06277284309385174,
+      "compression/movement_sparsity/importance_threshold": -0.030337168571030304,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1460474133491516,
+      "epoch": 7.73,
+      "learning_rate": 1.6195508059047782e-06,
+      "loss": 0.1685,
+      "step": 21380,
+      "task_loss": 0.30946826934814453
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06278344690193377,
+      "compression/movement_sparsity/importance_threshold": -0.03019272903361314,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17295223474502563,
+      "epoch": 7.73,
+      "learning_rate": 1.6180643260545695e-06,
+      "loss": 0.1735,
+      "step": 21390,
+      "task_loss": 0.4286682903766632
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06279401699900283,
+      "compression/movement_sparsity/importance_threshold": -0.03004874869001417,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1404990553855896,
+      "epoch": 7.73,
+      "learning_rate": 1.6165756330460838e-06,
+      "loss": 0.1617,
+      "step": 21400,
+      "task_loss": 0.40137583017349243
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0628045534387303,
+      "compression/movement_sparsity/importance_threshold": -0.029905226809149643,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14242419600486755,
+      "epoch": 7.74,
+      "learning_rate": 1.6150847322100181e-06,
+      "loss": 0.1605,
+      "step": 21410,
+      "task_loss": 0.43105363845825195
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06281505627478759,
+      "compression/movement_sparsity/importance_threshold": -0.029762162659935698,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15184879302978516,
+      "epoch": 7.74,
+      "learning_rate": 1.6135916288849743e-06,
+      "loss": 0.1734,
+      "step": 21420,
+      "task_loss": 0.26615574955940247
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06282552556084613,
+      "compression/movement_sparsity/importance_threshold": -0.029619555511288254,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20159095525741577,
+      "epoch": 7.74,
+      "learning_rate": 1.6120963284174414e-06,
+      "loss": 0.1686,
+      "step": 21430,
+      "task_loss": 0.810195803642273
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06283596135057731,
+      "compression/movement_sparsity/importance_threshold": -0.02947740463212356,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13885483145713806,
+      "epoch": 7.75,
+      "learning_rate": 1.6105988361617753e-06,
+      "loss": 0.17,
+      "step": 21440,
+      "task_loss": 0.8474996089935303
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06284636369765256,
+      "compression/movement_sparsity/importance_threshold": -0.029335709291357537,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15829253196716309,
+      "epoch": 7.75,
+      "learning_rate": 1.609099157480181e-06,
+      "loss": 0.1593,
+      "step": 21450,
+      "task_loss": 0.3659548759460449
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06285673265574328,
+      "compression/movement_sparsity/importance_threshold": -0.02919446875790621,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16529636085033417,
+      "epoch": 7.76,
+      "learning_rate": 1.6075972977426924e-06,
+      "loss": 0.1695,
+      "step": 21460,
+      "task_loss": 0.2963300943374634
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06286706827852089,
+      "compression/movement_sparsity/importance_threshold": -0.029053682300685835,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.2159816175699234,
+      "epoch": 7.76,
+      "learning_rate": 1.6060932623271524e-06,
+      "loss": 0.1615,
+      "step": 21470,
+      "task_loss": 0.40529030561447144
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06287737061965677,
+      "compression/movement_sparsity/importance_threshold": -0.028913349188612325,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13636060059070587,
+      "epoch": 7.76,
+      "learning_rate": 1.6045870566191958e-06,
+      "loss": 0.153,
+      "step": 21480,
+      "task_loss": 0.42834505438804626
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06288763973282237,
+      "compression/movement_sparsity/importance_threshold": -0.028773468690601822,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11330045759677887,
+      "epoch": 7.77,
+      "learning_rate": 1.6030786860122283e-06,
+      "loss": 0.1819,
+      "step": 21490,
+      "task_loss": 0.2636592984199524
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06289787567168907,
+      "compression/movement_sparsity/importance_threshold": -0.028634040075570244,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16234830021858215,
+      "epoch": 7.77,
+      "learning_rate": 1.6015681559074076e-06,
+      "loss": 0.1722,
+      "step": 21500,
+      "task_loss": 0.5878846049308777
+    },
+    {
+      "epoch": 7.77,
+      "eval_exact_match": 83.43424787133397,
+      "eval_f1": 89.87035128509326,
+      "step": 21500
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0629080784899283,
+      "compression/movement_sparsity/importance_threshold": -0.028495062612433952,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1218387633562088,
+      "epoch": 7.77,
+      "learning_rate": 1.6000554717136239e-06,
+      "loss": 0.153,
+      "step": 21510,
+      "task_loss": 0.19702383875846863
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06291824824121148,
+      "compression/movement_sparsity/importance_threshold": -0.028356535570108754,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17990869283676147,
+      "epoch": 7.78,
+      "learning_rate": 1.5985406388474809e-06,
+      "loss": 0.1776,
+      "step": 21520,
+      "task_loss": 0.416679322719574
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06292838497920998,
+      "compression/movement_sparsity/importance_threshold": -0.02821845821751079,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18338486552238464,
+      "epoch": 7.78,
+      "learning_rate": 1.5970236627332766e-06,
+      "loss": 0.1697,
+      "step": 21530,
+      "task_loss": 0.8984547853469849
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06293848875759525,
+      "compression/movement_sparsity/importance_threshold": -0.028080829823556086,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.146068274974823,
+      "epoch": 7.78,
+      "learning_rate": 1.595504548802983e-06,
+      "loss": 0.1673,
+      "step": 21540,
+      "task_loss": 0.5259707570075989
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06294855963003868,
+      "compression/movement_sparsity/importance_threshold": -0.027943649657160896,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14311178028583527,
+      "epoch": 7.79,
+      "learning_rate": 1.5939833024962272e-06,
+      "loss": 0.1753,
+      "step": 21550,
+      "task_loss": 0.3172750473022461
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0629585976502117,
+      "compression/movement_sparsity/importance_threshold": -0.027806916987241137,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12539856135845184,
+      "epoch": 7.79,
+      "learning_rate": 1.5924599292602725e-06,
+      "loss": 0.1499,
+      "step": 21560,
+      "task_loss": 0.5374971628189087
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06296860287178568,
+      "compression/movement_sparsity/importance_threshold": -0.027670631082712727,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1600005328655243,
+      "epoch": 7.8,
+      "learning_rate": 1.5909344345499976e-06,
+      "loss": 0.1781,
+      "step": 21570,
+      "task_loss": 0.37696415185928345
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06297857534843208,
+      "compression/movement_sparsity/importance_threshold": -0.027534791212492027,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1379353404045105,
+      "epoch": 7.8,
+      "learning_rate": 1.5894068238278782e-06,
+      "loss": 0.1637,
+      "step": 21580,
+      "task_loss": 0.4239872097969055
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0629885151338223,
+      "compression/movement_sparsity/importance_threshold": -0.027399396645494956,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18081137537956238,
+      "epoch": 7.8,
+      "learning_rate": 1.5878771025639664e-06,
+      "loss": 0.1791,
+      "step": 21590,
+      "task_loss": 0.387275755405426
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06299842228162772,
+      "compression/movement_sparsity/importance_threshold": -0.02726444665063754,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14757958054542542,
+      "epoch": 7.81,
+      "learning_rate": 1.5863452762358725e-06,
+      "loss": 0.1521,
+      "step": 21600,
+      "task_loss": 0.4220387637615204
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06300829684551976,
+      "compression/movement_sparsity/importance_threshold": -0.027129940496836036,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13776156306266785,
+      "epoch": 7.81,
+      "learning_rate": 1.584811350328744e-06,
+      "loss": 0.1666,
+      "step": 21610,
+      "task_loss": 0.38100963830947876
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06301813887916986,
+      "compression/movement_sparsity/importance_threshold": -0.026995877453006356,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15775710344314575,
+      "epoch": 7.81,
+      "learning_rate": 1.5832753303352466e-06,
+      "loss": 0.1679,
+      "step": 21620,
+      "task_loss": 0.34619224071502686
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06302794843624941,
+      "compression/movement_sparsity/importance_threshold": -0.02686225678806442,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15650063753128052,
+      "epoch": 7.82,
+      "learning_rate": 1.5817372217555452e-06,
+      "loss": 0.1709,
+      "step": 21630,
+      "task_loss": 0.2966180741786957
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06303772557042982,
+      "compression/movement_sparsity/importance_threshold": -0.02672907777092659,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.20328043401241302,
+      "epoch": 7.82,
+      "learning_rate": 1.5801970300972825e-06,
+      "loss": 0.1767,
+      "step": 21640,
+      "task_loss": 0.6341493725776672
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0630474703353825,
+      "compression/movement_sparsity/importance_threshold": -0.026596339670508784,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16929413378238678,
+      "epoch": 7.82,
+      "learning_rate": 1.5786547608755604e-06,
+      "loss": 0.1635,
+      "step": 21650,
+      "task_loss": 0.4473767876625061
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06305718278477886,
+      "compression/movement_sparsity/importance_threshold": -0.02646404175572714,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14825168251991272,
+      "epoch": 7.83,
+      "learning_rate": 1.577110419612921e-06,
+      "loss": 0.1699,
+      "step": 21660,
+      "task_loss": 0.4353300929069519
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0630668629722903,
+      "compression/movement_sparsity/importance_threshold": -0.02633218329549769,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12816864252090454,
+      "epoch": 7.83,
+      "learning_rate": 1.575564011839325e-06,
+      "loss": 0.1517,
+      "step": 21670,
+      "task_loss": 0.6550402641296387
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06307651095158827,
+      "compression/movement_sparsity/importance_threshold": -0.026200763558736462,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17422786355018616,
+      "epoch": 7.84,
+      "learning_rate": 1.574015543092133e-06,
+      "loss": 0.1812,
+      "step": 21680,
+      "task_loss": 0.496726393699646
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06308612677634413,
+      "compression/movement_sparsity/importance_threshold": -0.026069781814359483,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18180793523788452,
+      "epoch": 7.84,
+      "learning_rate": 1.5724650189160866e-06,
+      "loss": 0.1807,
+      "step": 21690,
+      "task_loss": 0.5905567407608032
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06309571050022933,
+      "compression/movement_sparsity/importance_threshold": -0.025939237331283005,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14586716890335083,
+      "epoch": 7.84,
+      "learning_rate": 1.5709124448632855e-06,
+      "loss": 0.1862,
+      "step": 21700,
+      "task_loss": 0.908523440361023
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06310526217691527,
+      "compression/movement_sparsity/importance_threshold": -0.025809129378422835,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16504916548728943,
+      "epoch": 7.85,
+      "learning_rate": 1.5693578264931715e-06,
+      "loss": 0.1572,
+      "step": 21710,
+      "task_loss": 0.3277358114719391
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06311478186007335,
+      "compression/movement_sparsity/importance_threshold": -0.025679457224695224,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16319605708122253,
+      "epoch": 7.85,
+      "learning_rate": 1.5678011693725051e-06,
+      "loss": 0.1624,
+      "step": 21720,
+      "task_loss": 0.3537963628768921
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06312426960337499,
+      "compression/movement_sparsity/importance_threshold": -0.02555022013901631,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16419553756713867,
+      "epoch": 7.85,
+      "learning_rate": 1.5662424790753482e-06,
+      "loss": 0.1614,
+      "step": 21730,
+      "task_loss": 0.4133787751197815
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06313372546049159,
+      "compression/movement_sparsity/importance_threshold": -0.025421417390302015,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1400185227394104,
+      "epoch": 7.86,
+      "learning_rate": 1.5646817611830424e-06,
+      "loss": 0.1625,
+      "step": 21740,
+      "task_loss": 0.32223424315452576
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06314314948509457,
+      "compression/movement_sparsity/importance_threshold": -0.025293048247468364,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15030598640441895,
+      "epoch": 7.86,
+      "learning_rate": 1.5631190212841903e-06,
+      "loss": 0.1713,
+      "step": 21750,
+      "task_loss": 0.4918508529663086
+    },
+    {
+      "epoch": 7.86,
+      "eval_exact_match": 83.43424787133397,
+      "eval_f1": 89.87738840205206,
+      "step": 21750
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06315254173085535,
+      "compression/movement_sparsity/importance_threshold": -0.025165111979431498,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1533832848072052,
+      "epoch": 7.86,
+      "learning_rate": 1.5615542649746348e-06,
+      "loss": 0.1572,
+      "step": 21760,
+      "task_loss": 0.3352183997631073
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06316190225144531,
+      "compression/movement_sparsity/importance_threshold": -0.025037607855107558,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.13758356869220734,
+      "epoch": 7.87,
+      "learning_rate": 1.5599874978574383e-06,
+      "loss": 0.1681,
+      "step": 21770,
+      "task_loss": 0.2775072455406189
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06317123110053591,
+      "compression/movement_sparsity/importance_threshold": -0.02491053514341246,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15805354714393616,
+      "epoch": 7.87,
+      "learning_rate": 1.558418725542865e-06,
+      "loss": 0.1715,
+      "step": 21780,
+      "task_loss": 0.3538605868816376
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0631805283317985,
+      "compression/movement_sparsity/importance_threshold": -0.024783893113262234,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14023539423942566,
+      "epoch": 7.87,
+      "learning_rate": 1.5568479536483574e-06,
+      "loss": 0.1725,
+      "step": 21790,
+      "task_loss": 0.438821017742157
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06318979399890454,
+      "compression/movement_sparsity/importance_threshold": -0.024657681033573242,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1380080133676529,
+      "epoch": 7.88,
+      "learning_rate": 1.5552751877985198e-06,
+      "loss": 0.1598,
+      "step": 21800,
+      "task_loss": 0.35417595505714417
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06319902815552542,
+      "compression/movement_sparsity/importance_threshold": -0.02453189817326129,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1379581242799759,
+      "epoch": 7.88,
+      "learning_rate": 1.5537004336250953e-06,
+      "loss": 0.1623,
+      "step": 21810,
+      "task_loss": 0.2302461713552475
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06320823085533255,
+      "compression/movement_sparsity/importance_threshold": -0.02440654380124263,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17599256336688995,
+      "epoch": 7.89,
+      "learning_rate": 1.5521236967669476e-06,
+      "loss": 0.1751,
+      "step": 21820,
+      "task_loss": 0.4087195098400116
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06321740215199734,
+      "compression/movement_sparsity/importance_threshold": -0.02428161718643307,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15393874049186707,
+      "epoch": 7.89,
+      "learning_rate": 1.5505449828700391e-06,
+      "loss": 0.1707,
+      "step": 21830,
+      "task_loss": 0.36279088258743286
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0632265420991912,
+      "compression/movement_sparsity/importance_threshold": -0.024157117597748967,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1479380875825882,
+      "epoch": 7.89,
+      "learning_rate": 1.5489642975874122e-06,
+      "loss": 0.1614,
+      "step": 21840,
+      "task_loss": 0.43778854608535767
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06323565075058554,
+      "compression/movement_sparsity/importance_threshold": -0.024033044304106133,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.16105225682258606,
+      "epoch": 7.9,
+      "learning_rate": 1.5473816465791684e-06,
+      "loss": 0.1619,
+      "step": 21850,
+      "task_loss": 0.3186939060688019
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06324472815985178,
+      "compression/movement_sparsity/importance_threshold": -0.023909396574420927,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.12178893387317657,
+      "epoch": 7.9,
+      "learning_rate": 1.5457970355124478e-06,
+      "loss": 0.1616,
+      "step": 21860,
+      "task_loss": 0.5092835426330566
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06325377438066133,
+      "compression/movement_sparsity/importance_threshold": -0.023786173677609046,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14096394181251526,
+      "epoch": 7.9,
+      "learning_rate": 1.5442104700614089e-06,
+      "loss": 0.173,
+      "step": 21870,
+      "task_loss": 0.4207335114479065
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06326278946668559,
+      "compression/movement_sparsity/importance_threshold": -0.02366337488258685,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1833285242319107,
+      "epoch": 7.91,
+      "learning_rate": 1.542621955907209e-06,
+      "loss": 0.1776,
+      "step": 21880,
+      "task_loss": 0.35541167855262756
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06327177347159599,
+      "compression/movement_sparsity/importance_threshold": -0.02354099945827015,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1276547908782959,
+      "epoch": 7.91,
+      "learning_rate": 1.5410314987379826e-06,
+      "loss": 0.1608,
+      "step": 21890,
+      "task_loss": 0.9517670273780823
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06328072644906392,
+      "compression/movement_sparsity/importance_threshold": -0.023419046673575417,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17998504638671875,
+      "epoch": 7.91,
+      "learning_rate": 1.5394391042488227e-06,
+      "loss": 0.162,
+      "step": 21900,
+      "task_loss": 0.39371180534362793
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06328964845276079,
+      "compression/movement_sparsity/importance_threshold": -0.023297515797418344,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15145400166511536,
+      "epoch": 7.92,
+      "learning_rate": 1.5378447781417583e-06,
+      "loss": 0.1493,
+      "step": 21910,
+      "task_loss": 0.35905247926712036
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06329853953635801,
+      "compression/movement_sparsity/importance_threshold": -0.023176406098715185,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14053452014923096,
+      "epoch": 7.92,
+      "learning_rate": 1.5362485261257357e-06,
+      "loss": 0.1702,
+      "step": 21920,
+      "task_loss": 0.6316653490066528
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06330739975352702,
+      "compression/movement_sparsity/importance_threshold": -0.023055716846381857,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.1474117934703827,
+      "epoch": 7.93,
+      "learning_rate": 1.5346503539165975e-06,
+      "loss": 0.1663,
+      "step": 21930,
+      "task_loss": 0.4833589792251587
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.0633162291579392,
+      "compression/movement_sparsity/importance_threshold": -0.0229354473093345,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.11505290865898132,
+      "epoch": 7.93,
+      "learning_rate": 1.5330502672370624e-06,
+      "loss": 0.1662,
+      "step": 21940,
+      "task_loss": 0.22523199021816254
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06332502780326597,
+      "compression/movement_sparsity/importance_threshold": -0.022815596756489254,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.15433210134506226,
+      "epoch": 7.93,
+      "learning_rate": 1.5314482718167034e-06,
+      "loss": 0.1667,
+      "step": 21950,
+      "task_loss": 0.4213239252567291
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06333379574317875,
+      "compression/movement_sparsity/importance_threshold": -0.022696164456762147,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18093153834342957,
+      "epoch": 7.94,
+      "learning_rate": 1.5298443733919294e-06,
+      "loss": 0.1637,
+      "step": 21960,
+      "task_loss": 0.34346556663513184
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06334253303134893,
+      "compression/movement_sparsity/importance_threshold": -0.02257714967906932,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.10571896284818649,
+      "epoch": 7.94,
+      "learning_rate": 1.5282385777059635e-06,
+      "loss": 0.1562,
+      "step": 21970,
+      "task_loss": 0.17734256386756897
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06335123972144793,
+      "compression/movement_sparsity/importance_threshold": -0.022458551692326578,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.18012669682502747,
+      "epoch": 7.94,
+      "learning_rate": 1.526630890508821e-06,
+      "loss": 0.1653,
+      "step": 21980,
+      "task_loss": 0.5104833245277405
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06335991586714718,
+      "compression/movement_sparsity/importance_threshold": -0.022340369765450174,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.17314781248569489,
+      "epoch": 7.95,
+      "learning_rate": 1.5250213175572921e-06,
+      "loss": 0.1676,
+      "step": 21990,
+      "task_loss": 0.3881048560142517
+    },
+    {
+      "compression/movement_sparsity/importance_regularization_factor": 0.06336856152211805,
+      "compression/movement_sparsity/importance_threshold": -0.022222603167356247,
+      "compression/movement_sparsity/linear_layer_sparsity": 0.39830344237724996,
+      "compression/movement_sparsity/model_sparsity": 0.22154907944140886,
+      "compression_loss": 0.0,
+      "distillation_loss": 0.14116662740707397,
+      "epoch": 7.95,
+      "learning_rate": 1.523409864614919e-06,
+      "loss": 0.1608,
+      "step": 22000,
+      "task_loss": 0.40728896856307983
+    },
+    {
+      "epoch": 7.95,
+      "eval_exact_match": 83.80321665089878,
+      "eval_f1": 90.15605593670335,
+      "step": 22000
+    }
+  ],
+  "max_steps": 49806,
+  "num_train_epochs": 18,
+  "total_flos": 1.968581126605824e+16,
+  "trial_name": null,
+  "trial_params": null
+}