bobox commited on Jul 12

Commit

d247c72

•

1 Parent(s): afa5e3f

Training in progress, step 2554, checkpoint

Browse files

Files changed (17) hide show

checkpoint-2554/1_Pooling/config.json +10 -0
checkpoint-2554/README.md +0 -0
checkpoint-2554/added_tokens.json +3 -0
checkpoint-2554/config.json +35 -0
checkpoint-2554/config_sentence_transformers.json +10 -0
checkpoint-2554/modules.json +14 -0
checkpoint-2554/optimizer.pt +3 -0
checkpoint-2554/pytorch_model.bin +3 -0
checkpoint-2554/rng_state.pth +3 -0
checkpoint-2554/scheduler.pt +3 -0
checkpoint-2554/sentence_bert_config.json +4 -0
checkpoint-2554/special_tokens_map.json +51 -0
checkpoint-2554/spm.model +3 -0
checkpoint-2554/tokenizer.json +0 -0
checkpoint-2554/tokenizer_config.json +65 -0
checkpoint-2554/trainer_state.json +1608 -0
checkpoint-2554/training_args.bin +3 -0

checkpoint-2554/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

checkpoint-2554/README.md ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2554/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-2554/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "bobox/DeBERTa-ST-AllLayers-v3-checkpoints-tmp",
+  "architectures": [
+    "DebertaV2Model"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.3",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-2554/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.0.1",
+    "transformers": "4.42.3",
+    "pytorch": "2.1.2"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": null
+}

checkpoint-2554/modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

checkpoint-2554/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66bb1e36276c1c098c52926289b76425a27f3db889d5a7048c1cb263e28e245b
+size 1130520122

checkpoint-2554/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8631cd0e79a1f08a0912c11f565aed711b237e95a58d80d9d21672834f172075
+size 565251810

checkpoint-2554/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f559b53b673cbaeb2c79890b3798a53f05f92893f5f6881490ea3ce66a7599d9
+size 14244

checkpoint-2554/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dfadb5a50c60e4767cb9734be0c74fcd91fb48041ecf1db5b7da5ffd8146e00
+size 1064

checkpoint-2554/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

checkpoint-2554/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2554/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-2554/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2554/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "stride": 0,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-2554/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1608 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.40025074439742986,
+  "eval_steps": 320,
+  "global_step": 2554,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0050148879485973985,
+      "grad_norm": 14.771158218383789,
+      "learning_rate": 9.707724425887265e-07,
+      "loss": 0.6329,
+      "step": 32
+    },
+    {
+      "epoch": 0.010029775897194797,
+      "grad_norm": 11.052021980285645,
+      "learning_rate": 1.9728601252609606e-06,
+      "loss": 0.9693,
+      "step": 64
+    },
+    {
+      "epoch": 0.015044663845792195,
+      "grad_norm": 20.26296615600586,
+      "learning_rate": 2.9749478079331944e-06,
+      "loss": 0.6548,
+      "step": 96
+    },
+    {
+      "epoch": 0.020059551794389594,
+      "grad_norm": 12.62913703918457,
+      "learning_rate": 3.945720250521921e-06,
+      "loss": 1.1279,
+      "step": 128
+    },
+    {
+      "epoch": 0.025074439742986992,
+      "grad_norm": 12.316486358642578,
+      "learning_rate": 4.916492693110647e-06,
+      "loss": 1.0017,
+      "step": 160
+    },
+    {
+      "epoch": 0.03008932769158439,
+      "grad_norm": 64.25923919677734,
+      "learning_rate": 5.918580375782881e-06,
+      "loss": 0.7571,
+      "step": 192
+    },
+    {
+      "epoch": 0.03510421564018179,
+      "grad_norm": 0.8205029368400574,
+      "learning_rate": 6.920668058455115e-06,
+      "loss": 0.7304,
+      "step": 224
+    },
+    {
+      "epoch": 0.04011910358877919,
+      "grad_norm": 6.598870754241943,
+      "learning_rate": 7.922755741127349e-06,
+      "loss": 0.7636,
+      "step": 256
+    },
+    {
+      "epoch": 0.045133991537376586,
+      "grad_norm": 8.728073120117188,
+      "learning_rate": 8.924843423799583e-06,
+      "loss": 0.482,
+      "step": 288
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "grad_norm": 7.645521640777588,
+      "learning_rate": 9.926931106471817e-06,
+      "loss": 0.6312,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_nli-pairs_loss": 1.0158467292785645,
+      "eval_nli-pairs_runtime": 3.7267,
+      "eval_nli-pairs_samples_per_second": 26.833,
+      "eval_nli-pairs_steps_per_second": 1.073,
+      "eval_sts-test_pearson_cosine": 0.7848265412179125,
+      "eval_sts-test_pearson_dot": 0.5437080705284749,
+      "eval_sts-test_pearson_euclidean": 0.7445845076364892,
+      "eval_sts-test_pearson_manhattan": 0.7429239204432232,
+      "eval_sts-test_pearson_max": 0.7848265412179125,
+      "eval_sts-test_spearman_cosine": 0.7989504707258924,
+      "eval_sts-test_spearman_dot": 0.5206855421174118,
+      "eval_sts-test_spearman_euclidean": 0.733568982260844,
+      "eval_sts-test_spearman_manhattan": 0.7349407257944446,
+      "eval_sts-test_spearman_max": 0.7989504707258924,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_vitaminc-pairs_loss": 4.692601680755615,
+      "eval_vitaminc-pairs_runtime": 1.1397,
+      "eval_vitaminc-pairs_samples_per_second": 74.578,
+      "eval_vitaminc-pairs_steps_per_second": 2.632,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_sts-label_loss": 3.5502490997314453,
+      "eval_sts-label_runtime": 0.28,
+      "eval_sts-label_samples_per_second": 357.117,
+      "eval_sts-label_steps_per_second": 14.285,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_qnli-contrastive_loss": 0.16079513728618622,
+      "eval_qnli-contrastive_runtime": 0.3646,
+      "eval_qnli-contrastive_samples_per_second": 274.299,
+      "eval_qnli-contrastive_steps_per_second": 10.972,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_scitail-pairs-qa_loss": 0.07610582560300827,
+      "eval_scitail-pairs-qa_runtime": 0.8885,
+      "eval_scitail-pairs-qa_samples_per_second": 112.548,
+      "eval_scitail-pairs-qa_steps_per_second": 4.502,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_scitail-pairs-pos_loss": 0.5141278505325317,
+      "eval_scitail-pairs-pos_runtime": 1.3498,
+      "eval_scitail-pairs-pos_samples_per_second": 74.085,
+      "eval_scitail-pairs-pos_steps_per_second": 2.963,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_xsum-pairs_loss": 0.25581496953964233,
+      "eval_xsum-pairs_runtime": 0.9407,
+      "eval_xsum-pairs_samples_per_second": 106.304,
+      "eval_xsum-pairs_steps_per_second": 4.252,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_compression-pairs_loss": 0.09814296662807465,
+      "eval_compression-pairs_runtime": 0.2758,
+      "eval_compression-pairs_samples_per_second": 362.517,
+      "eval_compression-pairs_steps_per_second": 14.501,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_sciq_pairs_loss": 0.25620242953300476,
+      "eval_sciq_pairs_runtime": 4.1155,
+      "eval_sciq_pairs_samples_per_second": 24.298,
+      "eval_sciq_pairs_steps_per_second": 0.972,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_qasc_pairs_loss": 0.2044612169265747,
+      "eval_qasc_pairs_runtime": 1.1029,
+      "eval_qasc_pairs_samples_per_second": 90.672,
+      "eval_qasc_pairs_steps_per_second": 3.627,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_openbookqa_pairs_loss": 1.7537646293640137,
+      "eval_openbookqa_pairs_runtime": 0.9037,
+      "eval_openbookqa_pairs_samples_per_second": 110.653,
+      "eval_openbookqa_pairs_steps_per_second": 4.426,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_msmarco_pairs_loss": 0.5138561725616455,
+      "eval_msmarco_pairs_runtime": 2.0511,
+      "eval_msmarco_pairs_samples_per_second": 48.754,
+      "eval_msmarco_pairs_steps_per_second": 1.95,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_nq_pairs_loss": 0.23510317504405975,
+      "eval_nq_pairs_runtime": 4.5293,
+      "eval_nq_pairs_samples_per_second": 22.078,
+      "eval_nq_pairs_steps_per_second": 0.883,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_trivia_pairs_loss": 0.7808571457862854,
+      "eval_trivia_pairs_runtime": 6.5065,
+      "eval_trivia_pairs_samples_per_second": 15.369,
+      "eval_trivia_pairs_steps_per_second": 0.615,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_quora_pairs_loss": 0.0392119362950325,
+      "eval_quora_pairs_runtime": 0.675,
+      "eval_quora_pairs_samples_per_second": 148.153,
+      "eval_quora_pairs_steps_per_second": 5.926,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_gooaq_pairs_loss": 0.4712902009487152,
+      "eval_gooaq_pairs_runtime": 1.4079,
+      "eval_gooaq_pairs_samples_per_second": 71.028,
+      "eval_gooaq_pairs_steps_per_second": 2.841,
+      "step": 320
+    },
+    {
+      "epoch": 0.050148879485973984,
+      "eval_mrpc_pairs_loss": 0.05498996376991272,
+      "eval_mrpc_pairs_runtime": 0.2623,
+      "eval_mrpc_pairs_samples_per_second": 381.172,
+      "eval_mrpc_pairs_steps_per_second": 15.247,
+      "step": 320
+    },
+    {
+      "epoch": 0.05516376743457138,
+      "grad_norm": 0.34924012422561646,
+      "learning_rate": 1.092901878914405e-05,
+      "loss": 0.5791,
+      "step": 352
+    },
+    {
+      "epoch": 0.06017865538316878,
+      "grad_norm": 0.36700841784477234,
+      "learning_rate": 1.1931106471816284e-05,
+      "loss": 0.6413,
+      "step": 384
+    },
+    {
+      "epoch": 0.06519354333176618,
+      "grad_norm": 7.559622764587402,
+      "learning_rate": 1.2933194154488518e-05,
+      "loss": 0.4319,
+      "step": 416
+    },
+    {
+      "epoch": 0.07020843128036358,
+      "grad_norm": 7.982416152954102,
+      "learning_rate": 1.3935281837160753e-05,
+      "loss": 0.6672,
+      "step": 448
+    },
+    {
+      "epoch": 0.07522331922896097,
+      "grad_norm": 0.6726166009902954,
+      "learning_rate": 1.4937369519832987e-05,
+      "loss": 0.459,
+      "step": 480
+    },
+    {
+      "epoch": 0.08023820717755838,
+      "grad_norm": 14.846123695373535,
+      "learning_rate": 1.593945720250522e-05,
+      "loss": 0.7621,
+      "step": 512
+    },
+    {
+      "epoch": 0.08525309512615578,
+      "grad_norm": 0.7846627831459045,
+      "learning_rate": 1.6941544885177454e-05,
+      "loss": 0.864,
+      "step": 544
+    },
+    {
+      "epoch": 0.09026798307475317,
+      "grad_norm": 0.8993583917617798,
+      "learning_rate": 1.7943632567849688e-05,
+      "loss": 0.5081,
+      "step": 576
+    },
+    {
+      "epoch": 0.09528287102335058,
+      "grad_norm": 1.4990565776824951,
+      "learning_rate": 1.894572025052192e-05,
+      "loss": 0.654,
+      "step": 608
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "grad_norm": 15.647976875305176,
+      "learning_rate": 1.9947807933194157e-05,
+      "loss": 0.6372,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_nli-pairs_loss": 1.0652996301651,
+      "eval_nli-pairs_runtime": 3.6326,
+      "eval_nli-pairs_samples_per_second": 27.528,
+      "eval_nli-pairs_steps_per_second": 1.101,
+      "eval_sts-test_pearson_cosine": 0.785263018402905,
+      "eval_sts-test_pearson_dot": 0.5290450141477089,
+      "eval_sts-test_pearson_euclidean": 0.7433756286425983,
+      "eval_sts-test_pearson_manhattan": 0.7411097274300102,
+      "eval_sts-test_pearson_max": 0.785263018402905,
+      "eval_sts-test_spearman_cosine": 0.7996928912411947,
+      "eval_sts-test_spearman_dot": 0.5102571497667188,
+      "eval_sts-test_spearman_euclidean": 0.7338969723324641,
+      "eval_sts-test_spearman_manhattan": 0.7343494860194358,
+      "eval_sts-test_spearman_max": 0.7996928912411947,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_vitaminc-pairs_loss": 4.719416618347168,
+      "eval_vitaminc-pairs_runtime": 1.1268,
+      "eval_vitaminc-pairs_samples_per_second": 75.437,
+      "eval_vitaminc-pairs_steps_per_second": 2.662,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_sts-label_loss": 3.612347364425659,
+      "eval_sts-label_runtime": 0.2683,
+      "eval_sts-label_samples_per_second": 372.651,
+      "eval_sts-label_steps_per_second": 14.906,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_qnli-contrastive_loss": 0.15202775597572327,
+      "eval_qnli-contrastive_runtime": 0.3528,
+      "eval_qnli-contrastive_samples_per_second": 283.457,
+      "eval_qnli-contrastive_steps_per_second": 11.338,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_scitail-pairs-qa_loss": 0.07544919103384018,
+      "eval_scitail-pairs-qa_runtime": 0.8732,
+      "eval_scitail-pairs-qa_samples_per_second": 114.517,
+      "eval_scitail-pairs-qa_steps_per_second": 4.581,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_scitail-pairs-pos_loss": 0.5404170751571655,
+      "eval_scitail-pairs-pos_runtime": 1.3146,
+      "eval_scitail-pairs-pos_samples_per_second": 76.067,
+      "eval_scitail-pairs-pos_steps_per_second": 3.043,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_xsum-pairs_loss": 0.25958582758903503,
+      "eval_xsum-pairs_runtime": 0.9287,
+      "eval_xsum-pairs_samples_per_second": 107.679,
+      "eval_xsum-pairs_steps_per_second": 4.307,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_compression-pairs_loss": 0.10066353529691696,
+      "eval_compression-pairs_runtime": 0.2732,
+      "eval_compression-pairs_samples_per_second": 366.076,
+      "eval_compression-pairs_steps_per_second": 14.643,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_sciq_pairs_loss": 0.2645374834537506,
+      "eval_sciq_pairs_runtime": 4.0725,
+      "eval_sciq_pairs_samples_per_second": 24.555,
+      "eval_sciq_pairs_steps_per_second": 0.982,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_qasc_pairs_loss": 0.21021947264671326,
+      "eval_qasc_pairs_runtime": 1.0743,
+      "eval_qasc_pairs_samples_per_second": 93.084,
+      "eval_qasc_pairs_steps_per_second": 3.723,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_openbookqa_pairs_loss": 1.7905032634735107,
+      "eval_openbookqa_pairs_runtime": 0.8886,
+      "eval_openbookqa_pairs_samples_per_second": 112.532,
+      "eval_openbookqa_pairs_steps_per_second": 4.501,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_msmarco_pairs_loss": 0.5102832913398743,
+      "eval_msmarco_pairs_runtime": 2.0529,
+      "eval_msmarco_pairs_samples_per_second": 48.712,
+      "eval_msmarco_pairs_steps_per_second": 1.948,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_nq_pairs_loss": 0.24466972053050995,
+      "eval_nq_pairs_runtime": 4.4973,
+      "eval_nq_pairs_samples_per_second": 22.235,
+      "eval_nq_pairs_steps_per_second": 0.889,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_trivia_pairs_loss": 0.8748095631599426,
+      "eval_trivia_pairs_runtime": 6.4825,
+      "eval_trivia_pairs_samples_per_second": 15.426,
+      "eval_trivia_pairs_steps_per_second": 0.617,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_quora_pairs_loss": 0.07820220291614532,
+      "eval_quora_pairs_runtime": 0.6944,
+      "eval_quora_pairs_samples_per_second": 144.008,
+      "eval_quora_pairs_steps_per_second": 5.76,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_gooaq_pairs_loss": 0.5236212611198425,
+      "eval_gooaq_pairs_runtime": 1.3899,
+      "eval_gooaq_pairs_samples_per_second": 71.949,
+      "eval_gooaq_pairs_steps_per_second": 2.878,
+      "step": 640
+    },
+    {
+      "epoch": 0.10029775897194797,
+      "eval_mrpc_pairs_loss": 0.05494727939367294,
+      "eval_mrpc_pairs_runtime": 0.2598,
+      "eval_mrpc_pairs_samples_per_second": 384.941,
+      "eval_mrpc_pairs_steps_per_second": 15.398,
+      "step": 640
+    },
+    {
+      "epoch": 0.10531264692054537,
+      "grad_norm": 11.01974105834961,
+      "learning_rate": 2.0949895615866387e-05,
+      "loss": 0.9292,
+      "step": 672
+    },
+    {
+      "epoch": 0.11032753486914276,
+      "grad_norm": 0.5542309284210205,
+      "learning_rate": 2.1951983298538625e-05,
+      "loss": 1.3108,
+      "step": 704
+    },
+    {
+      "epoch": 0.11534242281774017,
+      "grad_norm": 15.458569526672363,
+      "learning_rate": 2.2954070981210856e-05,
+      "loss": 0.9674,
+      "step": 736
+    },
+    {
+      "epoch": 0.12035731076633756,
+      "grad_norm": 2.7814478874206543,
+      "learning_rate": 2.395615866388309e-05,
+      "loss": 0.9226,
+      "step": 768
+    },
+    {
+      "epoch": 0.12537219871493496,
+      "grad_norm": 11.393244743347168,
+      "learning_rate": 2.4958246346555324e-05,
+      "loss": 0.789,
+      "step": 800
+    },
+    {
+      "epoch": 0.13038708666353235,
+      "grad_norm": 9.288290977478027,
+      "learning_rate": 2.596033402922756e-05,
+      "loss": 0.5186,
+      "step": 832
+    },
+    {
+      "epoch": 0.13540197461212977,
+      "grad_norm": 47.65571212768555,
+      "learning_rate": 2.6962421711899793e-05,
+      "loss": 0.6726,
+      "step": 864
+    },
+    {
+      "epoch": 0.14041686256072716,
+      "grad_norm": 12.908064842224121,
+      "learning_rate": 2.7964509394572024e-05,
+      "loss": 0.5381,
+      "step": 896
+    },
+    {
+      "epoch": 0.14543175050932455,
+      "grad_norm": 14.951742172241211,
+      "learning_rate": 2.896659707724426e-05,
+      "loss": 0.581,
+      "step": 928
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "grad_norm": 20.12006187438965,
+      "learning_rate": 2.9968684759916492e-05,
+      "loss": 0.9038,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_nli-pairs_loss": 1.2173175811767578,
+      "eval_nli-pairs_runtime": 3.7098,
+      "eval_nli-pairs_samples_per_second": 26.955,
+      "eval_nli-pairs_steps_per_second": 1.078,
+      "eval_sts-test_pearson_cosine": 0.7840992835675669,
+      "eval_sts-test_pearson_dot": 0.5220462136106129,
+      "eval_sts-test_pearson_euclidean": 0.7457350047351855,
+      "eval_sts-test_pearson_manhattan": 0.7425970830541657,
+      "eval_sts-test_pearson_max": 0.7840992835675669,
+      "eval_sts-test_spearman_cosine": 0.8006376809572144,
+      "eval_sts-test_spearman_dot": 0.5020544543992158,
+      "eval_sts-test_spearman_euclidean": 0.7369257710408655,
+      "eval_sts-test_spearman_manhattan": 0.7362649758012406,
+      "eval_sts-test_spearman_max": 0.8006376809572144,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_vitaminc-pairs_loss": 4.774902820587158,
+      "eval_vitaminc-pairs_runtime": 1.1212,
+      "eval_vitaminc-pairs_samples_per_second": 75.809,
+      "eval_vitaminc-pairs_steps_per_second": 2.676,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_sts-label_loss": 3.198556900024414,
+      "eval_sts-label_runtime": 0.2678,
+      "eval_sts-label_samples_per_second": 373.382,
+      "eval_sts-label_steps_per_second": 14.935,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_qnli-contrastive_loss": 0.1943340301513672,
+      "eval_qnli-contrastive_runtime": 0.3511,
+      "eval_qnli-contrastive_samples_per_second": 284.789,
+      "eval_qnli-contrastive_steps_per_second": 11.392,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_scitail-pairs-qa_loss": 0.08060617744922638,
+      "eval_scitail-pairs-qa_runtime": 0.8778,
+      "eval_scitail-pairs-qa_samples_per_second": 113.92,
+      "eval_scitail-pairs-qa_steps_per_second": 4.557,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_scitail-pairs-pos_loss": 0.4759831428527832,
+      "eval_scitail-pairs-pos_runtime": 1.3609,
+      "eval_scitail-pairs-pos_samples_per_second": 73.48,
+      "eval_scitail-pairs-pos_steps_per_second": 2.939,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_xsum-pairs_loss": 0.27583304047584534,
+      "eval_xsum-pairs_runtime": 0.9343,
+      "eval_xsum-pairs_samples_per_second": 107.035,
+      "eval_xsum-pairs_steps_per_second": 4.281,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_compression-pairs_loss": 0.10094660520553589,
+      "eval_compression-pairs_runtime": 0.2739,
+      "eval_compression-pairs_samples_per_second": 365.047,
+      "eval_compression-pairs_steps_per_second": 14.602,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_sciq_pairs_loss": 0.2688131630420685,
+      "eval_sciq_pairs_runtime": 4.0582,
+      "eval_sciq_pairs_samples_per_second": 24.641,
+      "eval_sciq_pairs_steps_per_second": 0.986,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_qasc_pairs_loss": 0.23267821967601776,
+      "eval_qasc_pairs_runtime": 1.0554,
+      "eval_qasc_pairs_samples_per_second": 94.75,
+      "eval_qasc_pairs_steps_per_second": 3.79,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_openbookqa_pairs_loss": 1.8053069114685059,
+      "eval_openbookqa_pairs_runtime": 0.8871,
+      "eval_openbookqa_pairs_samples_per_second": 112.727,
+      "eval_openbookqa_pairs_steps_per_second": 4.509,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_msmarco_pairs_loss": 0.5809260606765747,
+      "eval_msmarco_pairs_runtime": 2.0498,
+      "eval_msmarco_pairs_samples_per_second": 48.786,
+      "eval_msmarco_pairs_steps_per_second": 1.951,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_nq_pairs_loss": 0.2808491885662079,
+      "eval_nq_pairs_runtime": 4.4982,
+      "eval_nq_pairs_samples_per_second": 22.231,
+      "eval_nq_pairs_steps_per_second": 0.889,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_trivia_pairs_loss": 0.9379808902740479,
+      "eval_trivia_pairs_runtime": 6.4578,
+      "eval_trivia_pairs_samples_per_second": 15.485,
+      "eval_trivia_pairs_steps_per_second": 0.619,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_quora_pairs_loss": 0.0913279801607132,
+      "eval_quora_pairs_runtime": 0.6721,
+      "eval_quora_pairs_samples_per_second": 148.79,
+      "eval_quora_pairs_steps_per_second": 5.952,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_gooaq_pairs_loss": 0.5807955265045166,
+      "eval_gooaq_pairs_runtime": 1.3915,
+      "eval_gooaq_pairs_samples_per_second": 71.865,
+      "eval_gooaq_pairs_steps_per_second": 2.875,
+      "step": 960
+    },
+    {
+      "epoch": 0.15044663845792194,
+      "eval_mrpc_pairs_loss": 0.05799216777086258,
+      "eval_mrpc_pairs_runtime": 0.2571,
+      "eval_mrpc_pairs_samples_per_second": 388.998,
+      "eval_mrpc_pairs_steps_per_second": 15.56,
+      "step": 960
+    },
+    {
+      "epoch": 0.15546152640651936,
+      "grad_norm": 9.773286819458008,
+      "learning_rate": 2.9997957904107625e-05,
+      "loss": 0.7964,
+      "step": 992
+    },
+    {
+      "epoch": 0.16047641435511675,
+      "grad_norm": 19.411075592041016,
+      "learning_rate": 2.9991566594209126e-05,
+      "loss": 0.8213,
+      "step": 1024
+    },
+    {
+      "epoch": 0.16549130230371414,
+      "grad_norm": 3.5282175540924072,
+      "learning_rate": 2.9980825799589488e-05,
+      "loss": 0.5396,
+      "step": 1056
+    },
+    {
+      "epoch": 0.17050619025231156,
+      "grad_norm": 62.66339874267578,
+      "learning_rate": 2.996573863646219e-05,
+      "loss": 0.9297,
+      "step": 1088
+    },
+    {
+      "epoch": 0.17552107820090895,
+      "grad_norm": 8.785274505615234,
+      "learning_rate": 2.994630948204727e-05,
+      "loss": 1.169,
+      "step": 1120
+    },
+    {
+      "epoch": 0.18053596614950634,
+      "grad_norm": 24.10859489440918,
+      "learning_rate": 2.992254397330132e-05,
+      "loss": 0.7486,
+      "step": 1152
+    },
+    {
+      "epoch": 0.18555085409810373,
+      "grad_norm": 25.545284271240234,
+      "learning_rate": 2.9894449005282077e-05,
+      "loss": 0.6821,
+      "step": 1184
+    },
+    {
+      "epoch": 0.19056574204670115,
+      "grad_norm": 0.8675521016120911,
+      "learning_rate": 2.9862032729147954e-05,
+      "loss": 0.6125,
+      "step": 1216
+    },
+    {
+      "epoch": 0.19558062999529854,
+      "grad_norm": 16.122114181518555,
+      "learning_rate": 2.9825304549793153e-05,
+      "loss": 0.8061,
+      "step": 1248
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "grad_norm": 1.0314382314682007,
+      "learning_rate": 2.978427512311904e-05,
+      "loss": 0.6918,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_nli-pairs_loss": 1.1552109718322754,
+      "eval_nli-pairs_runtime": 3.8751,
+      "eval_nli-pairs_samples_per_second": 25.806,
+      "eval_nli-pairs_steps_per_second": 1.032,
+      "eval_sts-test_pearson_cosine": 0.786106976104726,
+      "eval_sts-test_pearson_dot": 0.5116758767219935,
+      "eval_sts-test_pearson_euclidean": 0.7432891018313416,
+      "eval_sts-test_pearson_manhattan": 0.7400929158927781,
+      "eval_sts-test_pearson_max": 0.786106976104726,
+      "eval_sts-test_spearman_cosine": 0.801377272203007,
+      "eval_sts-test_spearman_dot": 0.4921454166952506,
+      "eval_sts-test_spearman_euclidean": 0.7343686249967402,
+      "eval_sts-test_spearman_manhattan": 0.7331946050808561,
+      "eval_sts-test_spearman_max": 0.801377272203007,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_vitaminc-pairs_loss": 4.6789751052856445,
+      "eval_vitaminc-pairs_runtime": 1.1504,
+      "eval_vitaminc-pairs_samples_per_second": 73.889,
+      "eval_vitaminc-pairs_steps_per_second": 2.608,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_sts-label_loss": 3.5580556392669678,
+      "eval_sts-label_runtime": 0.2834,
+      "eval_sts-label_samples_per_second": 352.858,
+      "eval_sts-label_steps_per_second": 14.114,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_qnli-contrastive_loss": 0.20369713008403778,
+      "eval_qnli-contrastive_runtime": 0.358,
+      "eval_qnli-contrastive_samples_per_second": 279.331,
+      "eval_qnli-contrastive_steps_per_second": 11.173,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_scitail-pairs-qa_loss": 0.07465875148773193,
+      "eval_scitail-pairs-qa_runtime": 0.9504,
+      "eval_scitail-pairs-qa_samples_per_second": 105.214,
+      "eval_scitail-pairs-qa_steps_per_second": 4.209,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_scitail-pairs-pos_loss": 0.49434563517570496,
+      "eval_scitail-pairs-pos_runtime": 1.6041,
+      "eval_scitail-pairs-pos_samples_per_second": 62.339,
+      "eval_scitail-pairs-pos_steps_per_second": 2.494,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_xsum-pairs_loss": 0.28282061219215393,
+      "eval_xsum-pairs_runtime": 0.9316,
+      "eval_xsum-pairs_samples_per_second": 107.346,
+      "eval_xsum-pairs_steps_per_second": 4.294,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_compression-pairs_loss": 0.097385473549366,
+      "eval_compression-pairs_runtime": 0.2754,
+      "eval_compression-pairs_samples_per_second": 363.1,
+      "eval_compression-pairs_steps_per_second": 14.524,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_sciq_pairs_loss": 0.2762215733528137,
+      "eval_sciq_pairs_runtime": 4.2307,
+      "eval_sciq_pairs_samples_per_second": 23.637,
+      "eval_sciq_pairs_steps_per_second": 0.945,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_qasc_pairs_loss": 0.19347424805164337,
+      "eval_qasc_pairs_runtime": 1.2282,
+      "eval_qasc_pairs_samples_per_second": 81.421,
+      "eval_qasc_pairs_steps_per_second": 3.257,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_openbookqa_pairs_loss": 1.6875064373016357,
+      "eval_openbookqa_pairs_runtime": 1.1661,
+      "eval_openbookqa_pairs_samples_per_second": 85.754,
+      "eval_openbookqa_pairs_steps_per_second": 3.43,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_msmarco_pairs_loss": 0.5743877291679382,
+      "eval_msmarco_pairs_runtime": 2.1428,
+      "eval_msmarco_pairs_samples_per_second": 46.669,
+      "eval_msmarco_pairs_steps_per_second": 1.867,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_nq_pairs_loss": 0.30348217487335205,
+      "eval_nq_pairs_runtime": 4.5543,
+      "eval_nq_pairs_samples_per_second": 21.957,
+      "eval_nq_pairs_steps_per_second": 0.878,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_trivia_pairs_loss": 0.9221765995025635,
+      "eval_trivia_pairs_runtime": 6.6513,
+      "eval_trivia_pairs_samples_per_second": 15.035,
+      "eval_trivia_pairs_steps_per_second": 0.601,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_quora_pairs_loss": 0.03854631260037422,
+      "eval_quora_pairs_runtime": 0.7822,
+      "eval_quora_pairs_samples_per_second": 127.852,
+      "eval_quora_pairs_steps_per_second": 5.114,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_gooaq_pairs_loss": 0.528398334980011,
+      "eval_gooaq_pairs_runtime": 1.4882,
+      "eval_gooaq_pairs_samples_per_second": 67.194,
+      "eval_gooaq_pairs_steps_per_second": 2.688,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20059551794389593,
+      "eval_mrpc_pairs_loss": 0.05623970925807953,
+      "eval_mrpc_pairs_runtime": 0.2698,
+      "eval_mrpc_pairs_samples_per_second": 370.713,
+      "eval_mrpc_pairs_steps_per_second": 14.829,
+      "step": 1280
+    },
+    {
+      "epoch": 0.20561040589249335,
+      "grad_norm": 0.6042119860649109,
+      "learning_rate": 2.9738956352942557e-05,
+      "loss": 0.9421,
+      "step": 1312
+    },
+    {
+      "epoch": 0.21062529384109074,
+      "grad_norm": 13.87867546081543,
+      "learning_rate": 2.968936138754259e-05,
+      "loss": 0.8641,
+      "step": 1344
+    },
+    {
+      "epoch": 0.21564018178968813,
+      "grad_norm": 44.48640441894531,
+      "learning_rate": 2.9635504615845257e-05,
+      "loss": 1.157,
+      "step": 1376
+    },
+    {
+      "epoch": 0.22065506973828553,
+      "grad_norm": 15.554729461669922,
+      "learning_rate": 2.957928148945977e-05,
+      "loss": 0.8772,
+      "step": 1408
+    },
+    {
+      "epoch": 0.22566995768688294,
+      "grad_norm": 16.644670486450195,
+      "learning_rate": 2.9517081112297707e-05,
+      "loss": 1.0496,
+      "step": 1440
+    },
+    {
+      "epoch": 0.23068484563548033,
+      "grad_norm": 13.053145408630371,
+      "learning_rate": 2.9450668912302004e-05,
+      "loss": 0.589,
+      "step": 1472
+    },
+    {
+      "epoch": 0.23569973358407773,
+      "grad_norm": 7.827791213989258,
+      "learning_rate": 2.9380064157562306e-05,
+      "loss": 0.8234,
+      "step": 1504
+    },
+    {
+      "epoch": 0.24071462153267512,
+      "grad_norm": 15.598438262939453,
+      "learning_rate": 2.930528733254901e-05,
+      "loss": 0.7365,
+      "step": 1536
+    },
+    {
+      "epoch": 0.24572950948127253,
+      "grad_norm": 13.723180770874023,
+      "learning_rate": 2.9226360132170112e-05,
+      "loss": 0.5076,
+      "step": 1568
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "grad_norm": 10.20022964477539,
+      "learning_rate": 2.9143305455476866e-05,
+      "loss": 1.0329,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_nli-pairs_loss": 1.0577216148376465,
+      "eval_nli-pairs_runtime": 3.6476,
+      "eval_nli-pairs_samples_per_second": 27.415,
+      "eval_nli-pairs_steps_per_second": 1.097,
+      "eval_sts-test_pearson_cosine": 0.7876359552191669,
+      "eval_sts-test_pearson_dot": 0.5220803655074544,
+      "eval_sts-test_pearson_euclidean": 0.7444632413869628,
+      "eval_sts-test_pearson_manhattan": 0.7418744760088763,
+      "eval_sts-test_pearson_max": 0.7876359552191669,
+      "eval_sts-test_spearman_cosine": 0.8018874000525117,
+      "eval_sts-test_spearman_dot": 0.5034518981121652,
+      "eval_sts-test_spearman_euclidean": 0.7344750702387959,
+      "eval_sts-test_spearman_manhattan": 0.7332804063416474,
+      "eval_sts-test_spearman_max": 0.8018874000525117,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_vitaminc-pairs_loss": 4.784573554992676,
+      "eval_vitaminc-pairs_runtime": 1.145,
+      "eval_vitaminc-pairs_samples_per_second": 74.235,
+      "eval_vitaminc-pairs_steps_per_second": 2.62,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_sts-label_loss": 3.6113080978393555,
+      "eval_sts-label_runtime": 0.2746,
+      "eval_sts-label_samples_per_second": 364.172,
+      "eval_sts-label_steps_per_second": 14.567,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_qnli-contrastive_loss": 0.18593625724315643,
+      "eval_qnli-contrastive_runtime": 0.3541,
+      "eval_qnli-contrastive_samples_per_second": 282.413,
+      "eval_qnli-contrastive_steps_per_second": 11.297,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_scitail-pairs-qa_loss": 0.07545661181211472,
+      "eval_scitail-pairs-qa_runtime": 0.8854,
+      "eval_scitail-pairs-qa_samples_per_second": 112.941,
+      "eval_scitail-pairs-qa_steps_per_second": 4.518,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_scitail-pairs-pos_loss": 0.5018333792686462,
+      "eval_scitail-pairs-pos_runtime": 1.3443,
+      "eval_scitail-pairs-pos_samples_per_second": 74.386,
+      "eval_scitail-pairs-pos_steps_per_second": 2.975,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_xsum-pairs_loss": 0.2749001085758209,
+      "eval_xsum-pairs_runtime": 0.9439,
+      "eval_xsum-pairs_samples_per_second": 105.939,
+      "eval_xsum-pairs_steps_per_second": 4.238,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_compression-pairs_loss": 0.09735233336687088,
+      "eval_compression-pairs_runtime": 0.2764,
+      "eval_compression-pairs_samples_per_second": 361.753,
+      "eval_compression-pairs_steps_per_second": 14.47,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_sciq_pairs_loss": 0.2648228108882904,
+      "eval_sciq_pairs_runtime": 4.1207,
+      "eval_sciq_pairs_samples_per_second": 24.268,
+      "eval_sciq_pairs_steps_per_second": 0.971,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_qasc_pairs_loss": 0.21318012475967407,
+      "eval_qasc_pairs_runtime": 1.0917,
+      "eval_qasc_pairs_samples_per_second": 91.604,
+      "eval_qasc_pairs_steps_per_second": 3.664,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_openbookqa_pairs_loss": 1.790009617805481,
+      "eval_openbookqa_pairs_runtime": 0.8969,
+      "eval_openbookqa_pairs_samples_per_second": 111.496,
+      "eval_openbookqa_pairs_steps_per_second": 4.46,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_msmarco_pairs_loss": 0.57186359167099,
+      "eval_msmarco_pairs_runtime": 2.0592,
+      "eval_msmarco_pairs_samples_per_second": 48.563,
+      "eval_msmarco_pairs_steps_per_second": 1.943,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_nq_pairs_loss": 0.2738310396671295,
+      "eval_nq_pairs_runtime": 4.5092,
+      "eval_nq_pairs_samples_per_second": 22.177,
+      "eval_nq_pairs_steps_per_second": 0.887,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_trivia_pairs_loss": 0.8291679620742798,
+      "eval_trivia_pairs_runtime": 6.526,
+      "eval_trivia_pairs_samples_per_second": 15.323,
+      "eval_trivia_pairs_steps_per_second": 0.613,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_quora_pairs_loss": 0.08000540733337402,
+      "eval_quora_pairs_runtime": 0.6761,
+      "eval_quora_pairs_samples_per_second": 147.909,
+      "eval_quora_pairs_steps_per_second": 5.916,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_gooaq_pairs_loss": 0.5998037457466125,
+      "eval_gooaq_pairs_runtime": 1.3978,
+      "eval_gooaq_pairs_samples_per_second": 71.541,
+      "eval_gooaq_pairs_steps_per_second": 2.862,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2507443974298699,
+      "eval_mrpc_pairs_loss": 0.05507182702422142,
+      "eval_mrpc_pairs_runtime": 0.2617,
+      "eval_mrpc_pairs_samples_per_second": 382.156,
+      "eval_mrpc_pairs_steps_per_second": 15.286,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2557592853784673,
+      "grad_norm": 8.05022144317627,
+      "learning_rate": 2.9056147399020182e-05,
+      "loss": 1.4006,
+      "step": 1632
+    },
+    {
+      "epoch": 0.2607741733270647,
+      "grad_norm": 0.38224154710769653,
+      "learning_rate": 2.8964911249859437e-05,
+      "loss": 0.5963,
+      "step": 1664
+    },
+    {
+      "epoch": 0.2657890612756621,
+      "grad_norm": 0.46655791997909546,
+      "learning_rate": 2.886962347822604e-05,
+      "loss": 0.7488,
+      "step": 1696
+    },
+    {
+      "epoch": 0.27080394922425954,
+      "grad_norm": 8.102537155151367,
+      "learning_rate": 2.8770311729843616e-05,
+      "loss": 0.8548,
+      "step": 1728
+    },
+    {
+      "epoch": 0.27581883717285693,
+      "grad_norm": 11.803775787353516,
+      "learning_rate": 2.86670048179072e-05,
+      "loss": 1.3324,
+      "step": 1760
+    },
+    {
+      "epoch": 0.2808337251214543,
+      "grad_norm": 16.266756057739258,
+      "learning_rate": 2.8559732714723715e-05,
+      "loss": 0.5804,
+      "step": 1792
+    },
+    {
+      "epoch": 0.2858486130700517,
+      "grad_norm": 2.8448822498321533,
+      "learning_rate": 2.8448526543016114e-05,
+      "loss": 0.7827,
+      "step": 1824
+    },
+    {
+      "epoch": 0.2908635010186491,
+      "grad_norm": 21.346328735351562,
+      "learning_rate": 2.8333418566893796e-05,
+      "loss": 0.5448,
+      "step": 1856
+    },
+    {
+      "epoch": 0.2958783889672465,
+      "grad_norm": 3.4379029273986816,
+      "learning_rate": 2.8214442182491866e-05,
+      "loss": 0.7368,
+      "step": 1888
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "grad_norm": 17.05881690979004,
+      "learning_rate": 2.8091631908281963e-05,
+      "loss": 0.5657,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_nli-pairs_loss": 1.0244356393814087,
+      "eval_nli-pairs_runtime": 3.6217,
+      "eval_nli-pairs_samples_per_second": 27.612,
+      "eval_nli-pairs_steps_per_second": 1.104,
+      "eval_sts-test_pearson_cosine": 0.781915957368962,
+      "eval_sts-test_pearson_dot": 0.49821032356844613,
+      "eval_sts-test_pearson_euclidean": 0.7329308897504494,
+      "eval_sts-test_pearson_manhattan": 0.7292186092506918,
+      "eval_sts-test_pearson_max": 0.781915957368962,
+      "eval_sts-test_spearman_cosine": 0.7983596570250642,
+      "eval_sts-test_spearman_dot": 0.4812350313638781,
+      "eval_sts-test_spearman_euclidean": 0.7265758267352669,
+      "eval_sts-test_spearman_manhattan": 0.7259264140902829,
+      "eval_sts-test_spearman_max": 0.7983596570250642,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_vitaminc-pairs_loss": 4.698296070098877,
+      "eval_vitaminc-pairs_runtime": 1.1338,
+      "eval_vitaminc-pairs_samples_per_second": 74.97,
+      "eval_vitaminc-pairs_steps_per_second": 2.646,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_sts-label_loss": 3.1822261810302734,
+      "eval_sts-label_runtime": 0.2702,
+      "eval_sts-label_samples_per_second": 370.09,
+      "eval_sts-label_steps_per_second": 14.804,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_qnli-contrastive_loss": 0.11326340585947037,
+      "eval_qnli-contrastive_runtime": 0.3581,
+      "eval_qnli-contrastive_samples_per_second": 279.28,
+      "eval_qnli-contrastive_steps_per_second": 11.171,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_scitail-pairs-qa_loss": 0.07009608298540115,
+      "eval_scitail-pairs-qa_runtime": 0.8816,
+      "eval_scitail-pairs-qa_samples_per_second": 113.424,
+      "eval_scitail-pairs-qa_steps_per_second": 4.537,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_scitail-pairs-pos_loss": 0.49156129360198975,
+      "eval_scitail-pairs-pos_runtime": 1.3759,
+      "eval_scitail-pairs-pos_samples_per_second": 72.678,
+      "eval_scitail-pairs-pos_steps_per_second": 2.907,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_xsum-pairs_loss": 0.25940877199172974,
+      "eval_xsum-pairs_runtime": 0.9373,
+      "eval_xsum-pairs_samples_per_second": 106.695,
+      "eval_xsum-pairs_steps_per_second": 4.268,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_compression-pairs_loss": 0.0919649675488472,
+      "eval_compression-pairs_runtime": 0.2738,
+      "eval_compression-pairs_samples_per_second": 365.291,
+      "eval_compression-pairs_steps_per_second": 14.612,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_sciq_pairs_loss": 0.29138606786727905,
+      "eval_sciq_pairs_runtime": 4.1059,
+      "eval_sciq_pairs_samples_per_second": 24.355,
+      "eval_sciq_pairs_steps_per_second": 0.974,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_qasc_pairs_loss": 0.19625085592269897,
+      "eval_qasc_pairs_runtime": 1.0611,
+      "eval_qasc_pairs_samples_per_second": 94.24,
+      "eval_qasc_pairs_steps_per_second": 3.77,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_openbookqa_pairs_loss": 1.7960456609725952,
+      "eval_openbookqa_pairs_runtime": 0.9042,
+      "eval_openbookqa_pairs_samples_per_second": 110.601,
+      "eval_openbookqa_pairs_steps_per_second": 4.424,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_msmarco_pairs_loss": 0.5171416997909546,
+      "eval_msmarco_pairs_runtime": 2.0637,
+      "eval_msmarco_pairs_samples_per_second": 48.457,
+      "eval_msmarco_pairs_steps_per_second": 1.938,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_nq_pairs_loss": 0.24809740483760834,
+      "eval_nq_pairs_runtime": 4.529,
+      "eval_nq_pairs_samples_per_second": 22.08,
+      "eval_nq_pairs_steps_per_second": 0.883,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_trivia_pairs_loss": 0.9041999578475952,
+      "eval_trivia_pairs_runtime": 6.5257,
+      "eval_trivia_pairs_samples_per_second": 15.324,
+      "eval_trivia_pairs_steps_per_second": 0.613,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_quora_pairs_loss": 0.03601976856589317,
+      "eval_quora_pairs_runtime": 0.6811,
+      "eval_quora_pairs_samples_per_second": 146.827,
+      "eval_quora_pairs_steps_per_second": 5.873,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_gooaq_pairs_loss": 0.5626399517059326,
+      "eval_gooaq_pairs_runtime": 1.3943,
+      "eval_gooaq_pairs_samples_per_second": 71.72,
+      "eval_gooaq_pairs_steps_per_second": 2.869,
+      "step": 1920
+    },
+    {
+      "epoch": 0.3008932769158439,
+      "eval_mrpc_pairs_loss": 0.04984402656555176,
+      "eval_mrpc_pairs_runtime": 0.2579,
+      "eval_mrpc_pairs_samples_per_second": 387.725,
+      "eval_mrpc_pairs_steps_per_second": 15.509,
+      "step": 1920
+    },
+    {
+      "epoch": 0.30590816486444133,
+      "grad_norm": 22.65591812133789,
+      "learning_rate": 2.796502337505742e-05,
+      "loss": 0.7425,
+      "step": 1952
+    },
+    {
+      "epoch": 0.3109230528130387,
+      "grad_norm": 10.119640350341797,
+      "learning_rate": 2.78346533155958e-05,
+      "loss": 0.7819,
+      "step": 1984
+    },
+    {
+      "epoch": 0.3159379407616361,
+      "grad_norm": 8.690531730651855,
+      "learning_rate": 2.770055955400161e-05,
+      "loss": 0.5937,
+      "step": 2016
+    },
+    {
+      "epoch": 0.3209528287102335,
+      "grad_norm": 0.8992699384689331,
+      "learning_rate": 2.7562780994732476e-05,
+      "loss": 0.8133,
+      "step": 2048
+    },
+    {
+      "epoch": 0.3259677166588309,
+      "grad_norm": 10.619684219360352,
+      "learning_rate": 2.7421357611311824e-05,
+      "loss": 1.0674,
+      "step": 2080
+    },
+    {
+      "epoch": 0.3309826046074283,
+      "grad_norm": 7.222084045410156,
+      "learning_rate": 2.727633043473141e-05,
+      "loss": 0.6288,
+      "step": 2112
+    },
+    {
+      "epoch": 0.3359974925560257,
+      "grad_norm": 10.166888236999512,
+      "learning_rate": 2.712774154154707e-05,
+      "loss": 0.5866,
+      "step": 2144
+    },
+    {
+      "epoch": 0.3410123805046231,
+      "grad_norm": 0.36360761523246765,
+      "learning_rate": 2.6975634041671052e-05,
+      "loss": 0.6962,
+      "step": 2176
+    },
+    {
+      "epoch": 0.3460272684532205,
+      "grad_norm": 9.586665153503418,
+      "learning_rate": 2.6820052065864665e-05,
+      "loss": 0.5562,
+      "step": 2208
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "grad_norm": 1.1307642459869385,
+      "learning_rate": 2.6661040752934594e-05,
+      "loss": 0.8871,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_nli-pairs_loss": 1.0147591829299927,
+      "eval_nli-pairs_runtime": 3.7201,
+      "eval_nli-pairs_samples_per_second": 26.881,
+      "eval_nli-pairs_steps_per_second": 1.075,
+      "eval_sts-test_pearson_cosine": 0.7872126529181761,
+      "eval_sts-test_pearson_dot": 0.5062045289861089,
+      "eval_sts-test_pearson_euclidean": 0.7351473988633473,
+      "eval_sts-test_pearson_manhattan": 0.7310226402088944,
+      "eval_sts-test_pearson_max": 0.7872126529181761,
+      "eval_sts-test_spearman_cosine": 0.801487068999052,
+      "eval_sts-test_spearman_dot": 0.4912205722904683,
+      "eval_sts-test_spearman_euclidean": 0.7267262355024484,
+      "eval_sts-test_spearman_manhattan": 0.72510169253649,
+      "eval_sts-test_spearman_max": 0.801487068999052,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_vitaminc-pairs_loss": 4.644638538360596,
+      "eval_vitaminc-pairs_runtime": 1.1453,
+      "eval_vitaminc-pairs_samples_per_second": 74.215,
+      "eval_vitaminc-pairs_steps_per_second": 2.619,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_sts-label_loss": 3.915343999862671,
+      "eval_sts-label_runtime": 0.2807,
+      "eval_sts-label_samples_per_second": 356.217,
+      "eval_sts-label_steps_per_second": 14.249,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_qnli-contrastive_loss": 0.11220741271972656,
+      "eval_qnli-contrastive_runtime": 0.3614,
+      "eval_qnli-contrastive_samples_per_second": 276.705,
+      "eval_qnli-contrastive_steps_per_second": 11.068,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_scitail-pairs-qa_loss": 0.06635177880525589,
+      "eval_scitail-pairs-qa_runtime": 0.8881,
+      "eval_scitail-pairs-qa_samples_per_second": 112.594,
+      "eval_scitail-pairs-qa_steps_per_second": 4.504,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_scitail-pairs-pos_loss": 0.5765587687492371,
+      "eval_scitail-pairs-pos_runtime": 1.3496,
+      "eval_scitail-pairs-pos_samples_per_second": 74.097,
+      "eval_scitail-pairs-pos_steps_per_second": 2.964,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_xsum-pairs_loss": 0.2595808804035187,
+      "eval_xsum-pairs_runtime": 0.9377,
+      "eval_xsum-pairs_samples_per_second": 106.641,
+      "eval_xsum-pairs_steps_per_second": 4.266,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_compression-pairs_loss": 0.0918564721941948,
+      "eval_compression-pairs_runtime": 0.2755,
+      "eval_compression-pairs_samples_per_second": 363.032,
+      "eval_compression-pairs_steps_per_second": 14.521,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_sciq_pairs_loss": 0.284303218126297,
+      "eval_sciq_pairs_runtime": 4.1289,
+      "eval_sciq_pairs_samples_per_second": 24.22,
+      "eval_sciq_pairs_steps_per_second": 0.969,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_qasc_pairs_loss": 0.19232892990112305,
+      "eval_qasc_pairs_runtime": 1.0709,
+      "eval_qasc_pairs_samples_per_second": 93.384,
+      "eval_qasc_pairs_steps_per_second": 3.735,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_openbookqa_pairs_loss": 1.6234371662139893,
+      "eval_openbookqa_pairs_runtime": 0.9558,
+      "eval_openbookqa_pairs_samples_per_second": 104.62,
+      "eval_openbookqa_pairs_steps_per_second": 4.185,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_msmarco_pairs_loss": 0.5325217247009277,
+      "eval_msmarco_pairs_runtime": 2.0971,
+      "eval_msmarco_pairs_samples_per_second": 47.685,
+      "eval_msmarco_pairs_steps_per_second": 1.907,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_nq_pairs_loss": 0.2721095681190491,
+      "eval_nq_pairs_runtime": 4.5393,
+      "eval_nq_pairs_samples_per_second": 22.03,
+      "eval_nq_pairs_steps_per_second": 0.881,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_trivia_pairs_loss": 0.8544899821281433,
+      "eval_trivia_pairs_runtime": 6.4668,
+      "eval_trivia_pairs_samples_per_second": 15.464,
+      "eval_trivia_pairs_steps_per_second": 0.619,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_quora_pairs_loss": 0.08441996574401855,
+      "eval_quora_pairs_runtime": 0.6933,
+      "eval_quora_pairs_samples_per_second": 144.233,
+      "eval_quora_pairs_steps_per_second": 5.769,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_gooaq_pairs_loss": 0.5711588859558105,
+      "eval_gooaq_pairs_runtime": 1.3941,
+      "eval_gooaq_pairs_samples_per_second": 71.733,
+      "eval_gooaq_pairs_steps_per_second": 2.869,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3510421564018179,
+      "eval_mrpc_pairs_loss": 0.05093960464000702,
+      "eval_mrpc_pairs_runtime": 0.2633,
+      "eval_mrpc_pairs_samples_per_second": 379.777,
+      "eval_mrpc_pairs_steps_per_second": 15.191,
+      "step": 2240
+    },
+    {
+      "epoch": 0.3560570443504153,
+      "grad_norm": 0.39178094267845154,
+      "learning_rate": 2.6498646236636892e-05,
+      "loss": 0.6805,
+      "step": 2272
+    },
+    {
+      "epoch": 0.3610719322990127,
+      "grad_norm": 7.91475248336792,
+      "learning_rate": 2.6332915632292237e-05,
+      "loss": 1.0451,
+      "step": 2304
+    },
+    {
+      "epoch": 0.3660868202476101,
+      "grad_norm": 31.54157066345215,
+      "learning_rate": 2.616389702311641e-05,
+      "loss": 1.0603,
+      "step": 2336
+    },
+    {
+      "epoch": 0.37110170819620747,
+      "grad_norm": 8.400779724121094,
+      "learning_rate": 2.5991639446269964e-05,
+      "loss": 0.8142,
+      "step": 2368
+    },
+    {
+      "epoch": 0.3761165961448049,
+      "grad_norm": 20.99441146850586,
+      "learning_rate": 2.5816192878631166e-05,
+      "loss": 1.7211,
+      "step": 2400
+    },
+    {
+      "epoch": 0.3811314840934023,
+      "grad_norm": 10.574430465698242,
+      "learning_rate": 2.5637608222296237e-05,
+      "loss": 0.7523,
+      "step": 2432
+    },
+    {
+      "epoch": 0.3861463720419997,
+      "grad_norm": 0.8941424489021301,
+      "learning_rate": 2.5455937289811207e-05,
+      "loss": 0.8053,
+      "step": 2464
+    },
+    {
+      "epoch": 0.3911612599905971,
+      "grad_norm": 1.9402281045913696,
+      "learning_rate": 2.5271232789139587e-05,
+      "loss": 0.8427,
+      "step": 2496
+    },
+    {
+      "epoch": 0.3961761479391945,
+      "grad_norm": 23.42873764038086,
+      "learning_rate": 2.5083548308370296e-05,
+      "loss": 0.8204,
+      "step": 2528
+    }
+  ],
+  "logging_steps": 32,
+  "max_steps": 12762,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1277,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2554/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:383c5bf6513da1dfbcd1294f0c8e85ce43118bc61e2de49d9b5d1e28eb653003
+size 5624