bobox commited on Jul 13

Commit

fb940b7

•

1 Parent(s): 136f2cc

Training in progress, step 2583, checkpoint

Browse files

Files changed (17) hide show

checkpoint-2583/1_Pooling/config.json +10 -0
checkpoint-2583/README.md +0 -0
checkpoint-2583/added_tokens.json +3 -0
checkpoint-2583/config.json +35 -0
checkpoint-2583/config_sentence_transformers.json +10 -0
checkpoint-2583/modules.json +14 -0
checkpoint-2583/optimizer.pt +3 -0
checkpoint-2583/pytorch_model.bin +3 -0
checkpoint-2583/rng_state.pth +3 -0
checkpoint-2583/scheduler.pt +3 -0
checkpoint-2583/sentence_bert_config.json +4 -0
checkpoint-2583/special_tokens_map.json +51 -0
checkpoint-2583/spm.model +3 -0
checkpoint-2583/tokenizer.json +0 -0
checkpoint-2583/tokenizer_config.json +65 -0
checkpoint-2583/trainer_state.json +523 -0
checkpoint-2583/training_args.bin +3 -0

checkpoint-2583/1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

checkpoint-2583/README.md ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2583/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

checkpoint-2583/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "bobox/DeBERTa-ST-AllLayers-v3-checkpoints-tmp",
+  "architectures": [
+    "DebertaV2Model"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.3",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

checkpoint-2583/config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.0.1",
+    "transformers": "4.42.3",
+    "pytorch": "2.1.2"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": null
+}

checkpoint-2583/modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

checkpoint-2583/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5cef23cef810d729473dfc310b062ec2558628aa13842938447dbde90308451d
+size 1130520122

checkpoint-2583/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3b72ef6afaf46c7cf74ea6eb92f75f08bd12bfa59f3bfbb5dfa86d39fcbc8b7
+size 565251810

checkpoint-2583/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6921899eecc47d3aac27605789b492ef2c8b6e3d28992a17cee235c65419a23c
+size 14244

checkpoint-2583/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:365a3ccfc16189ae04609fef62a7eddb1b9b968074bfcfc76316e52c4656d98e
+size 1064

checkpoint-2583/sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

checkpoint-2583/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2583/spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

checkpoint-2583/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2583/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,65 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "stride": 0,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

checkpoint-2583/trainer_state.json ADDED Viewed

	@@ -0,0 +1,523 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.5,
+  "eval_steps": 1292,
+  "global_step": 2583,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.012582268679829655,
+      "grad_norm": 4.108283996582031,
+      "learning_rate": 3.7166085946573755e-07,
+      "loss": 0.4577,
+      "step": 65
+    },
+    {
+      "epoch": 0.02516453735965931,
+      "grad_norm": 0.5773646831512451,
+      "learning_rate": 7.491289198606272e-07,
+      "loss": 0.4707,
+      "step": 130
+    },
+    {
+      "epoch": 0.03774680603948897,
+      "grad_norm": 0.6127182841300964,
+      "learning_rate": 1.1265969802555168e-06,
+      "loss": 0.5259,
+      "step": 195
+    },
+    {
+      "epoch": 0.05032907471931862,
+      "grad_norm": 1.513021469116211,
+      "learning_rate": 1.5040650406504067e-06,
+      "loss": 0.5501,
+      "step": 260
+    },
+    {
+      "epoch": 0.06291134339914828,
+      "grad_norm": 11.750137329101562,
+      "learning_rate": 1.8815331010452962e-06,
+      "loss": 0.5089,
+      "step": 325
+    },
+    {
+      "epoch": 0.07549361207897794,
+      "grad_norm": 4.16257905960083,
+      "learning_rate": 2.259001161440186e-06,
+      "loss": 0.4816,
+      "step": 390
+    },
+    {
+      "epoch": 0.08807588075880758,
+      "grad_norm": 16.527780532836914,
+      "learning_rate": 2.6306620209059233e-06,
+      "loss": 0.5822,
+      "step": 455
+    },
+    {
+      "epoch": 0.10065814943863724,
+      "grad_norm": 0.1845797300338745,
+      "learning_rate": 3.0081300813008134e-06,
+      "loss": 0.5686,
+      "step": 520
+    },
+    {
+      "epoch": 0.1132404181184669,
+      "grad_norm": 12.172422409057617,
+      "learning_rate": 3.3855981416957026e-06,
+      "loss": 0.5686,
+      "step": 585
+    },
+    {
+      "epoch": 0.12582268679829656,
+      "grad_norm": 0.6270273923873901,
+      "learning_rate": 3.7630662020905923e-06,
+      "loss": 0.517,
+      "step": 650
+    },
+    {
+      "epoch": 0.1384049554781262,
+      "grad_norm": 3.6368539333343506,
+      "learning_rate": 4.140534262485482e-06,
+      "loss": 0.3615,
+      "step": 715
+    },
+    {
+      "epoch": 0.15098722415795587,
+      "grad_norm": 9.541145324707031,
+      "learning_rate": 4.518002322880372e-06,
+      "loss": 0.5978,
+      "step": 780
+    },
+    {
+      "epoch": 0.16356949283778552,
+      "grad_norm": 9.86439323425293,
+      "learning_rate": 4.895470383275261e-06,
+      "loss": 0.5153,
+      "step": 845
+    },
+    {
+      "epoch": 0.17615176151761516,
+      "grad_norm": 4.669048309326172,
+      "learning_rate": 5.272938443670151e-06,
+      "loss": 0.5059,
+      "step": 910
+    },
+    {
+      "epoch": 0.18873403019744484,
+      "grad_norm": 9.666926383972168,
+      "learning_rate": 5.650406504065041e-06,
+      "loss": 0.5624,
+      "step": 975
+    },
+    {
+      "epoch": 0.20131629887727448,
+      "grad_norm": 6.078874588012695,
+      "learning_rate": 6.02787456445993e-06,
+      "loss": 0.5201,
+      "step": 1040
+    },
+    {
+      "epoch": 0.21389856755710415,
+      "grad_norm": 1.1067451238632202,
+      "learning_rate": 6.4053426248548205e-06,
+      "loss": 0.6127,
+      "step": 1105
+    },
+    {
+      "epoch": 0.2264808362369338,
+      "grad_norm": 1.1589373350143433,
+      "learning_rate": 6.78281068524971e-06,
+      "loss": 0.5333,
+      "step": 1170
+    },
+    {
+      "epoch": 0.23906310491676344,
+      "grad_norm": 1.977501630783081,
+      "learning_rate": 7.1602787456446e-06,
+      "loss": 0.494,
+      "step": 1235
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_StS-test_pearson_cosine": 0.8821101738384596,
+      "eval_StS-test_pearson_dot": 0.8032893366124795,
+      "eval_StS-test_pearson_euclidean": 0.8697205121607111,
+      "eval_StS-test_pearson_manhattan": 0.8704995590187196,
+      "eval_StS-test_pearson_max": 0.8821101738384596,
+      "eval_StS-test_spearman_cosine": 0.8943047751560564,
+      "eval_StS-test_spearman_dot": 0.8087424893555902,
+      "eval_StS-test_spearman_euclidean": 0.871583089708652,
+      "eval_StS-test_spearman_manhattan": 0.8737012027236009,
+      "eval_StS-test_spearman_max": 0.8943047751560564,
+      "eval_Vitaminc-test_cosine_accuracy": 0.5684210526315789,
+      "eval_Vitaminc-test_cosine_accuracy_threshold": 0.7028586268424988,
+      "eval_Vitaminc-test_cosine_ap": 0.5651043866206488,
+      "eval_Vitaminc-test_cosine_f1": 0.6755218216318786,
+      "eval_Vitaminc-test_cosine_f1_threshold": 0.5077509880065918,
+      "eval_Vitaminc-test_cosine_precision": 0.52046783625731,
+      "eval_Vitaminc-test_cosine_recall": 0.9621621621621622,
+      "eval_Vitaminc-test_dot_accuracy": 0.5684210526315789,
+      "eval_Vitaminc-test_dot_accuracy_threshold": 19.693286895751953,
+      "eval_Vitaminc-test_dot_ap": 0.5463931769790206,
+      "eval_Vitaminc-test_dot_f1": 0.6691449814126395,
+      "eval_Vitaminc-test_dot_f1_threshold": 13.839346885681152,
+      "eval_Vitaminc-test_dot_precision": 0.509915014164306,
+      "eval_Vitaminc-test_dot_recall": 0.972972972972973,
+      "eval_Vitaminc-test_euclidean_accuracy": 0.5894736842105263,
+      "eval_Vitaminc-test_euclidean_accuracy_threshold": 4.252468585968018,
+      "eval_Vitaminc-test_euclidean_ap": 0.5569049511912931,
+      "eval_Vitaminc-test_euclidean_f1": 0.6666666666666666,
+      "eval_Vitaminc-test_euclidean_f1_threshold": 6.922356128692627,
+      "eval_Vitaminc-test_euclidean_precision": 0.5041551246537396,
+      "eval_Vitaminc-test_euclidean_recall": 0.9837837837837838,
+      "eval_Vitaminc-test_manhattan_accuracy": 0.5815789473684211,
+      "eval_Vitaminc-test_manhattan_accuracy_threshold": 87.21337890625,
+      "eval_Vitaminc-test_manhattan_ap": 0.5572154085134091,
+      "eval_Vitaminc-test_manhattan_f1": 0.6666666666666667,
+      "eval_Vitaminc-test_manhattan_f1_threshold": 141.26380920410156,
+      "eval_Vitaminc-test_manhattan_precision": 0.505586592178771,
+      "eval_Vitaminc-test_manhattan_recall": 0.9783783783783784,
+      "eval_Vitaminc-test_max_accuracy": 0.5894736842105263,
+      "eval_Vitaminc-test_max_accuracy_threshold": 87.21337890625,
+      "eval_Vitaminc-test_max_ap": 0.5651043866206488,
+      "eval_Vitaminc-test_max_f1": 0.6755218216318786,
+      "eval_Vitaminc-test_max_f1_threshold": 141.26380920410156,
+      "eval_Vitaminc-test_max_precision": 0.52046783625731,
+      "eval_Vitaminc-test_max_recall": 0.9837837837837838,
+      "eval_mrpc-test_cosine_accuracy": 0.7473684210526316,
+      "eval_mrpc-test_cosine_accuracy_threshold": 0.7145693302154541,
+      "eval_mrpc-test_cosine_ap": 0.8563235829800693,
+      "eval_mrpc-test_cosine_f1": 0.8327645051194539,
+      "eval_mrpc-test_cosine_f1_threshold": 0.6522408723831177,
+      "eval_mrpc-test_cosine_precision": 0.7218934911242604,
+      "eval_mrpc-test_cosine_recall": 0.9838709677419355,
+      "eval_mrpc-test_dot_accuracy": 0.7026315789473684,
+      "eval_mrpc-test_dot_accuracy_threshold": 14.454626083374023,
+      "eval_mrpc-test_dot_ap": 0.796363256728503,
+      "eval_mrpc-test_dot_f1": 0.8054607508532423,
+      "eval_mrpc-test_dot_f1_threshold": 13.752894401550293,
+      "eval_mrpc-test_dot_precision": 0.6982248520710059,
+      "eval_mrpc-test_dot_recall": 0.9516129032258065,
+      "eval_mrpc-test_euclidean_accuracy": 0.7315789473684211,
+      "eval_mrpc-test_euclidean_accuracy_threshold": 3.890326499938965,
+      "eval_mrpc-test_euclidean_ap": 0.8252367395643119,
+      "eval_mrpc-test_euclidean_f1": 0.8165467625899281,
+      "eval_mrpc-test_euclidean_f1_threshold": 3.890326499938965,
+      "eval_mrpc-test_euclidean_precision": 0.737012987012987,
+      "eval_mrpc-test_euclidean_recall": 0.9153225806451613,
+      "eval_mrpc-test_manhattan_accuracy": 0.7289473684210527,
+      "eval_mrpc-test_manhattan_accuracy_threshold": 77.57926177978516,
+      "eval_mrpc-test_manhattan_ap": 0.8208816982117964,
+      "eval_mrpc-test_manhattan_f1": 0.815742397137746,
+      "eval_mrpc-test_manhattan_f1_threshold": 79.14703369140625,
+      "eval_mrpc-test_manhattan_precision": 0.7331189710610932,
+      "eval_mrpc-test_manhattan_recall": 0.9193548387096774,
+      "eval_mrpc-test_max_accuracy": 0.7473684210526316,
+      "eval_mrpc-test_max_accuracy_threshold": 77.57926177978516,
+      "eval_mrpc-test_max_ap": 0.8563235829800693,
+      "eval_mrpc-test_max_f1": 0.8327645051194539,
+      "eval_mrpc-test_max_f1_threshold": 79.14703369140625,
+      "eval_mrpc-test_max_precision": 0.737012987012987,
+      "eval_mrpc-test_max_recall": 0.9838709677419355,
+      "eval_nli-pairs_loss": 0.8093397617340088,
+      "eval_nli-pairs_runtime": 3.0363,
+      "eval_nli-pairs_samples_per_second": 52.696,
+      "eval_nli-pairs_steps_per_second": 1.647,
+      "eval_sequential_score": 0.5651043866206488,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_vitaminc-pairs_loss": 5.769770622253418,
+      "eval_vitaminc-pairs_runtime": 1.5488,
+      "eval_vitaminc-pairs_samples_per_second": 85.875,
+      "eval_vitaminc-pairs_steps_per_second": 3.228,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_qnli-contrastive_loss": 0.12109158933162689,
+      "eval_qnli-contrastive_runtime": 0.5097,
+      "eval_qnli-contrastive_samples_per_second": 313.889,
+      "eval_qnli-contrastive_steps_per_second": 9.809,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_scitail-pairs-qa_loss": 0.07553695887327194,
+      "eval_scitail-pairs-qa_runtime": 1.2071,
+      "eval_scitail-pairs-qa_samples_per_second": 132.548,
+      "eval_scitail-pairs-qa_steps_per_second": 4.142,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_scitail-pairs-pos_loss": 0.3979075253009796,
+      "eval_scitail-pairs-pos_runtime": 2.3649,
+      "eval_scitail-pairs-pos_samples_per_second": 67.656,
+      "eval_scitail-pairs-pos_steps_per_second": 2.114,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_xsum-pairs_loss": 0.313429057598114,
+      "eval_xsum-pairs_runtime": 1.4107,
+      "eval_xsum-pairs_samples_per_second": 113.419,
+      "eval_xsum-pairs_steps_per_second": 3.544,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_compression-pairs_loss": 0.08316509425640106,
+      "eval_compression-pairs_runtime": 0.3958,
+      "eval_compression-pairs_samples_per_second": 404.289,
+      "eval_compression-pairs_steps_per_second": 12.634,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_sciq_pairs_loss": 0.2692818343639374,
+      "eval_sciq_pairs_runtime": 7.8991,
+      "eval_sciq_pairs_samples_per_second": 20.255,
+      "eval_sciq_pairs_steps_per_second": 0.633,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_qasc_pairs_loss": 0.19870159029960632,
+      "eval_qasc_pairs_runtime": 1.4336,
+      "eval_qasc_pairs_samples_per_second": 111.608,
+      "eval_qasc_pairs_steps_per_second": 3.488,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_qasc_facts_sym_loss": 0.16445104777812958,
+      "eval_qasc_facts_sym_runtime": 0.3196,
+      "eval_qasc_facts_sym_samples_per_second": 500.598,
+      "eval_qasc_facts_sym_steps_per_second": 15.644,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_openbookqa_pairs_loss": 1.7182375192642212,
+      "eval_openbookqa_pairs_runtime": 1.2252,
+      "eval_openbookqa_pairs_samples_per_second": 130.592,
+      "eval_openbookqa_pairs_steps_per_second": 4.081,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_msmarco_pairs_loss": 0.4961338937282562,
+      "eval_msmarco_pairs_runtime": 3.1144,
+      "eval_msmarco_pairs_samples_per_second": 51.374,
+      "eval_msmarco_pairs_steps_per_second": 1.605,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_nq_pairs_loss": 0.4005078673362732,
+      "eval_nq_pairs_runtime": 7.7074,
+      "eval_nq_pairs_samples_per_second": 20.759,
+      "eval_nq_pairs_steps_per_second": 0.649,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_trivia_pairs_loss": 0.654505729675293,
+      "eval_trivia_pairs_runtime": 10.1383,
+      "eval_trivia_pairs_samples_per_second": 15.782,
+      "eval_trivia_pairs_steps_per_second": 0.493,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_quora_pairs_loss": 0.22833283245563507,
+      "eval_quora_pairs_runtime": 3.894,
+      "eval_quora_pairs_samples_per_second": 173.342,
+      "eval_quora_pairs_steps_per_second": 5.65,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_gooaq_pairs_loss": 0.4996432662010193,
+      "eval_gooaq_pairs_runtime": 2.2697,
+      "eval_gooaq_pairs_samples_per_second": 70.494,
+      "eval_gooaq_pairs_steps_per_second": 2.203,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2500967866821525,
+      "eval_mrpc_pairs_loss": 0.04613902047276497,
+      "eval_mrpc_pairs_runtime": 0.3743,
+      "eval_mrpc_pairs_samples_per_second": 427.427,
+      "eval_mrpc_pairs_steps_per_second": 13.357,
+      "step": 1292
+    },
+    {
+      "epoch": 0.2516453735965931,
+      "grad_norm": 12.50217342376709,
+      "learning_rate": 7.53774680603949e-06,
+      "loss": 0.6236,
+      "step": 1300
+    },
+    {
+      "epoch": 0.26422764227642276,
+      "grad_norm": 1.8397300243377686,
+      "learning_rate": 7.91521486643438e-06,
+      "loss": 0.4947,
+      "step": 1365
+    },
+    {
+      "epoch": 0.2768099109562524,
+      "grad_norm": 5.885033130645752,
+      "learning_rate": 8.292682926829268e-06,
+      "loss": 0.5595,
+      "step": 1430
+    },
+    {
+      "epoch": 0.28939217963608205,
+      "grad_norm": 1.7783002853393555,
+      "learning_rate": 8.670150987224158e-06,
+      "loss": 0.641,
+      "step": 1495
+    },
+    {
+      "epoch": 0.30197444831591175,
+      "grad_norm": 5.305712699890137,
+      "learning_rate": 9.047619047619047e-06,
+      "loss": 0.5188,
+      "step": 1560
+    },
+    {
+      "epoch": 0.3145567169957414,
+      "grad_norm": 8.24319839477539,
+      "learning_rate": 9.425087108013936e-06,
+      "loss": 0.4927,
+      "step": 1625
+    },
+    {
+      "epoch": 0.32713898567557104,
+      "grad_norm": 11.07426929473877,
+      "learning_rate": 9.802555168408827e-06,
+      "loss": 0.657,
+      "step": 1690
+    },
+    {
+      "epoch": 0.3397212543554007,
+      "grad_norm": 9.04263687133789,
+      "learning_rate": 1.0180023228803716e-05,
+      "loss": 0.4665,
+      "step": 1755
+    },
+    {
+      "epoch": 0.3523035230352303,
+      "grad_norm": 1.4980370998382568,
+      "learning_rate": 1.0557491289198606e-05,
+      "loss": 0.4645,
+      "step": 1820
+    },
+    {
+      "epoch": 0.36488579171506,
+      "grad_norm": 16.511180877685547,
+      "learning_rate": 1.0934959349593495e-05,
+      "loss": 0.5887,
+      "step": 1885
+    },
+    {
+      "epoch": 0.37746806039488967,
+      "grad_norm": 5.706000804901123,
+      "learning_rate": 1.1312427409988386e-05,
+      "loss": 0.5308,
+      "step": 1950
+    },
+    {
+      "epoch": 0.3900503290747193,
+      "grad_norm": 1.0923340320587158,
+      "learning_rate": 1.1689895470383277e-05,
+      "loss": 0.536,
+      "step": 2015
+    },
+    {
+      "epoch": 0.40263259775454896,
+      "grad_norm": 6.521665573120117,
+      "learning_rate": 1.2067363530778166e-05,
+      "loss": 0.4841,
+      "step": 2080
+    },
+    {
+      "epoch": 0.4152148664343786,
+      "grad_norm": 7.254842758178711,
+      "learning_rate": 1.2444831591173055e-05,
+      "loss": 0.6499,
+      "step": 2145
+    },
+    {
+      "epoch": 0.4277971351142083,
+      "grad_norm": 14.938628196716309,
+      "learning_rate": 1.2822299651567945e-05,
+      "loss": 0.5982,
+      "step": 2210
+    },
+    {
+      "epoch": 0.44037940379403795,
+      "grad_norm": 10.192171096801758,
+      "learning_rate": 1.3199767711962834e-05,
+      "loss": 0.5281,
+      "step": 2275
+    },
+    {
+      "epoch": 0.4529616724738676,
+      "grad_norm": 8.02379035949707,
+      "learning_rate": 1.3577235772357725e-05,
+      "loss": 0.6657,
+      "step": 2340
+    },
+    {
+      "epoch": 0.46554394115369724,
+      "grad_norm": 2.842752695083618,
+      "learning_rate": 1.3954703832752614e-05,
+      "loss": 0.5746,
+      "step": 2405
+    },
+    {
+      "epoch": 0.4781262098335269,
+      "grad_norm": 0.4373825788497925,
+      "learning_rate": 1.432636469221835e-05,
+      "loss": 0.5853,
+      "step": 2470
+    },
+    {
+      "epoch": 0.4907084785133566,
+      "grad_norm": 16.475561141967773,
+      "learning_rate": 1.4703832752613242e-05,
+      "loss": 0.5828,
+      "step": 2535
+    }
+  ],
+  "logging_steps": 65,
+  "max_steps": 25830,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 2583,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2583/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2519118bce6ce43cd8ca9ca2ad2ad4642dfcfe5f9a3c6dd2eeb5a81e8223693e
+size 5624