xuancoblab2023 commited on Apr 20, 2024

Commit

eef24a7

verified ·

1 Parent(s): a43c884

Training in progress, epoch 9

Browse files

Files changed (25) hide show

logs/events.out.tfevents.1713595104.1376c752d37a.9760.65 +3 -0
model.safetensors +1 -1
run-12/checkpoint-1712/config.json +34 -0
run-12/checkpoint-1712/model.safetensors +3 -0
run-12/checkpoint-1712/optimizer.pt +3 -0
run-12/checkpoint-1712/rng_state.pth +3 -0
run-12/checkpoint-1712/scheduler.pt +3 -0
run-12/checkpoint-1712/special_tokens_map.json +7 -0
run-12/checkpoint-1712/tokenizer.json +0 -0
run-12/checkpoint-1712/tokenizer_config.json +57 -0
run-12/checkpoint-1712/trainer_state.json +186 -0
run-12/checkpoint-1712/training_args.bin +3 -0
run-12/checkpoint-1712/vocab.txt +0 -0
run-12/checkpoint-1926/config.json +34 -0
run-12/checkpoint-1926/model.safetensors +3 -0
run-12/checkpoint-1926/optimizer.pt +3 -0
run-12/checkpoint-1926/rng_state.pth +3 -0
run-12/checkpoint-1926/scheduler.pt +3 -0
run-12/checkpoint-1926/special_tokens_map.json +7 -0
run-12/checkpoint-1926/tokenizer.json +0 -0
run-12/checkpoint-1926/tokenizer_config.json +57 -0
run-12/checkpoint-1926/trainer_state.json +206 -0
run-12/checkpoint-1926/training_args.bin +3 -0
run-12/checkpoint-1926/vocab.txt +0 -0
training_args.bin +1 -1

logs/events.out.tfevents.1713595104.1376c752d37a.9760.65 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:862cf90cbcd8e60ee4bc87be8cc325f04678517ebd0c6b58e178db88cc6fe664
+size 11677

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7c8455ed7ddb848b491c3f9183148962c793cf1f02086a98ba43b722f6ae4ce
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:9be976a7695ddad8f50dcbafe463d7dd006780bfd0b9af563bf28a4368a10ec0
 size 17549312

run-12/checkpoint-1712/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-12/checkpoint-1712/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d2bbfc439102640e0ffde35a209a3c0256d7cff99d8e49a9733253c690274ca
+size 17549312

run-12/checkpoint-1712/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:524438868ed0b01ecec8154cca65073b37ad3f49c6cd2cd5f94ac8b3b6f2edea
+size 35123898

run-12/checkpoint-1712/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4989482a5a75709b5c8ca6795f7ae67e4569d30e28e8e6fcdef7d2324018c9b4
+size 14308

run-12/checkpoint-1712/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ffc45598325d9e4a67ba190b20e322197bf4d8e5b3bbe7db2cf238e29c2d2a25
+size 1064

run-12/checkpoint-1712/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1712/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-1712/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1712/trainer_state.json ADDED Viewed

	@@ -0,0 +1,186 @@

+{
+  "best_metric": 0.7633274751025191,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-12/checkpoint-1712",
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 1712,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 9.038531303405762,
+      "learning_rate": 0.0001519444662250004,
+      "loss": 0.5879,
+      "step": 214
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7076742823667252,
+      "eval_f1": 0.5434583714547119,
+      "eval_loss": 0.5341159105300903,
+      "eval_mcc": 0.329604437952711,
+      "eval_precision": 0.566793893129771,
+      "eval_recall": 0.5219683655536028,
+      "eval_runtime": 3.1577,
+      "eval_samples_per_second": 540.589,
+      "eval_steps_per_second": 17.101,
+      "step": 214
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.545409917831421,
+      "learning_rate": 0.00013295140794687536,
+      "loss": 0.5171,
+      "step": 428
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7422378441710603,
+      "eval_f1": 0.5111111111111112,
+      "eval_loss": 0.5047069191932678,
+      "eval_mcc": 0.3761458173289304,
+      "eval_precision": 0.6948640483383686,
+      "eval_recall": 0.40421792618629176,
+      "eval_runtime": 3.8964,
+      "eval_samples_per_second": 438.1,
+      "eval_steps_per_second": 13.859,
+      "step": 428
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.3753821849823,
+      "learning_rate": 0.0001139583496687503,
+      "loss": 0.4951,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7527826596367897,
+      "eval_f1": 0.546236559139785,
+      "eval_loss": 0.5026707649230957,
+      "eval_mcc": 0.40677405413312046,
+      "eval_precision": 0.703601108033241,
+      "eval_recall": 0.44639718804920914,
+      "eval_runtime": 3.1728,
+      "eval_samples_per_second": 538.017,
+      "eval_steps_per_second": 17.02,
+      "step": 642
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.286716938018799,
+      "learning_rate": 9.496529139062526e-05,
+      "loss": 0.4835,
+      "step": 856
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7521968365553603,
+      "eval_f1": 0.5273743016759778,
+      "eval_loss": 0.49232202768325806,
+      "eval_mcc": 0.4025712218580689,
+      "eval_precision": 0.7239263803680982,
+      "eval_recall": 0.4147627416520211,
+      "eval_runtime": 3.2254,
+      "eval_samples_per_second": 529.238,
+      "eval_steps_per_second": 16.742,
+      "step": 856
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 6.082200527191162,
+      "learning_rate": 7.59722331125002e-05,
+      "loss": 0.4751,
+      "step": 1070
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7545401288810779,
+      "eval_f1": 0.5855588526211671,
+      "eval_loss": 0.4886399805545807,
+      "eval_mcc": 0.42175813043842797,
+      "eval_precision": 0.669683257918552,
+      "eval_recall": 0.5202108963093146,
+      "eval_runtime": 3.1296,
+      "eval_samples_per_second": 545.437,
+      "eval_steps_per_second": 17.255,
+      "step": 1070
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.644395589828491,
+      "learning_rate": 5.697917483437515e-05,
+      "loss": 0.4705,
+      "step": 1284
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7568834212067955,
+      "eval_f1": 0.5966958211856171,
+      "eval_loss": 0.48512187600135803,
+      "eval_mcc": 0.43040150867070137,
+      "eval_precision": 0.6673913043478261,
+      "eval_recall": 0.539543057996485,
+      "eval_runtime": 3.1955,
+      "eval_samples_per_second": 534.196,
+      "eval_steps_per_second": 16.899,
+      "step": 1284
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 6.025336265563965,
+      "learning_rate": 3.79861165562501e-05,
+      "loss": 0.4638,
+      "step": 1498
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7598125366139425,
+      "eval_f1": 0.5824847250509165,
+      "eval_loss": 0.4841197729110718,
+      "eval_mcc": 0.4304303132828965,
+      "eval_precision": 0.6924939467312349,
+      "eval_recall": 0.5026362038664324,
+      "eval_runtime": 3.1724,
+      "eval_samples_per_second": 538.074,
+      "eval_steps_per_second": 17.022,
+      "step": 1498
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 7.094229698181152,
+      "learning_rate": 1.899305827812505e-05,
+      "loss": 0.4594,
+      "step": 1712
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7633274751025191,
+      "eval_f1": 0.5935613682092556,
+      "eval_loss": 0.48480337858200073,
+      "eval_mcc": 0.44066073676066914,
+      "eval_precision": 0.6941176470588235,
+      "eval_recall": 0.5184534270650264,
+      "eval_runtime": 3.347,
+      "eval_samples_per_second": 510.014,
+      "eval_steps_per_second": 16.134,
+      "step": 1712
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1926,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
+  "save_steps": 500,
+  "total_flos": 4198205315520.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9671338526849426,
+    "learning_rate": 0.00017093752450312547,
+    "num_train_epochs": 9,
+    "temperature": 10
+  }
+}

run-12/checkpoint-1712/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae5b0c935d728fe5745287fbb89d9f2bcc17a996945847f6677af030a28946cb
+size 5048

run-12/checkpoint-1712/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-1926/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-12/checkpoint-1926/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9be976a7695ddad8f50dcbafe463d7dd006780bfd0b9af563bf28a4368a10ec0
+size 17549312

run-12/checkpoint-1926/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce5e315069036e7c85009c2e75f1be2bd4d87db056232a4ae0ebf2a8bb08e603
+size 35123898

run-12/checkpoint-1926/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2411fdfdbcf5b48d15f394158baa93e72fe1dc9a2034dc7fa2b11b876e3bf2a
+size 14308

run-12/checkpoint-1926/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3214d82a2144d2fbf6de739d4848c3546c7b245e90a09ac1784d988cb23b9c0
+size 1064

run-12/checkpoint-1926/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1926/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-12/checkpoint-1926/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-12/checkpoint-1926/trainer_state.json ADDED Viewed

	@@ -0,0 +1,206 @@

+{
+  "best_metric": 0.7633274751025191,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-12/checkpoint-1712",
+  "epoch": 9.0,
+  "eval_steps": 500,
+  "global_step": 1926,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 9.038531303405762,
+      "learning_rate": 0.0001519444662250004,
+      "loss": 0.5879,
+      "step": 214
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7076742823667252,
+      "eval_f1": 0.5434583714547119,
+      "eval_loss": 0.5341159105300903,
+      "eval_mcc": 0.329604437952711,
+      "eval_precision": 0.566793893129771,
+      "eval_recall": 0.5219683655536028,
+      "eval_runtime": 3.1577,
+      "eval_samples_per_second": 540.589,
+      "eval_steps_per_second": 17.101,
+      "step": 214
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.545409917831421,
+      "learning_rate": 0.00013295140794687536,
+      "loss": 0.5171,
+      "step": 428
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7422378441710603,
+      "eval_f1": 0.5111111111111112,
+      "eval_loss": 0.5047069191932678,
+      "eval_mcc": 0.3761458173289304,
+      "eval_precision": 0.6948640483383686,
+      "eval_recall": 0.40421792618629176,
+      "eval_runtime": 3.8964,
+      "eval_samples_per_second": 438.1,
+      "eval_steps_per_second": 13.859,
+      "step": 428
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.3753821849823,
+      "learning_rate": 0.0001139583496687503,
+      "loss": 0.4951,
+      "step": 642
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7527826596367897,
+      "eval_f1": 0.546236559139785,
+      "eval_loss": 0.5026707649230957,
+      "eval_mcc": 0.40677405413312046,
+      "eval_precision": 0.703601108033241,
+      "eval_recall": 0.44639718804920914,
+      "eval_runtime": 3.1728,
+      "eval_samples_per_second": 538.017,
+      "eval_steps_per_second": 17.02,
+      "step": 642
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 4.286716938018799,
+      "learning_rate": 9.496529139062526e-05,
+      "loss": 0.4835,
+      "step": 856
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7521968365553603,
+      "eval_f1": 0.5273743016759778,
+      "eval_loss": 0.49232202768325806,
+      "eval_mcc": 0.4025712218580689,
+      "eval_precision": 0.7239263803680982,
+      "eval_recall": 0.4147627416520211,
+      "eval_runtime": 3.2254,
+      "eval_samples_per_second": 529.238,
+      "eval_steps_per_second": 16.742,
+      "step": 856
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 6.082200527191162,
+      "learning_rate": 7.59722331125002e-05,
+      "loss": 0.4751,
+      "step": 1070
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7545401288810779,
+      "eval_f1": 0.5855588526211671,
+      "eval_loss": 0.4886399805545807,
+      "eval_mcc": 0.42175813043842797,
+      "eval_precision": 0.669683257918552,
+      "eval_recall": 0.5202108963093146,
+      "eval_runtime": 3.1296,
+      "eval_samples_per_second": 545.437,
+      "eval_steps_per_second": 17.255,
+      "step": 1070
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.644395589828491,
+      "learning_rate": 5.697917483437515e-05,
+      "loss": 0.4705,
+      "step": 1284
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7568834212067955,
+      "eval_f1": 0.5966958211856171,
+      "eval_loss": 0.48512187600135803,
+      "eval_mcc": 0.43040150867070137,
+      "eval_precision": 0.6673913043478261,
+      "eval_recall": 0.539543057996485,
+      "eval_runtime": 3.1955,
+      "eval_samples_per_second": 534.196,
+      "eval_steps_per_second": 16.899,
+      "step": 1284
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 6.025336265563965,
+      "learning_rate": 3.79861165562501e-05,
+      "loss": 0.4638,
+      "step": 1498
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7598125366139425,
+      "eval_f1": 0.5824847250509165,
+      "eval_loss": 0.4841197729110718,
+      "eval_mcc": 0.4304303132828965,
+      "eval_precision": 0.6924939467312349,
+      "eval_recall": 0.5026362038664324,
+      "eval_runtime": 3.1724,
+      "eval_samples_per_second": 538.074,
+      "eval_steps_per_second": 17.022,
+      "step": 1498
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 7.094229698181152,
+      "learning_rate": 1.899305827812505e-05,
+      "loss": 0.4594,
+      "step": 1712
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7633274751025191,
+      "eval_f1": 0.5935613682092556,
+      "eval_loss": 0.48480337858200073,
+      "eval_mcc": 0.44066073676066914,
+      "eval_precision": 0.6941176470588235,
+      "eval_recall": 0.5184534270650264,
+      "eval_runtime": 3.347,
+      "eval_samples_per_second": 510.014,
+      "eval_steps_per_second": 16.134,
+      "step": 1712
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 3.9764974117279053,
+      "learning_rate": 0.0,
+      "loss": 0.4566,
+      "step": 1926
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7592267135325131,
+      "eval_f1": 0.6021297192642788,
+      "eval_loss": 0.48402848839759827,
+      "eval_mcc": 0.4366799885886311,
+      "eval_precision": 0.6702586206896551,
+      "eval_recall": 0.546572934973638,
+      "eval_runtime": 3.1595,
+      "eval_samples_per_second": 540.271,
+      "eval_steps_per_second": 17.091,
+      "step": 1926
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1926,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
+  "save_steps": 500,
+  "total_flos": 4722980979960.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.9671338526849426,
+    "learning_rate": 0.00017093752450312547,
+    "num_train_epochs": 9,
+    "temperature": 10
+  }
+}

run-12/checkpoint-1926/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae5b0c935d728fe5745287fbb89d9f2bcc17a996945847f6677af030a28946cb
+size 5048

run-12/checkpoint-1926/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91b75acdfed96024e41f75d5f04d6bad8799c334ee9a4d3bf53ad9d0b94d6df4
 size 5048

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae5b0c935d728fe5745287fbb89d9f2bcc17a996945847f6677af030a28946cb
 size 5048