xuancoblab2023 commited on Mar 6, 2024

Commit

551051d

verified ·

1 Parent(s): 7f25e7f

Training in progress, epoch 1

Browse files

Files changed (32) hide show

logs/events.out.tfevents.1709747080.1dcff7455174.7719.20 +2 -2
logs/events.out.tfevents.1709747783.1dcff7455174.7719.21 +3 -0
logs/events.out.tfevents.1709747882.1dcff7455174.7719.22 +3 -0
model.safetensors +1 -1
run-20/checkpoint-480/config.json +34 -0
run-20/checkpoint-480/model.safetensors +3 -0
run-20/checkpoint-480/optimizer.pt +3 -0
run-20/checkpoint-480/rng_state.pth +3 -0
run-20/checkpoint-480/scheduler.pt +3 -0
run-20/checkpoint-480/special_tokens_map.json +7 -0
run-20/checkpoint-480/tokenizer.json +0 -0
run-20/checkpoint-480/tokenizer_config.json +57 -0
run-20/checkpoint-480/trainer_state.json +121 -0
run-20/checkpoint-480/training_args.bin +3 -0
run-20/checkpoint-480/vocab.txt +0 -0
run-20/checkpoint-672/config.json +34 -0
run-20/checkpoint-672/model.safetensors +3 -0
run-20/checkpoint-672/optimizer.pt +3 -0
run-20/checkpoint-672/rng_state.pth +3 -0
run-20/checkpoint-672/scheduler.pt +3 -0
run-20/checkpoint-672/special_tokens_map.json +7 -0
run-20/checkpoint-672/tokenizer.json +0 -0
run-20/checkpoint-672/tokenizer_config.json +57 -0
run-20/checkpoint-672/trainer_state.json +159 -0
run-20/checkpoint-672/training_args.bin +3 -0
run-20/checkpoint-672/vocab.txt +0 -0
run-22/checkpoint-96/model.safetensors +1 -1
run-22/checkpoint-96/optimizer.pt +1 -1
run-22/checkpoint-96/scheduler.pt +1 -1
run-22/checkpoint-96/trainer_state.json +18 -18
run-22/checkpoint-96/training_args.bin +1 -1
training_args.bin +1 -1

logs/events.out.tfevents.1709747080.1dcff7455174.7719.20 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a13080da4d52ce0a01c22f2b773b3b3e3e68b56a855b241de2b058cd75bae525
-size 5998

 version https://git-lfs.github.com/spec/v1
+oid sha256:733f917436d6f9453b5e82bd7b91b686819b0c6f5657cec42eb3a1d92cf77bf8
+size 9767

logs/events.out.tfevents.1709747783.1dcff7455174.7719.21 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:048ba61b00dfc8413e7679a8b38ff1fa7e0f30526defb15f7af8976066aef651
+size 5316

logs/events.out.tfevents.1709747882.1dcff7455174.7719.22 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1fbfca52a61d64ec1ee8e98a5a5739af1d585d0f00bf20353db8de56622c359e
+size 5315

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28dfeee6a395a8ae4a705885d49b95bccd587f566ac67e35bd52de8d4278cf7c
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6f4518941bcca867b4097c210c9da7b27937b4f2a4d160d2ad6aa36058e2c85
 size 17549312

run-20/checkpoint-480/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-20/checkpoint-480/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17cb235ec6888c5eb45d1e3d2fb22d69f5e696a5d0528ebec1566e3249b31f90
+size 17549312

run-20/checkpoint-480/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:32679a01af604fa69b270ec73fabe2a9775d102f20e0837ee1d9f5a50b3df22b
+size 35122746

run-20/checkpoint-480/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d93f4cfe67413cd27374342b3b9f13806d5fb593a9dc59106a8b24dedb590a8
+size 14054

run-20/checkpoint-480/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6191b6325d11d5c6f746e8d9b1998c96553209733889bc498c9d40e243608aa
+size 1064

run-20/checkpoint-480/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-20/checkpoint-480/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-20/checkpoint-480/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-20/checkpoint-480/trainer_state.json ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  "best_metric": 0.8346379647749511,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-20/checkpoint-480",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 480,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.3483004570007324,
+      "learning_rate": 0.00013855533928571864,
+      "loss": 0.5685,
+      "step": 96
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7671232876712328,
+      "eval_f1": 0.8019966722129783,
+      "eval_loss": 0.477300226688385,
+      "eval_precision": 0.6975397973950795,
+      "eval_recall": 0.9432485322896281,
+      "eval_runtime": 25.843,
+      "eval_samples_per_second": 39.546,
+      "eval_steps_per_second": 1.238,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.558192729949951,
+      "learning_rate": 0.00011546278273809888,
+      "loss": 0.4736,
+      "step": 192
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8072407045009785,
+      "eval_f1": 0.8255093002657219,
+      "eval_loss": 0.43477192521095276,
+      "eval_precision": 0.7540453074433657,
+      "eval_recall": 0.9119373776908023,
+      "eval_runtime": 25.942,
+      "eval_samples_per_second": 39.396,
+      "eval_steps_per_second": 1.234,
+      "step": 192
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.4191761016845703,
+      "learning_rate": 9.237022619047909e-05,
+      "loss": 0.4377,
+      "step": 288
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8258317025440313,
+      "eval_f1": 0.8381818181818183,
+      "eval_loss": 0.4183538258075714,
+      "eval_precision": 0.7826825127334465,
+      "eval_recall": 0.9021526418786693,
+      "eval_runtime": 25.665,
+      "eval_samples_per_second": 39.821,
+      "eval_steps_per_second": 1.247,
+      "step": 288
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 7.199775218963623,
+      "learning_rate": 6.927766964285932e-05,
+      "loss": 0.4231,
+      "step": 384
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8199608610567515,
+      "eval_f1": 0.8257575757575758,
+      "eval_loss": 0.4184337258338928,
+      "eval_precision": 0.8,
+      "eval_recall": 0.8532289628180039,
+      "eval_runtime": 25.0602,
+      "eval_samples_per_second": 40.782,
+      "eval_steps_per_second": 1.277,
+      "step": 384
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.4152629375457764,
+      "learning_rate": 4.6185113095239546e-05,
+      "loss": 0.4131,
+      "step": 480
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8346379647749511,
+      "eval_f1": 0.8467815049864007,
+      "eval_loss": 0.4067833125591278,
+      "eval_precision": 0.7888513513513513,
+      "eval_recall": 0.913894324853229,
+      "eval_runtime": 24.9745,
+      "eval_samples_per_second": 40.922,
+      "eval_steps_per_second": 1.281,
+      "step": 480
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 672,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 1178475986400.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.8907547983808969,
+    "learning_rate": 0.00016164789583333842,
+    "num_train_epochs": 7,
+    "temperature": 2
+  }
+}

run-20/checkpoint-480/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46842c009f41275debcdf9292fb95a9ae38904afa21579baac9749258a827744
+size 4920

run-20/checkpoint-480/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-20/checkpoint-672/config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "google/bert_uncased_L-2_H-128_A-2",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 128,
+  "id2label": {
+    "0": "negative",
+    "1": "positive"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 512,
+  "label2id": {
+    "negative": "0",
+    "positive": "1"
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 2,
+  "num_hidden_layers": 2,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-20/checkpoint-672/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:863c5501abe5b8aa9376fc8348054c6c6d30850ad4d4cae053e761897ce1ed66
+size 17549312

run-20/checkpoint-672/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5b661e891e6195e0c82af243742bf2e745ce262e4e1f78e1be07ecb37324112
+size 35122746

run-20/checkpoint-672/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a39c6918f3fd24e7a04a4220bba5fcc478d9db2386daee293756dba26ecf21ac
+size 14054

run-20/checkpoint-672/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6373ef32a8fae450a2ae5cb8763fcd5f5ea13031101f23ad10af666d3be24bca
+size 1064

run-20/checkpoint-672/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-20/checkpoint-672/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-20/checkpoint-672/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-20/checkpoint-672/trainer_state.json ADDED Viewed

	@@ -0,0 +1,159 @@

+{
+  "best_metric": 0.8346379647749511,
+  "best_model_checkpoint": "tiny-bert-sst2-distilled/run-20/checkpoint-480",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 672,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.3483004570007324,
+      "learning_rate": 0.00013855533928571864,
+      "loss": 0.5685,
+      "step": 96
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7671232876712328,
+      "eval_f1": 0.8019966722129783,
+      "eval_loss": 0.477300226688385,
+      "eval_precision": 0.6975397973950795,
+      "eval_recall": 0.9432485322896281,
+      "eval_runtime": 25.843,
+      "eval_samples_per_second": 39.546,
+      "eval_steps_per_second": 1.238,
+      "step": 96
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.558192729949951,
+      "learning_rate": 0.00011546278273809888,
+      "loss": 0.4736,
+      "step": 192
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8072407045009785,
+      "eval_f1": 0.8255093002657219,
+      "eval_loss": 0.43477192521095276,
+      "eval_precision": 0.7540453074433657,
+      "eval_recall": 0.9119373776908023,
+      "eval_runtime": 25.942,
+      "eval_samples_per_second": 39.396,
+      "eval_steps_per_second": 1.234,
+      "step": 192
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 3.4191761016845703,
+      "learning_rate": 9.237022619047909e-05,
+      "loss": 0.4377,
+      "step": 288
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8258317025440313,
+      "eval_f1": 0.8381818181818183,
+      "eval_loss": 0.4183538258075714,
+      "eval_precision": 0.7826825127334465,
+      "eval_recall": 0.9021526418786693,
+      "eval_runtime": 25.665,
+      "eval_samples_per_second": 39.821,
+      "eval_steps_per_second": 1.247,
+      "step": 288
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 7.199775218963623,
+      "learning_rate": 6.927766964285932e-05,
+      "loss": 0.4231,
+      "step": 384
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8199608610567515,
+      "eval_f1": 0.8257575757575758,
+      "eval_loss": 0.4184337258338928,
+      "eval_precision": 0.8,
+      "eval_recall": 0.8532289628180039,
+      "eval_runtime": 25.0602,
+      "eval_samples_per_second": 40.782,
+      "eval_steps_per_second": 1.277,
+      "step": 384
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 2.4152629375457764,
+      "learning_rate": 4.6185113095239546e-05,
+      "loss": 0.4131,
+      "step": 480
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8346379647749511,
+      "eval_f1": 0.8467815049864007,
+      "eval_loss": 0.4067833125591278,
+      "eval_precision": 0.7888513513513513,
+      "eval_recall": 0.913894324853229,
+      "eval_runtime": 24.9745,
+      "eval_samples_per_second": 40.922,
+      "eval_steps_per_second": 1.281,
+      "step": 480
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.8709616661071777,
+      "learning_rate": 2.3092556547619773e-05,
+      "loss": 0.4025,
+      "step": 576
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8307240704500979,
+      "eval_f1": 0.8442844284428443,
+      "eval_loss": 0.4088129699230194,
+      "eval_precision": 0.7816666666666666,
+      "eval_recall": 0.9178082191780822,
+      "eval_runtime": 25.2849,
+      "eval_samples_per_second": 40.419,
+      "eval_steps_per_second": 1.266,
+      "step": 576
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 3.1289896965026855,
+      "learning_rate": 0.0,
+      "loss": 0.398,
+      "step": 672
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8287671232876712,
+      "eval_f1": 0.839596700274977,
+      "eval_loss": 0.40621256828308105,
+      "eval_precision": 0.7896551724137931,
+      "eval_recall": 0.8962818003913894,
+      "eval_runtime": 25.662,
+      "eval_samples_per_second": 39.825,
+      "eval_steps_per_second": 1.247,
+      "step": 672
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 672,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 500,
+  "total_flos": 1649866380960.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": {
+    "alpha": 0.8907547983808969,
+    "learning_rate": 0.00016164789583333842,
+    "num_train_epochs": 7,
+    "temperature": 2
+  }
+}

run-20/checkpoint-672/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46842c009f41275debcdf9292fb95a9ae38904afa21579baac9749258a827744
+size 4920

run-20/checkpoint-672/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-22/checkpoint-96/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53debfa8fff7eaac5c8a752a46f88af3240966d13e2032f508c74638e0aed3df
 size 17549312

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6f4518941bcca867b4097c210c9da7b27937b4f2a4d160d2ad6aa36058e2c85
 size 17549312

run-22/checkpoint-96/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:464f6a057451f83e13031f3480674b67812e8c5efdf72fd228a7b18720663d12
 size 35122746

 version https://git-lfs.github.com/spec/v1
+oid sha256:78bc300d2ca2ff0207c7b2bf296fc7d5b707da746ac53dc0b887f90a66a35b5e
 size 35122746

run-22/checkpoint-96/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42e3d5f21a4bb94288b5c0bed505051f2f9adbc3b3119c8803fb75c431de6fce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fe0130d07a6b0565036c3ff656cfc34f73698e07298c3d765cba0cf202b09e7
 size 1064

run-22/checkpoint-96/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.773972602739726,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-22/checkpoint-96",
   "epoch": 1.0,
   "eval_steps": 500,
@@ -10,36 +10,36 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.634097933769226,
-      "learning_rate": 0.0001003330154271938,
-      "loss": 0.5664,
       "step": 96
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.773972602739726,
-      "eval_f1": 0.8027327070879591,
-      "eval_loss": 0.48113834857940674,
-      "eval_precision": 0.7121212121212122,
-      "eval_recall": 0.9197651663405088,
-      "eval_runtime": 28.856,
-      "eval_samples_per_second": 35.417,
-      "eval_steps_per_second": 1.109,
       "step": 96
     }
   ],
   "logging_steps": 500,
-  "max_steps": 288,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "total_flos": 235695197280.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.8605867890458055,
-    "learning_rate": 0.0001504995231407907,
-    "num_train_epochs": 3,
-    "temperature": 22
   }
 }

 {
+  "best_metric": 0.7788649706457925,
   "best_model_checkpoint": "tiny-bert-sst2-distilled/run-22/checkpoint-96",
   "epoch": 1.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 2.464465618133545,
+      "learning_rate": 0.0001794635836369996,
+      "loss": 0.565,
       "step": 96
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7788649706457925,
+      "eval_f1": 0.8078231292517007,
+      "eval_loss": 0.4691426157951355,
+      "eval_precision": 0.7142857142857143,
+      "eval_recall": 0.9295499021526419,
+      "eval_runtime": 25.0337,
+      "eval_samples_per_second": 40.825,
+      "eval_steps_per_second": 1.278,
       "step": 96
     }
   ],
   "logging_steps": 500,
+  "max_steps": 864,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 9,
   "save_steps": 500,
   "total_flos": 235695197280.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8956145079239534,
+    "learning_rate": 0.00020189653159162458,
+    "num_train_epochs": 9,
+    "temperature": 8
   }
 }

run-22/checkpoint-96/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8cd17833af62a2bdf35925c6807f6c91df68db0111517d291ec7cc64940e5ee3
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59435df03122e4e47861365c1b2756f99313581e8b38e82a031f16aa354557d
 size 4920

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b133c48486b4ca0f2783f5e1eaa0825a6f32235c8367d680f8abffab8cb5f911
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:a59435df03122e4e47861365c1b2756f99313581e8b38e82a031f16aa354557d
 size 4920