Tech-oriented commited on Mar 3

Commit

f451498

•

1 Parent(s): dafbf41

Training in progress, epoch 4

Browse files

Files changed (30) hide show

model.safetensors +1 -1
run-2/checkpoint-1263/config.json +27 -0
run-2/checkpoint-1263/model.safetensors +3 -0
run-2/checkpoint-1263/optimizer.pt +3 -0
run-2/checkpoint-1263/rng_state.pth +3 -0
run-2/checkpoint-1263/scheduler.pt +3 -0
run-2/checkpoint-1263/special_tokens_map.json +7 -0
run-2/checkpoint-1263/tokenizer.json +0 -0
run-2/checkpoint-1263/tokenizer_config.json +55 -0
run-2/checkpoint-1263/trainer_state.json +67 -0
run-2/checkpoint-1263/training_args.bin +3 -0
run-2/checkpoint-1263/vocab.txt +0 -0
run-2/checkpoint-1684/model.safetensors +1 -1
run-2/checkpoint-1684/optimizer.pt +1 -1
run-2/checkpoint-1684/rng_state.pth +2 -2
run-2/checkpoint-1684/scheduler.pt +1 -1
run-2/checkpoint-1684/trainer_state.json +55 -28
run-2/checkpoint-1684/training_args.bin +1 -1
run-2/checkpoint-842/config.json +27 -0
run-2/checkpoint-842/model.safetensors +3 -0
run-2/checkpoint-842/optimizer.pt +3 -0
run-2/checkpoint-842/rng_state.pth +3 -0
run-2/checkpoint-842/scheduler.pt +3 -0
run-2/checkpoint-842/special_tokens_map.json +7 -0
run-2/checkpoint-842/tokenizer.json +0 -0
run-2/checkpoint-842/tokenizer_config.json +55 -0
run-2/checkpoint-842/trainer_state.json +51 -0
run-2/checkpoint-842/training_args.bin +3 -0
run-2/checkpoint-842/vocab.txt +0 -0
runs/Mar03_17-42-01_90708aaa767a/events.out.tfevents.1709497917.90708aaa767a.21824.20 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01005cbb8e85152956ddb377cf179e3cd24dbe27e032cc71344529e0cc877c33
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:126b48a280b83e7ba34ae365e6bbd6bdace7fc8a57eb48fa151a7a9df101dd9c
 size 437958648

run-2/checkpoint-1263/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-1263/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4021bca007e51bd1785bdb6e2dc68031a8fa334b31501436cdbe7e332f8c293e
+size 437958648

run-2/checkpoint-1263/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6604072960b0399d05c965d9df1666a7e2ac61712adcd508634add3cdfac6bef
+size 876038394

run-2/checkpoint-1263/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0361c78c7f9c133b62f42e625649205dfec0d3fde567de0a8c8b1c5407ee551e
+size 14244

run-2/checkpoint-1263/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a315ce77c14b4dc205b5aa64878cab24cd12b081ee2f940a030f0c5030acfa2
+size 1064

run-2/checkpoint-1263/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-1263/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-1263/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-1263/trainer_state.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "best_metric": 0.8887614678899083,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-2/checkpoint-1263",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 1263,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8761467889908257,
+      "eval_loss": 0.3037863075733185,
+      "eval_runtime": 2.2668,
+      "eval_samples_per_second": 384.685,
+      "eval_steps_per_second": 24.263,
+      "step": 421
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 24.56251335144043,
+      "learning_rate": 5.135971766809031e-05,
+      "loss": 0.3191,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8830275229357798,
+      "eval_loss": 0.4693216383457184,
+      "eval_runtime": 2.3381,
+      "eval_samples_per_second": 372.946,
+      "eval_steps_per_second": 23.523,
+      "step": 842
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 3.9397337436676025,
+      "learning_rate": 3.5359805621956256e-05,
+      "loss": 0.1393,
+      "step": 1000
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8887614678899083,
+      "eval_loss": 0.533748984336853,
+      "eval_runtime": 2.3644,
+      "eval_samples_per_second": 368.807,
+      "eval_steps_per_second": 23.262,
+      "step": 1263
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2105,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 292344132499080.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 6.735962971422436e-05,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 16,
+    "seed": 2
+  }
+}

run-2/checkpoint-1263/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55dfbe476697181e66ebf5f3b6624f6c1c676b71c40c6125f531db2ed5ba1a72
+size 4920

run-2/checkpoint-1263/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-1684/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb613738e3ffdeb001374669941f1252a00de402f496459f82b20ed8886589ca
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:126b48a280b83e7ba34ae365e6bbd6bdace7fc8a57eb48fa151a7a9df101dd9c
 size 437958648

run-2/checkpoint-1684/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44a5c6d5a656ac7d3e2cc2addcc4aedc63c5cf7878138d7d2859c01f27069c59
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:c88d83b7c4b80b76b6350f881a9a9a167a3bb3046daa8467effc2df81097e2f3
 size 876038394

run-2/checkpoint-1684/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cc93202deb3c5569360fb9c9c21c4e09f6147edd63c0d92d9b5861f7112a9d98
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:00d997cfabcf13a666fb0d33a5b223dfb8244d0359b5298edda4316a39a79838
+size 14244

run-2/checkpoint-1684/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d770bfc35626f498f5d3c5e0dc15b73670a01186e4e002b2705d76d56a23c52
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4dbad146630eaeb88e576a2d85a7f61000b173418b9bbe21da7cb968aa27e78
 size 1064

run-2/checkpoint-1684/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.8635321100917431,
   "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-2/checkpoint-1684",
-  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 1684,
   "is_hyper_param_search": true,
@@ -9,48 +9,75 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.3,
-      "grad_norm": 267.4592590332031,
-      "learning_rate": 6.490431462154475e-05,
-      "loss": 0.6127,
       "step": 500
     },
     {
-      "epoch": 0.59,
-      "grad_norm": 9.022435188293457,
-      "learning_rate": 3.749539797393294e-05,
-      "loss": 0.5862,
       "step": 1000
     },
     {
-      "epoch": 0.89,
-      "grad_norm": 10.805120468139648,
-      "learning_rate": 1.0086481326321143e-05,
-      "loss": 0.4922,
       "step": 1500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.8635321100917431,
-      "eval_loss": 0.47688528895378113,
-      "eval_runtime": 2.4,
-      "eval_samples_per_second": 363.329,
-      "eval_steps_per_second": 22.916,
       "step": 1684
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1684,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 73089373401840.0,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 9.231323126915654e-05,
-    "num_train_epochs": 1,
-    "per_device_train_batch_size": 4,
-    "seed": 29
   }
 }

 {
+  "best_metric": 0.8899082568807339,
   "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-2/checkpoint-1684",
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 1684,
   "is_hyper_param_search": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8761467889908257,
+      "eval_loss": 0.3037863075733185,
+      "eval_runtime": 2.2668,
+      "eval_samples_per_second": 384.685,
+      "eval_steps_per_second": 24.263,
+      "step": 421
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 24.56251335144043,
+      "learning_rate": 5.135971766809031e-05,
+      "loss": 0.3191,
       "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8830275229357798,
+      "eval_loss": 0.4693216383457184,
+      "eval_runtime": 2.3381,
+      "eval_samples_per_second": 372.946,
+      "eval_steps_per_second": 23.523,
+      "step": 842
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 3.9397337436676025,
+      "learning_rate": 3.5359805621956256e-05,
+      "loss": 0.1393,
       "step": 1000
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8887614678899083,
+      "eval_loss": 0.533748984336853,
+      "eval_runtime": 2.3644,
+      "eval_samples_per_second": 368.807,
+      "eval_steps_per_second": 23.262,
+      "step": 1263
+    },
+    {
+      "epoch": 3.56,
+      "grad_norm": 0.6269965767860413,
+      "learning_rate": 1.9359893575822205e-05,
+      "loss": 0.0624,
       "step": 1500
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8899082568807339,
+      "eval_loss": 0.5773999691009521,
+      "eval_runtime": 2.4005,
+      "eval_samples_per_second": 363.26,
+      "eval_steps_per_second": 22.912,
       "step": 1684
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2105,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 440324059476660.0,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": {
+    "learning_rate": 6.735962971422436e-05,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 16,
+    "seed": 2
   }
 }

run-2/checkpoint-1684/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3c310707a9a9b300e8afc3494c59ee9399bd8e941233ac893f5f90c0f97df1e
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:55dfbe476697181e66ebf5f3b6624f6c1c676b71c40c6125f531db2ed5ba1a72
 size 4920

run-2/checkpoint-842/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-842/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3ae7173e18c5f6e56e98d91d905e244b9810eeb9480f292284b261cf5b55092
+size 437958648

run-2/checkpoint-842/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:74812e8b9204404065a592c4ec31dbb1c16728f28dc8de71c9c28f4fb50a4c1d
+size 876038394

run-2/checkpoint-842/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e456f622217763a691fbe0c5358aa83cda2e4e292e7913f706817bb67c8d5be3
+size 14244

run-2/checkpoint-842/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2d86120ab9ded684321ec427bf31db863672d0bc6db5e6a78e31476b9dd54dd
+size 1064

run-2/checkpoint-842/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-842/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-842/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-842/trainer_state.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "best_metric": 0.8830275229357798,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-sst2/run-2/checkpoint-842",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 842,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8761467889908257,
+      "eval_loss": 0.3037863075733185,
+      "eval_runtime": 2.2668,
+      "eval_samples_per_second": 384.685,
+      "eval_steps_per_second": 24.263,
+      "step": 421
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 24.56251335144043,
+      "learning_rate": 5.135971766809031e-05,
+      "loss": 0.3191,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8830275229357798,
+      "eval_loss": 0.4693216383457184,
+      "eval_runtime": 2.3381,
+      "eval_samples_per_second": 372.946,
+      "eval_steps_per_second": 23.523,
+      "step": 842
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 2105,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 146698802249040.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 6.735962971422436e-05,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 16,
+    "seed": 2
+  }
+}

run-2/checkpoint-842/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55dfbe476697181e66ebf5f3b6624f6c1c676b71c40c6125f531db2ed5ba1a72
+size 4920

run-2/checkpoint-842/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Mar03_17-42-01_90708aaa767a/events.out.tfevents.1709497917.90708aaa767a.21824.20 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:781cc6082e2c1d28081b76d85760483932c3583508940c692fa56ee99d2f4740
-size 5691

 version https://git-lfs.github.com/spec/v1
+oid sha256:260094bdc65ae9b917cf9364699fe4de0ca00cbcb590ea2df1a0a249c5d4033a
+size 7436