Training in progress, epoch 6

Browse files

Files changed (13) hide show

model.safetensors +1 -1
run-0/checkpoint-29754/config.json +25 -0
run-0/checkpoint-29754/model.safetensors +3 -0
run-0/checkpoint-29754/optimizer.pt +3 -0
run-0/checkpoint-29754/rng_state.pth +3 -0
run-0/checkpoint-29754/scheduler.pt +3 -0
run-0/checkpoint-29754/special_tokens_map.json +7 -0
run-0/checkpoint-29754/tokenizer.json +0 -0
run-0/checkpoint-29754/tokenizer_config.json +55 -0
run-0/checkpoint-29754/trainer_state.json +377 -0
run-0/checkpoint-29754/training_args.bin +3 -0
run-0/checkpoint-29754/vocab.txt +0 -0
runs/Dec01_16-51-56_516e27a14fd3/events.out.tfevents.1701452487.516e27a14fd3.673.8 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c6e300ac70152f03d19ced7d0dfe82a1cd3124ee21ea46db0804d09a8235306d
 size 267832560

 version https://git-lfs.github.com/spec/v1
+oid sha256:e197da63d4cf7d31f4b387a9b0ac791f72909fd4f9b57e58f8cc19c497534c0c
 size 267832560

run-0/checkpoint-29754/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "vocab_size": 30522
+}

run-0/checkpoint-29754/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e197da63d4cf7d31f4b387a9b0ac791f72909fd4f9b57e58f8cc19c497534c0c
+size 267832560

run-0/checkpoint-29754/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd364fa85c80144e2310a8089e2c927152197de62cb98685f7a75ed92c81d502
+size 535727290

run-0/checkpoint-29754/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de39b2426f04236313ed461af126680e6d67b51aa10d4604c23bc3926f96abdb
+size 14244

run-0/checkpoint-29754/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01eb1f7e40ffe6459ea5adf19eba4591bfab47c1676e4c9181965072cc765873
+size 1064

run-0/checkpoint-29754/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-29754/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-0/checkpoint-29754/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-0/checkpoint-29754/trainer_state.json ADDED Viewed

	@@ -0,0 +1,377 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0,
+  "eval_steps": 500,
+  "global_step": 29754,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019663910734691136,
+      "loss": 0.7019,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019327821469382269,
+      "loss": 0.6968,
+      "step": 1000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00018991732204073404,
+      "loss": 0.6953,
+      "step": 1500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00018655642938764536,
+      "loss": 0.6994,
+      "step": 2000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0001831955367345567,
+      "loss": 0.7019,
+      "step": 2500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00017983464408146804,
+      "loss": 0.6966,
+      "step": 3000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0001764737514283794,
+      "loss": 0.6943,
+      "step": 3500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00017311285877529074,
+      "loss": 0.6956,
+      "step": 4000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00016975196612220206,
+      "loss": 0.697,
+      "step": 4500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0001663910734691134,
+      "loss": 0.6944,
+      "step": 5000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00016303018081602474,
+      "loss": 0.6936,
+      "step": 5500
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0001596692881629361,
+      "loss": 0.6945,
+      "step": 6000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.00015630839550984742,
+      "loss": 0.6938,
+      "step": 6500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00015294750285675877,
+      "loss": 0.6937,
+      "step": 7000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00014958661020367012,
+      "loss": 0.6934,
+      "step": 7500
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.00014622571755058144,
+      "loss": 0.6946,
+      "step": 8000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00014286482489749277,
+      "loss": 0.6939,
+      "step": 8500
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00013950393224440412,
+      "loss": 0.6933,
+      "step": 9000
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00013614303959131547,
+      "loss": 0.6936,
+      "step": 9500
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0001327821469382268,
+      "loss": 0.6938,
+      "step": 10000
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 0.00012942125428513815,
+      "loss": 0.6939,
+      "step": 10500
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0001260603616320495,
+      "loss": 0.6936,
+      "step": 11000
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0001226994689789608,
+      "loss": 0.6934,
+      "step": 11500
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.00011933857632587216,
+      "loss": 0.6931,
+      "step": 12000
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0001159776836727835,
+      "loss": 0.6935,
+      "step": 12500
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.00011261679101969485,
+      "loss": 0.6935,
+      "step": 13000
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.00010925589836660617,
+      "loss": 0.6933,
+      "step": 13500
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.00010589500571351751,
+      "loss": 0.6936,
+      "step": 14000
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00010253411306042886,
+      "loss": 0.6933,
+      "step": 14500
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 9.91732204073402e-05,
+      "loss": 0.6932,
+      "step": 15000
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 9.581232775425152e-05,
+      "loss": 0.693,
+      "step": 15500
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 9.245143510116288e-05,
+      "loss": 0.6937,
+      "step": 16000
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 8.909054244807421e-05,
+      "loss": 0.6934,
+      "step": 16500
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 8.572964979498555e-05,
+      "loss": 0.693,
+      "step": 17000
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 8.236875714189689e-05,
+      "loss": 0.6937,
+      "step": 17500
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 7.900786448880824e-05,
+      "loss": 0.6935,
+      "step": 18000
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 7.564697183571957e-05,
+      "loss": 0.6933,
+      "step": 18500
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 7.22860791826309e-05,
+      "loss": 0.6925,
+      "step": 19000
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 6.892518652954225e-05,
+      "loss": 0.694,
+      "step": 19500
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 6.556429387645359e-05,
+      "loss": 0.6931,
+      "step": 20000
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 6.220340122336493e-05,
+      "loss": 0.6934,
+      "step": 20500
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 5.884250857027627e-05,
+      "loss": 0.6934,
+      "step": 21000
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 5.548161591718761e-05,
+      "loss": 0.6933,
+      "step": 21500
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 5.212072326409895e-05,
+      "loss": 0.6933,
+      "step": 22000
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 4.875983061101029e-05,
+      "loss": 0.6933,
+      "step": 22500
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 4.5398937957921626e-05,
+      "loss": 0.6935,
+      "step": 23000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 4.203804530483297e-05,
+      "loss": 0.6931,
+      "step": 23500
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 3.86771526517443e-05,
+      "loss": 0.6933,
+      "step": 24000
+    },
+    {
+      "epoch": 4.94,
+      "learning_rate": 3.531625999865564e-05,
+      "loss": 0.6931,
+      "step": 24500
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 3.1955367345566985e-05,
+      "loss": 0.6932,
+      "step": 25000
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 2.8594474692478323e-05,
+      "loss": 0.6933,
+      "step": 25500
+    },
+    {
+      "epoch": 5.24,
+      "learning_rate": 2.5233582039389664e-05,
+      "loss": 0.693,
+      "step": 26000
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 2.1872689386301002e-05,
+      "loss": 0.6933,
+      "step": 26500
+    },
+    {
+      "epoch": 5.44,
+      "learning_rate": 1.8511796733212343e-05,
+      "loss": 0.6932,
+      "step": 27000
+    },
+    {
+      "epoch": 5.55,
+      "learning_rate": 1.5150904080123683e-05,
+      "loss": 0.6931,
+      "step": 27500
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 1.179001142703502e-05,
+      "loss": 0.6932,
+      "step": 28000
+    },
+    {
+      "epoch": 5.75,
+      "learning_rate": 8.429118773946362e-06,
+      "loss": 0.6932,
+      "step": 28500
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 5.0682261208576995e-06,
+      "loss": 0.6934,
+      "step": 29000
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 1.7073334677690397e-06,
+      "loss": 0.6932,
+      "step": 29500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 29754,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "total_flos": 1.89697260437559e+16,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 0.0002,
+    "num_train_epochs": 6,
+    "weight_decay": 0.005
+  }
+}

run-0/checkpoint-29754/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63282809f1f1a653e90828ade20d71b6232fb78a3a1932c6cb6661fe169b687c
+size 4600

run-0/checkpoint-29754/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Dec01_16-51-56_516e27a14fd3/events.out.tfevents.1701452487.516e27a14fd3.673.8 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bc5ecd08fbef8b384274cf2290024fd12c420360a7eaac48ce77c758d9ca5e8
-size 12452

 version https://git-lfs.github.com/spec/v1
+oid sha256:bbe9e61614222aa01bd4759a44ac81feb7d8eb89ed55528605f3fe6fc781eb54
+size 14252