Ouafae commited on Nov 18, 2024

Commit

992d224

verified ·

1 Parent(s): 7c48670

Training in progress, step 1000

Browse files

Files changed (25) hide show

model.safetensors +1 -1
run-3/checkpoint-1000/config.json +24 -0
run-3/checkpoint-1000/model.safetensors +3 -0
run-3/checkpoint-1000/optimizer.pt +3 -0
run-3/checkpoint-1000/rng_state.pth +3 -0
run-3/checkpoint-1000/scheduler.pt +3 -0
run-3/checkpoint-1000/special_tokens_map.json +7 -0
run-3/checkpoint-1000/tokenizer.json +0 -0
run-3/checkpoint-1000/tokenizer_config.json +55 -0
run-3/checkpoint-1000/trainer_state.json +197 -0
run-3/checkpoint-1000/training_args.bin +3 -0
run-3/checkpoint-1000/vocab.txt +0 -0
run-3/checkpoint-500/config.json +24 -0
run-3/checkpoint-500/model.safetensors +3 -0
run-3/checkpoint-500/optimizer.pt +3 -0
run-3/checkpoint-500/rng_state.pth +3 -0
run-3/checkpoint-500/scheduler.pt +3 -0
run-3/checkpoint-500/special_tokens_map.json +7 -0
run-3/checkpoint-500/tokenizer.json +0 -0
run-3/checkpoint-500/tokenizer_config.json +55 -0
run-3/checkpoint-500/trainer_state.json +122 -0
run-3/checkpoint-500/training_args.bin +3 -0
run-3/checkpoint-500/vocab.txt +0 -0
runs/Nov18_10-11-09_aa151f0a91fc/events.out.tfevents.1731925772.aa151f0a91fc.1516.3 +3 -0
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1d7e8d2dd07702b4bd327bc54d3ec6482e628f8402c7643ac9ea85019abc937
 size 265470032

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e115a1f2b1f262906bc019b4c3a75cf162328368642d9948324a4022903ce93
 size 265470032

run-3/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForQuestionAnswering"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.1",
+  "vocab_size": 30522
+}

run-3/checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e115a1f2b1f262906bc019b4c3a75cf162328368642d9948324a4022903ce93
+size 265470032

run-3/checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:149eddd028ff8737a104817cf51db47229b4d3e0cd30f0046d9355a32ec0d442
+size 531000890

run-3/checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1be407aee374c47b0e85e18bbf5b9c9e967168b3c154062df47e4b3979b4b71
+size 14244

run-3/checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c79ab14cc74cd5c43d73a3d8e4a2671bb0d21d513d630a577792e0955941149
+size 1064

run-3/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,197 @@

+{
+  "best_metric": 1.625908613204956,
+  "best_model_checkpoint": "qa_finetuning/run-3/checkpoint-1000",
+  "epoch": 1.6,
+  "eval_steps": 100,
+  "global_step": 1000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.762316703796387,
+      "learning_rate": 4.309025425308167e-05,
+      "loss": 3.9927,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 3.2011678218841553,
+      "eval_runtime": 3.8548,
+      "eval_samples_per_second": 129.707,
+      "eval_steps_per_second": 4.151,
+      "step": 100
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 28.462312698364258,
+      "learning_rate": 4.066263429516157e-05,
+      "loss": 2.9504,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 2.258704900741577,
+      "eval_runtime": 3.6383,
+      "eval_samples_per_second": 137.425,
+      "eval_steps_per_second": 4.398,
+      "step": 200
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 31.754859924316406,
+      "learning_rate": 3.823501433724148e-05,
+      "loss": 2.2188,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 1.7734456062316895,
+      "eval_runtime": 3.6015,
+      "eval_samples_per_second": 138.831,
+      "eval_steps_per_second": 4.443,
+      "step": 300
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 19.329771041870117,
+      "learning_rate": 3.580739437932139e-05,
+      "loss": 1.8494,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 1.7346322536468506,
+      "eval_runtime": 3.7979,
+      "eval_samples_per_second": 131.653,
+      "eval_steps_per_second": 4.213,
+      "step": 400
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 36.452842712402344,
+      "learning_rate": 3.3379774421401294e-05,
+      "loss": 1.6365,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.7207331657409668,
+      "eval_runtime": 3.6332,
+      "eval_samples_per_second": 137.618,
+      "eval_steps_per_second": 4.404,
+      "step": 500
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 22.892818450927734,
+      "learning_rate": 3.09521544634812e-05,
+      "loss": 1.5395,
+      "step": 600
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 1.6212908029556274,
+      "eval_runtime": 3.7235,
+      "eval_samples_per_second": 134.282,
+      "eval_steps_per_second": 4.297,
+      "step": 600
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 13.673020362854004,
+      "learning_rate": 2.852453450556111e-05,
+      "loss": 1.0662,
+      "step": 700
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 1.726162075996399,
+      "eval_runtime": 3.7463,
+      "eval_samples_per_second": 133.467,
+      "eval_steps_per_second": 4.271,
+      "step": 700
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 7.783051013946533,
+      "learning_rate": 2.6096914547641013e-05,
+      "loss": 1.0033,
+      "step": 800
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 1.6507431268692017,
+      "eval_runtime": 3.6574,
+      "eval_samples_per_second": 136.709,
+      "eval_steps_per_second": 4.375,
+      "step": 800
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 11.287247657775879,
+      "learning_rate": 2.3669294589720917e-05,
+      "loss": 0.9921,
+      "step": 900
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 1.621005654335022,
+      "eval_runtime": 3.664,
+      "eval_samples_per_second": 136.464,
+      "eval_steps_per_second": 4.367,
+      "step": 900
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 25.076732635498047,
+      "learning_rate": 2.1241674631800824e-05,
+      "loss": 0.9504,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.625908613204956,
+      "eval_runtime": 3.6844,
+      "eval_samples_per_second": 135.705,
+      "eval_steps_per_second": 4.343,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 1875,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 783918600192000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 4.5517874211001764e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 4,
+    "seed": 18
+  }
+}

run-3/checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a37f5b8dfa12292086ae10710a829db6ed3942399f7b20f71f43f3abb90d0284
+size 5176

run-3/checkpoint-1000/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_name_or_path": "distilbert/distilbert-base-uncased",
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForQuestionAnswering"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "initializer_range": 0.02,
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "pad_token_id": 0,
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.45.1",
+  "vocab_size": 30522
+}

run-3/checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b5799ac5df1a354959361276a5b54b22115730cf0e62685b0c264c9ed68c368
+size 265470032

run-3/checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4c2a32cbc39e35856cf7ab2ef0a760117efc4cf2a76c1693982a48a3d1d6f8d
+size 531000890

run-3/checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4334d55d9c43a37841f26152404ea24de39e1cf46b71dc26c4dcca440a966a9
+size 14244

run-3/checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bf30a3225ec0fb84ce67dfd628a7918ea70bf7b66c1b18dd51144431641b211
+size 1064

run-3/checkpoint-500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-3/checkpoint-500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

run-3/checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,122 @@

+{
+  "best_metric": 1.7207331657409668,
+  "best_model_checkpoint": "qa_finetuning/run-3/checkpoint-500",
+  "epoch": 0.8,
+  "eval_steps": 100,
+  "global_step": 500,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "grad_norm": 10.762316703796387,
+      "learning_rate": 4.309025425308167e-05,
+      "loss": 3.9927,
+      "step": 100
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 3.2011678218841553,
+      "eval_runtime": 3.8548,
+      "eval_samples_per_second": 129.707,
+      "eval_steps_per_second": 4.151,
+      "step": 100
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 28.462312698364258,
+      "learning_rate": 4.066263429516157e-05,
+      "loss": 2.9504,
+      "step": 200
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 2.258704900741577,
+      "eval_runtime": 3.6383,
+      "eval_samples_per_second": 137.425,
+      "eval_steps_per_second": 4.398,
+      "step": 200
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 31.754859924316406,
+      "learning_rate": 3.823501433724148e-05,
+      "loss": 2.2188,
+      "step": 300
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 1.7734456062316895,
+      "eval_runtime": 3.6015,
+      "eval_samples_per_second": 138.831,
+      "eval_steps_per_second": 4.443,
+      "step": 300
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 19.329771041870117,
+      "learning_rate": 3.580739437932139e-05,
+      "loss": 1.8494,
+      "step": 400
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 1.7346322536468506,
+      "eval_runtime": 3.7979,
+      "eval_samples_per_second": 131.653,
+      "eval_steps_per_second": 4.213,
+      "step": 400
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 36.452842712402344,
+      "learning_rate": 3.3379774421401294e-05,
+      "loss": 1.6365,
+      "step": 500
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.7207331657409668,
+      "eval_runtime": 3.6332,
+      "eval_samples_per_second": 137.618,
+      "eval_steps_per_second": 4.404,
+      "step": 500
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 1875,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 391959300096000.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 4.5517874211001764e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 4,
+    "seed": 18
+  }
+}

run-3/checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a37f5b8dfa12292086ae10710a829db6ed3942399f7b20f71f43f3abb90d0284
+size 5176

run-3/checkpoint-500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Nov18_10-11-09_aa151f0a91fc/events.out.tfevents.1731925772.aa151f0a91fc.1516.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d1866a9ec9e8ac7c02631f853bfe3c07ffcd19a2b1c14af6699f0cc73e89e758
+size 9854

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5fb29d5e5fdea6fd35a82dd220c30b7f0a3ade055b8a015b599470bf6f5a85a
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:a37f5b8dfa12292086ae10710a829db6ed3942399f7b20f71f43f3abb90d0284
 size 5176