Ar4l commited on Sep 17

Commit

83b0efe

•

1 Parent(s): ebc2644

Upload folder using huggingface_hub

Browse files

Files changed (21) hide show

all_results.json +17 -0
checkpoint-140/config.json +33 -0
checkpoint-140/model.safetensors +3 -0
checkpoint-140/optimizer.pt +3 -0
checkpoint-140/rng_state.pth +3 -0
checkpoint-140/scheduler.pt +3 -0
checkpoint-140/special_tokens_map.json +30 -0
checkpoint-140/tokenizer.json +0 -0
checkpoint-140/tokenizer_config.json +67 -0
checkpoint-140/trainer_state.json +64 -0
checkpoint-140/training_args.bin +3 -0
config.json +33 -0
eval_results.json +11 -0
model.safetensors +3 -0
predictions.txt +53 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer_config.json +67 -0
train_results.json +9 -0
trainer_state.json +106 -0
training_args.bin +3 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.6153846383094788,
+    "eval_f1": 0.47368421052631576,
+    "eval_loss": 0.6848027110099792,
+    "eval_mcc": 0.17256712249065836,
+    "eval_runtime": 0.1138,
+    "eval_samples": 52,
+    "eval_samples_per_second": 456.859,
+    "eval_steps_per_second": 61.5,
+    "total_flos": 163423735633920.0,
+    "train_loss": 0.7042514474051339,
+    "train_runtime": 33.2199,
+    "train_samples": 554,
+    "train_samples_per_second": 333.536,
+    "train_steps_per_second": 42.143
+}

checkpoint-140/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 8,
+  "pad_token_id": 3,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": null,
+  "position_biased_input": true,
+  "relative_attention": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 0,
+  "vocab_size": 6144
+}

checkpoint-140/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4be62a77ab9dedd098777ad54755f3a8d9eb3e26d6b7474ff9b99866cc9718c
+size 174103504

checkpoint-140/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:807a6867e65c07bd7f0b0feed36bff29ed7574dd35edcb7ae3696b5e9f02f01f
+size 348288250

checkpoint-140/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ef6a994db5bb1ef20bc55033427d0b425bf9998852b81744fdc8bb4262e3d6d
+size 14244

checkpoint-140/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50792edf44512d0536e32cea049bc3f5b58cbcd3e88ef4b503aa86670047127c
+size 1064

checkpoint-140/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-140/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-140/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[PAR]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "[TAB]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

checkpoint-140/trainer_state.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "best_metric": 0.47368421052631576,
+  "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/wsc/checkpoint-140",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 140,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6153846383094788,
+      "eval_f1": 0.0,
+      "eval_loss": 0.6650720834732056,
+      "eval_mcc": 0.0,
+      "eval_runtime": 0.1205,
+      "eval_samples_per_second": 431.51,
+      "eval_steps_per_second": 58.088,
+      "step": 70
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6153846383094788,
+      "eval_f1": 0.47368421052631576,
+      "eval_loss": 0.6848027110099792,
+      "eval_mcc": 0.17256712249065836,
+      "eval_runtime": 0.096,
+      "eval_samples_per_second": 541.411,
+      "eval_steps_per_second": 72.882,
+      "step": 140
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1400,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 65369494253568.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-140/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d0fbc45d3adb0d70b538cfee67e5365bd5c29a4be56d5a6c0bc6f25d0772611
+size 5368

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "/home/ubuntu/utah/babylm-24/data/training/models/10M_babylm_ascii/SPM-Unigram_6144/DebertaV2-Base-10M_babylm-A",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "0": 0,
+    "1": 1
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 8,
+  "pad_token_id": 3,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": null,
+  "position_biased_input": true,
+  "relative_attention": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.2",
+  "type_vocab_size": 0,
+  "vocab_size": 6144
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.6153846383094788,
+    "eval_f1": 0.47368421052631576,
+    "eval_loss": 0.6848027110099792,
+    "eval_mcc": 0.17256712249065836,
+    "eval_runtime": 0.1138,
+    "eval_samples": 52,
+    "eval_samples_per_second": 456.859,
+    "eval_steps_per_second": 61.5
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4be62a77ab9dedd098777ad54755f3a8d9eb3e26d6b7474ff9b99866cc9718c
+size 174103504

predictions.txt ADDED Viewed

	@@ -0,0 +1,53 @@

+index	prediction
+0	1
+1	0
+2	0
+3	0
+4	1
+5	0
+6	0
+7	1
+8	0
+9	0
+10	1
+11	1
+12	0
+13	1
+14	0
+15	1
+16	1
+17	0
+18	0
+19	0
+20	0
+21	0
+22	1
+23	0
+24	1
+25	0
+26	1
+27	0
+28	0
+29	0
+30	1
+31	1
+32	0
+33	0
+34	1
+35	1
+36	0
+37	0
+38	1
+39	1
+40	0
+41	0
+42	0
+43	0
+44	0
+45	0
+46	0
+47	1
+48	0
+49	0
+50	0
+51	0

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[PAR]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "[TAB]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "tokenizer_class": "PreTrainedTokenizerFast"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 5.0,
+    "total_flos": 163423735633920.0,
+    "train_loss": 0.7042514474051339,
+    "train_runtime": 33.2199,
+    "train_samples": 554,
+    "train_samples_per_second": 333.536,
+    "train_steps_per_second": 42.143
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,106 @@

+{
+  "best_metric": 0.47368421052631576,
+  "best_model_checkpoint": "/home/ubuntu/utah/babylm-24/src/evaluation/results/finetune/DebertaV2-Base-10M_babylm-A/wsc/checkpoint-140",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 350,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6153846383094788,
+      "eval_f1": 0.0,
+      "eval_loss": 0.6650720834732056,
+      "eval_mcc": 0.0,
+      "eval_runtime": 0.1205,
+      "eval_samples_per_second": 431.51,
+      "eval_steps_per_second": 58.088,
+      "step": 70
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6153846383094788,
+      "eval_f1": 0.47368421052631576,
+      "eval_loss": 0.6848027110099792,
+      "eval_mcc": 0.17256712249065836,
+      "eval_runtime": 0.096,
+      "eval_samples_per_second": 541.411,
+      "eval_steps_per_second": 72.882,
+      "step": 140
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5961538553237915,
+      "eval_f1": 0.16,
+      "eval_loss": 0.6839962005615234,
+      "eval_mcc": 0.010314212462587935,
+      "eval_runtime": 0.0965,
+      "eval_samples_per_second": 539.131,
+      "eval_steps_per_second": 72.575,
+      "step": 210
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6153846383094788,
+      "eval_f1": 0.0,
+      "eval_loss": 0.6632354259490967,
+      "eval_mcc": 0.0,
+      "eval_runtime": 0.0974,
+      "eval_samples_per_second": 533.999,
+      "eval_steps_per_second": 71.884,
+      "step": 280
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6153846383094788,
+      "eval_f1": 0.0,
+      "eval_loss": 0.6646058559417725,
+      "eval_mcc": 0.0,
+      "eval_runtime": 0.0979,
+      "eval_samples_per_second": 530.989,
+      "eval_steps_per_second": 71.479,
+      "step": 350
+    },
+    {
+      "epoch": 5.0,
+      "step": 350,
+      "total_flos": 163423735633920.0,
+      "train_loss": 0.7042514474051339,
+      "train_runtime": 33.2199,
+      "train_samples_per_second": 333.536,
+      "train_steps_per_second": 42.143
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 1400,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 3,
+        "early_stopping_threshold": 0.001
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 163423735633920.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d0fbc45d3adb0d70b538cfee67e5365bd5c29a4be56d5a6c0bc6f25d0772611
+size 5368