Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

config.json +39 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +55 -0
trainer_state.json +147 -0
training_args.bin +3 -0
vocab.txt +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "google-bert/bert-large-cased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "directionality": "bidi",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "pooler_fc_size": 768,
+  "pooler_num_attention_heads": 12,
+  "pooler_num_fc_layers": 3,
+  "pooler_size_per_head": 128,
+  "pooler_type": "first_token_transform",
+  "position_embedding_type": "absolute",
+  "problem_type": "regression",
+  "torch_dtype": "float32",
+  "transformers_version": "4.40.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 28996
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f52986feafd29ebe698933147e41bc97ae83fe1876112f759f4d90f0a65a5f8a
+size 1334368164

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:218b196c3c6e258eb230aefc185332d4983a95ca1f64a1e33991effba21b358c
+size 2668971245

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03e9b4d7933be04813e6791ebf5cf294f718c673ef7ef3d7765fffe01571e9c9
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b7a32cccd22173aa09d251e0d3a6e4adbecb5cf426421e170f6e8d5fb1ccafb3
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,147 @@

+{
+  "best_metric": 0.025636129081249237,
+  "best_model_checkpoint": "logs/google-bert/bert-large-cased_synt_flan_/checkpoint-4204",
+  "epoch": 7.0,
+  "eval_steps": 500,
+  "global_step": 7357,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.776539146900177,
+      "learning_rate": 1.900190294957184e-05,
+      "loss": 0.0605,
+      "step": 1051
+    },
+    {
+      "epoch": 1.0,
+      "eval_MAE": 0.1328457146883011,
+      "eval_R2": 0.5911350949440748,
+      "eval_RMSE": 0.18202443420886993,
+      "eval_loss": 0.033132895827293396,
+      "eval_runtime": 57.2605,
+      "eval_samples_per_second": 137.634,
+      "eval_steps_per_second": 2.305,
+      "step": 1051
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.3320234417915344,
+      "learning_rate": 1.800190294957184e-05,
+      "loss": 0.0315,
+      "step": 2102
+    },
+    {
+      "epoch": 2.0,
+      "eval_MAE": 0.12664468586444855,
+      "eval_R2": 0.6459152872970175,
+      "eval_RMSE": 0.1693921983242035,
+      "eval_loss": 0.02869371511042118,
+      "eval_runtime": 63.3854,
+      "eval_samples_per_second": 124.335,
+      "eval_steps_per_second": 2.082,
+      "step": 2102
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.6608996391296387,
+      "learning_rate": 1.7001902949571838e-05,
+      "loss": 0.0235,
+      "step": 3153
+    },
+    {
+      "epoch": 3.0,
+      "eval_MAE": 0.11449417471885681,
+      "eval_R2": 0.6718858103880652,
+      "eval_RMSE": 0.16306181252002716,
+      "eval_loss": 0.026589158922433853,
+      "eval_runtime": 63.2127,
+      "eval_samples_per_second": 124.674,
+      "eval_steps_per_second": 2.088,
+      "step": 3153
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.4667591452598572,
+      "learning_rate": 1.6002854424357757e-05,
+      "loss": 0.0183,
+      "step": 4204
+    },
+    {
+      "epoch": 4.0,
+      "eval_MAE": 0.11234939843416214,
+      "eval_R2": 0.6836463521967036,
+      "eval_RMSE": 0.16011285781860352,
+      "eval_loss": 0.025636129081249237,
+      "eval_runtime": 63.8057,
+      "eval_samples_per_second": 123.516,
+      "eval_steps_per_second": 2.069,
+      "step": 4204
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.5772440433502197,
+      "learning_rate": 1.5002854424357756e-05,
+      "loss": 0.0146,
+      "step": 5255
+    },
+    {
+      "epoch": 5.0,
+      "eval_MAE": 0.11249976605176926,
+      "eval_R2": 0.6823521370731253,
+      "eval_RMSE": 0.16044004261493683,
+      "eval_loss": 0.025741007179021835,
+      "eval_runtime": 63.9385,
+      "eval_samples_per_second": 123.259,
+      "eval_steps_per_second": 2.064,
+      "step": 5255
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5639244914054871,
+      "learning_rate": 1.4002854424357755e-05,
+      "loss": 0.012,
+      "step": 6306
+    },
+    {
+      "epoch": 6.0,
+      "eval_MAE": 0.11984019726514816,
+      "eval_R2": 0.6479695405721535,
+      "eval_RMSE": 0.16890010237693787,
+      "eval_loss": 0.02852724678814411,
+      "eval_runtime": 63.5115,
+      "eval_samples_per_second": 124.088,
+      "eval_steps_per_second": 2.078,
+      "step": 6306
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.34999290108680725,
+      "learning_rate": 1.3002854424357757e-05,
+      "loss": 0.0099,
+      "step": 7357
+    },
+    {
+      "epoch": 7.0,
+      "eval_MAE": 0.11679080128669739,
+      "eval_R2": 0.6535357331636864,
+      "eval_RMSE": 0.16755947470664978,
+      "eval_loss": 0.028076183050870895,
+      "eval_runtime": 63.3285,
+      "eval_samples_per_second": 124.446,
+      "eval_steps_per_second": 2.084,
+      "step": 7357
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 21020,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 2.052312281323627e+17,
+  "train_batch_size": 30,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34c371369a4481c1f59cc1dd5af99f489f51884aad74eda96d85d43972b162db
+size 5048

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff