Training in progress, step 51

Files changed (7) hide show

config.json CHANGED Viewed

@@ -1,34 +1,27 @@
 {
-  "_name_or_path": "Salesforce/codet5-base",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
   "bos_token_id": 1,
   "classifier_dropout": 0.0,
-  "d_ff": 3072,
   "d_kv": 64,
-  "d_model": 768,
   "decoder_start_token_id": 0,
   "dense_act_fn": "relu",
   "dropout_rate": 0.1,
   "eos_token_id": 2,
   "feed_forward_proj": "relu",
-  "gradient_checkpointing": false,
-  "id2label": {
-    "0": "LABEL_0"
-  },
   "initializer_factor": 1.0,
   "is_encoder_decoder": true,
   "is_gated_act": false,
-  "label2id": {
-    "LABEL_0": 0
-  },
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "n_positions": 512,
-  "num_decoder_layers": 12,
-  "num_heads": 12,
-  "num_layers": 12,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,

 {
+  "_name_or_path": "Salesforce/codet5-large",
   "architectures": [
     "T5ForConditionalGeneration"
   ],
   "bos_token_id": 1,
   "classifier_dropout": 0.0,
+  "d_ff": 4096,
   "d_kv": 64,
+  "d_model": 1024,
   "decoder_start_token_id": 0,
   "dense_act_fn": "relu",
   "dropout_rate": 0.1,
   "eos_token_id": 2,
   "feed_forward_proj": "relu",
   "initializer_factor": 1.0,
   "is_encoder_decoder": true,
   "is_gated_act": false,
   "layer_norm_epsilon": 1e-06,
   "model_type": "t5",
   "n_positions": 512,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
   "output_past": true,
   "pad_token_id": 0,
   "relative_attention_max_distance": 128,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:754b910ff1077b74080eed90847b8f090b65d59930d2bb16d05ddf0565375019
-size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:720bfea98fca48e96682b4c3a6cb448828500841e1d299b49cee8e1af51bc04d
+size 2950619856

runs/Sep09_10-46-21_755e39708fda/events.out.tfevents.1725878783.755e39708fda.2610.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e3e7ae43e7c4fb40dcd8241ca5196867cc5942a090426958045554130af3b1f
+size 6305

tokenizer.json CHANGED Viewed

@@ -1,7 +1,21 @@
 {
   "version": "1.0",
-  "truncation": null,
-  "padding": null,
   "added_tokens": [
     {
       "id": 0,

 {
   "version": "1.0",
+  "truncation": {
+    "direction": "Right",
+    "max_length": 128,
+    "strategy": "LongestFirst",
+    "stride": 0
+  },
+  "padding": {
+    "strategy": {
+      "Fixed": 128
+    },
+    "direction": "Right",
+    "pad_to_multiple_of": null,
+    "pad_id": 2,
+    "pad_type_id": 0,
+    "pad_token": "</s>"
+  },
   "added_tokens": [
     {
       "id": 0,

tokenizer_config.json CHANGED Viewed

@@ -954,5 +954,6 @@
   "pad_token": "</s>",
   "sep_token": "</s>",
   "tokenizer_class": "RobertaTokenizer",
   "unk_token": "<unk>"
 }

   "pad_token": "</s>",
   "sep_token": "</s>",
   "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
   "unk_token": "<unk>"
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99a0d67f8c49678e8de7db79af09ad15d5ea2f732aeb1099d13a236c850ad578
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7a0313e63b04100cb7d119efc1504559961c46ea528ca6b326ca39112459bd3
 size 5368

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff