Update configurations

Browse files

Files changed (2) hide show

backpack_config.py +18 -12
config.json +82 -1

backpack_config.py CHANGED Viewed

@@ -2,16 +2,22 @@ from transformers import GPT2Config
 class BackpackGPT2Config(GPT2Config):
-  model_type = 'backpack-gpt2'
-  def __init__(self,
-               vocab_size=50264,
-               num_senses=16,
-               sense_intermediate_scale=4,
-               n_positions=512,
-               scale_attn_by_inverse_layer_idx=True,
-               **kwargs,
-  ):
-    self.num_senses = num_senses
-    self.sense_intermediate_scale = sense_intermediate_scale
-    super().__init__(vocab_size=vocab_size, n_positions=n_positions, scale_attn_by_inverse_layer_idx=scale_attn_by_inverse_layer_idx, **kwargs)

 class BackpackGPT2Config(GPT2Config):
+    model_type = "backpack-gpt2"
+    def __init__(
+        self,
+        num_senses: int = 16,
+        sense_intermediate_scale: int = 4,
+        vocab_size: int = 50264,
+        n_positions: int = 512,
+        scale_attn_by_inverse_layer_idx: bool = True,
+        **kwargs,
+    ):
+        self.num_senses = num_senses
+        self.sense_intermediate_scale = sense_intermediate_scale
+        super().__init__(
+            vocab_size=vocab_size,
+            n_positions=n_positions,
+            scale_attn_by_inverse_layer_idx=scale_attn_by_inverse_layer_idx,
+            **kwargs,
+        )

config.json CHANGED Viewed

	@@ -1 +1,82 @@
1	- {"return_dict": true, "output_hidden_states": false, "output_attentions": false, "torchscript": false, "torch_dtype": null, "use_bfloat16": false, "tf_legacy_loss": false, "pruned_heads": {}, "tie_word_embeddings": true, "is_encoder_decoder": false, "is_decoder": false, "cross_attention_hidden_size": null, "add_cross_attention": false, "tie_encoder_decoder": false, "max_length": 20, "min_length": 0, "do_sample": false, "early_stopping": false, "num_beams": 1, "num_beam_groups": 1, "diversity_penalty": 0.0, "temperature": 1.0, "top_k": 50, "top_p": 1.0, "typical_p": 1.0, "repetition_penalty": 1.0, "length_penalty": 1.0, "no_repeat_ngram_size": 0, "encoder_no_repeat_ngram_size": 0, "bad_words_ids": null, "num_return_sequences": 1, "chunk_size_feed_forward": 0, "output_scores": false, "return_dict_in_generate": false, "forced_bos_token_id": null, "forced_eos_token_id": null, "remove_invalid_values": false, "exponential_decay_length_penalty": null, "suppress_tokens": null, "begin_suppress_tokens": null, "architectures": null, "finetuning_task": null, "id2label": {"0": "LABEL_0", "1": "LABEL_1"}, "label2id": {"LABEL_0": 0, "LABEL_1": 1}, "tokenizer_class": null, "prefix": null, "bos_token_id": null, "pad_token_id": null, "eos_token_id": null, "sep_token_id": null, "decoder_start_token_id": null, "task_specific_params": null, "problem_type": null, "_name_or_path": "", "transformers_version": "4.29.2", "vocab_size": 50264, "n_positions": 512, "n_layer": 36, "n_head": 20, "n_embd": 1280, "initializer_range": 0.02, "attn_pdrop": 0.0, "embd_pdrop": 0.0, "layer_norm_epsilon": 1e-05, "activation_function": "gelu_new", "scale_attn_by_inverse_layer_idx": true, "reorder_and_upcast_attn": false, "auto_map": {"AutoConfig": "backpack_config.BackpackGPT2Config", "AutoModelForCausalLM": "backpack_model.BackpackGPT2Model"}, "model_type": "backpack-gpt2"}

+{
+    "return_dict": true,
+    "output_hidden_states": false,
+    "output_attentions": false,
+    "torchscript": false,
+    "torch_dtype": null,
+    "use_bfloat16": false,
+    "tf_legacy_loss": false,
+    "pruned_heads": {},
+    "tie_word_embeddings": true,
+    "is_encoder_decoder": false,
+    "is_decoder": false,
+    "cross_attention_hidden_size": null,
+    "add_cross_attention": false,
+    "tie_encoder_decoder": false,
+    "max_length": 20,
+    "min_length": 0,
+    "do_sample": false,
+    "early_stopping": false,
+    "num_beams": 1,
+    "num_beam_groups": 1,
+    "diversity_penalty": 0.0,
+    "temperature": 1.0,
+    "top_k": 50,
+    "top_p": 1.0,
+    "typical_p": 1.0,
+    "repetition_penalty": 1.0,
+    "length_penalty": 1.0,
+    "no_repeat_ngram_size": 0,
+    "encoder_no_repeat_ngram_size": 0,
+    "bad_words_ids": null,
+    "num_return_sequences": 1,
+    "chunk_size_feed_forward": 0,
+    "output_scores": false,
+    "return_dict_in_generate": false,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "remove_invalid_values": false,
+    "exponential_decay_length_penalty": null,
+    "suppress_tokens": null,
+    "begin_suppress_tokens": null,
+    "architectures": null,
+    "finetuning_task": null,
+    "id2label": {
+        "0": "LABEL_0",
+        "1": "LABEL_1"
+    },
+    "label2id": {
+        "LABEL_0": 0,
+        "LABEL_1": 1
+    },
+    "tokenizer_class": null,
+    "prefix": null,
+    "bos_token_id": null,
+    "pad_token_id": null,
+    "eos_token_id": null,
+    "sep_token_id": null,
+    "decoder_start_token_id": null,
+    "task_specific_params": null,
+    "problem_type": null,
+    "_name_or_path": "",
+    "transformers_version": "4.29.2",
+    "vocab_size": 50264,
+    "n_positions": 512,
+    "n_layer": 12,
+    "n_head": 12,
+    "n_embd": 768,
+    "initializer_range": 0.02,
+    "attn_pdrop": 0.0,
+    "embd_pdrop": 0.0,
+    "layer_norm_epsilon": 1e-05,
+    "activation_function": "gelu_new",
+    "scale_attn_by_inverse_layer_idx": true,
+    "reorder_and_upcast_attn": false,
+    "num_senses": 16,
+    "sense_intermediate_scale": 4,
+    "auto_map": {
+        "AutoConfig": "backpack_config.BackpackGPT2Config",
+        "AutoModelForCausalLM": "backpack_model.BackpackGPT2Model"
+    },
+    "model_type": "backpack-gpt2"
+}