daslab-testing
/

CloverLM

Text Generation

low-precision-training

Model card Files Files and versions

mansaripo commited on 14 days ago

Commit

f2ef64c

·

verified ·

1 Parent(s): 4781880

Update modeling_cloverlm.py

Files changed (1) hide show

modeling_cloverlm.py +4 -1

modeling_cloverlm.py CHANGED Viewed

@@ -209,11 +209,13 @@ class CloverLMForCausalLM(PreTrainedModel, GenerationMixin):
     config_class = CloverLMConfig
     supports_gradient_checkpointing = False
     _no_split_modules = ["_Block"]
-    _tied_weights_keys = {"transformer.linear.weight": "transformer.emb.weight"}
     _tp_plan = {}
     def __init__(self, config: CloverLMConfig):
         super().__init__(config)
         self.transformer = _Transformer(
             vocab_size=config.vocab_size,
             num_blocks=config.num_blocks,
@@ -226,6 +228,7 @@ class CloverLMForCausalLM(PreTrainedModel, GenerationMixin):
             weight_tying=config.weight_tying,
             attn_backend=config.attn_backend,
         )
     def forward(self, input_ids, attention_mask=None, labels=None, **kwargs):
         logits = self.transformer(input_ids)

     config_class = CloverLMConfig
     supports_gradient_checkpointing = False
     _no_split_modules = ["_Block"]
+    _tied_weights_keys = ["transformer.linear.weight"]
     _tp_plan = {}
     def __init__(self, config: CloverLMConfig):
         super().__init__(config)
+        self.all_tied_weights_keys = {k: "transformer.emb.weight"
+                                      for k in (self._tied_weights_keys or [])}
         self.transformer = _Transformer(
             vocab_size=config.vocab_size,
             num_blocks=config.num_blocks,
             weight_tying=config.weight_tying,
             attn_backend=config.attn_backend,
         )
+        self.post_init()
     def forward(self, input_ids, attention_mask=None, labels=None, **kwargs):
         logits = self.transformer(input_ids)