jinaai
/

xlm-roberta-flash-implementation

fix mixed precision loading with recent transformers versions

#39

by jupyterjazz - opened Aug 27, 2024

←

Files changed (1) hide show

modeling_xlm_roberta.py CHANGED Viewed

@@ -404,6 +404,7 @@ class XLMRobertaPreTrainedModel(PreTrainedModel):
     config_class = XLMRobertaFlashConfig
     base_model_prefix = "roberta"
     supports_gradient_checkpointing = True
     def _set_gradient_checkpointing(self, module, value=False):
         if isinstance(module, XLMRobertaEncoder):

     config_class = XLMRobertaFlashConfig
     base_model_prefix = "roberta"
     supports_gradient_checkpointing = True
+    _supports_param_buffer_assignment = False
     def _set_gradient_checkpointing(self, module, value=False):
         if isinstance(module, XLMRobertaEncoder):