Raghavan
/

indictrans2-indic-en-dist-200M

text2text-generation

Model card Files Files and versions Community

Raghavan commited on Dec 6, 2023

Commit

2af0a6c

•

1 Parent(s): 814f361

Upload 7 files

Files changed (1) hide show

modeling_indictrans.py +2 -2

modeling_indictrans.py CHANGED Viewed

@@ -691,7 +691,7 @@ class IndicTransEncoder(IndicTransPreTrainedModel):
         if self.layernorm_embedding is not None:
             x = self.layernorm_embedding(hidden_states)
         hidden_states = F.dropout(hidden_states, p=self.dropout, training=self.training)
         # expand attention_mask
         if attention_mask is not None:
             # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
@@ -756,7 +756,7 @@ class IndicTransEncoder(IndicTransPreTrainedModel):
         if output_hidden_states:
             encoder_states = encoder_states + (hidden_states,)
-        hidden_states = self.get_pooled_representation(hidden_states, attention_mask)
         if not return_dict:
             return tuple(v for v in [hidden_states, encoder_states, all_attentions] if v is not None)

         if self.layernorm_embedding is not None:
             x = self.layernorm_embedding(hidden_states)
         hidden_states = F.dropout(hidden_states, p=self.dropout, training=self.training)
+        original_attention_mask = attention_mask.clone()
         # expand attention_mask
         if attention_mask is not None:
             # [bsz, seq_len] -> [bsz, 1, tgt_seq_len, src_seq_len]
         if output_hidden_states:
             encoder_states = encoder_states + (hidden_states,)
+        hidden_states = self.get_pooled_representation(hidden_states, original_attention_mask)
         if not return_dict:
             return tuple(v for v in [hidden_states, encoder_states, all_attentions] if v is not None)