Aniemore
/

wavlm-bert-tiny2-s-emotion-russian-resd

Feature Extraction

Model card Files Files and versions Community

Ar4ikov commited on May 14, 2023

Commit

3fb246b

•

1 Parent(s): fe1da3d

Update audio_text_multimodal.py

Files changed (1) hide show

audio_text_multimodal.py +17 -2

audio_text_multimodal.py CHANGED Viewed

@@ -14,6 +14,14 @@ from transformers import (
     Wav2Vec2Model
 )
 class MultiModalConfig(PretrainedConfig):
     """Base class for multimodal configs"""
@@ -170,7 +178,7 @@ class AudioTextModelForSequenceBaseClassification(BaseClassificationModel):
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
         )
-        audio_mean = self.merged_strategy(audio_output.last_hidden_state, mode="mean")
         pooled_output = torch.cat(
             (audio_mean, text_output.pooler_output), dim=1
@@ -205,6 +213,8 @@ class WavLMBertForSequenceClassification(AudioTextModelForSequenceBaseClassifica
     """
     def __init__(self, config):
         super().__init__(config)
         self.audio_config = WavLMConfig.from_dict(self.config.WavLMModel)
         self.text_config = BertConfig.from_dict(self.config.BertModel)
         self.audio_model = WavLMModel(self.audio_config)
@@ -212,4 +222,9 @@ class WavLMBertForSequenceClassification(AudioTextModelForSequenceBaseClassifica
         self.classifier = torch.nn.Linear(
             self.audio_config.hidden_size + self.text_config.hidden_size, self.num_labels
         )
-        self.init_weights()

     Wav2Vec2Model
 )
+from transformers.models.wavlm.modeling_wavlm import (
+    WavLMEncoder,
+    WavLMEncoderStableLayerNorm,
+    WavLMFeatureEncoder
+)
+from transformers.models.bert.modeling_bert import BertEncoder
 class MultiModalConfig(PretrainedConfig):
     """Base class for multimodal configs"""
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
         )
+        audio_mean = self.merged_strategy(audio_output.last_hidden_state, mode=self.config.pooling_mode)
         pooled_output = torch.cat(
             (audio_mean, text_output.pooler_output), dim=1
     """
     def __init__(self, config):
         super().__init__(config)
+        self.supports_gradient_checkpointing = getattr(config, "gradient_checkpointing", True)
         self.audio_config = WavLMConfig.from_dict(self.config.WavLMModel)
         self.text_config = BertConfig.from_dict(self.config.BertModel)
         self.audio_model = WavLMModel(self.audio_config)
         self.classifier = torch.nn.Linear(
             self.audio_config.hidden_size + self.text_config.hidden_size, self.num_labels
         )
+        self.init_weights()
+    @staticmethod
+    def _set_gradient_checkpointing(module, value=False):
+        if isinstance(module, (WavLMEncoder, WavLMEncoderStableLayerNorm, WavLMFeatureEncoder, BertEncoder)):
+            module.gradient_checkpointing = value