Spaces:

mattricesound
/

RemFx

Runtime error

App Files Files Community

mattricesound commited on Aug 30, 2023

Commit

08ea65f

•

1 Parent(s): 7e4b346

Remove hearbaseline

Browse files

Files changed (1) hide show

remfx/classifier.py +0 -63

remfx/classifier.py CHANGED Viewed

@@ -1,9 +1,6 @@
 import torch
 import torchaudio
 import torch.nn as nn
-import hearbaseline
-import hearbaseline.vggish
-import hearbaseline.wav2vec2
 import wav2clip_hear
 import panns_hear
@@ -68,66 +65,6 @@ class Wav2CLIP(nn.Module):
         return self.proj(embed)
-class VGGish(nn.Module):
-    def __init__(
-        self,
-        num_classes: int,
-        sample_rate: float,
-        hidden_dim: int = 256,
-    ):
-        super().__init__()
-        self.num_classes = num_classes
-        self.resample = torchaudio.transforms.Resample(
-            orig_freq=sample_rate, new_freq=16000
-        )
-        self.model = hearbaseline.vggish.load_model()
-        self.proj = torch.nn.Sequential(
-            torch.nn.Linear(128, hidden_dim),
-            torch.nn.ReLU(),
-            torch.nn.Linear(hidden_dim, hidden_dim),
-            torch.nn.ReLU(),
-            torch.nn.Linear(hidden_dim, num_classes),
-        )
-    def forward(self, x: torch.Tensor, **kwargs):
-        with torch.no_grad():
-            x = self.resample(x)
-            embed = hearbaseline.vggish.get_scene_embeddings(
-                x.view(x.shape[0], -1), self.model
-            )
-        return self.proj(embed)
-class wav2vec2(nn.Module):
-    def __init__(
-        self,
-        num_classes: int,
-        sample_rate: float,
-        hidden_dim: int = 256,
-    ):
-        super().__init__()
-        self.num_classes = num_classes
-        self.resample = torchaudio.transforms.Resample(
-            orig_freq=sample_rate, new_freq=16000
-        )
-        self.model = hearbaseline.wav2vec2.load_model()
-        self.proj = torch.nn.Sequential(
-            torch.nn.Linear(1024, hidden_dim),
-            torch.nn.ReLU(),
-            torch.nn.Linear(hidden_dim, hidden_dim),
-            torch.nn.ReLU(),
-            torch.nn.Linear(hidden_dim, num_classes),
-        )
-    def forward(self, x: torch.Tensor, **kwargs):
-        with torch.no_grad():
-            x = self.resample(x)
-            embed = hearbaseline.wav2vec2.get_scene_embeddings(
-                x.view(x.shape[0], -1), self.model
-            )
-        return self.proj(embed)
 # adapted from https://github.com/qiuqiangkong/audioset_tagging_cnn/blob/master/pytorch/models.py

 import torch
 import torchaudio
 import torch.nn as nn
 import wav2clip_hear
 import panns_hear
         return self.proj(embed)
 # adapted from https://github.com/qiuqiangkong/audioset_tagging_cnn/blob/master/pytorch/models.py