vocos-bark

Sleeping

ylacombe commited on Oct 13, 2023

Commit

4c64218

1 Parent(s): fc22820

Update utils/voco_bark.py

Files changed (1) hide show

utils/voco_bark.py CHANGED Viewed

@@ -1,11 +1,19 @@
 from vocos import Vocos
-from transformers.models.bark import BarkSemanticModel, BarkCoarseModel, BarkFineModel
 from transformers.models.bark.generation_configuration_bark import (
     BarkCoarseGenerationConfig,
     BarkFineGenerationConfig,
     BarkSemanticGenerationConfig,
 )
 from transformers import BarkConfig
 import torch
 class BarkModel(BarkPreTrainedModel):
@@ -18,8 +26,7 @@ class BarkModel(BarkPreTrainedModel):
         self.coarse_acoustics = BarkCoarseModel(config.coarse_acoustics_config)
         self.fine_acoustics = BarkFineModel(config.fine_acoustics_config)
-		self.vocos = Vocos.from_pretrained("hubertsiuzdak/vocos-encodec-24khz-v2")
         self.config = config
     @property
@@ -195,7 +202,7 @@ class BarkModel(BarkPreTrainedModel):
         # 4. Decode the output and generate audio array
         bandwidth_id = torch.tensor([2]).to(self.device)
         # transpose
-        value = value.transpose(0,1)
         value = self.vocos.codes_to_features(value)
         value = self.vocos.decode(value, bandwidth_id=bandwidth_id)
@@ -204,4 +211,4 @@ class BarkModel(BarkPreTrainedModel):
             self.vocos.offload()
-        return audio

 from vocos import Vocos
+from typing import Dict, Optional, Tuple, Union
+from transformers.models.bark import BarkSemanticModel, BarkCoarseModel, BarkFineModel, BarkPreTrainedModel
 from transformers.models.bark.generation_configuration_bark import (
     BarkCoarseGenerationConfig,
     BarkFineGenerationConfig,
     BarkSemanticGenerationConfig,
 )
 from transformers import BarkConfig
+from transformers.modeling_utils import get_parameter_device
+from transformers.utils import (
+    is_accelerate_available,
+)
 import torch
 class BarkModel(BarkPreTrainedModel):
         self.coarse_acoustics = BarkCoarseModel(config.coarse_acoustics_config)
         self.fine_acoustics = BarkFineModel(config.fine_acoustics_config)
+        self.vocos = Vocos.from_pretrained("hubertsiuzdak/vocos-encodec-24khz-v2")
         self.config = config
     @property
         # 4. Decode the output and generate audio array
         bandwidth_id = torch.tensor([2]).to(self.device)
         # transpose
+        value = output.transpose(0,1)
         value = self.vocos.codes_to_features(value)
         value = self.vocos.decode(value, bandwidth_id=bandwidth_id)
             self.vocos.offload()
+        return value