fixie-ai
/

ultravox-v0_4

Audio-Text-to-Text

feature-extraction

Model card Files Files and versions Community

farzadab commited on Aug 28, 2024

Commit

d9b04dc

·

verified ·

1 Parent(s): 416504a

Update ultravox_processing.py

Files changed (1) hide show

ultravox_processing.py +28 -0

ultravox_processing.py CHANGED Viewed

@@ -4,6 +4,8 @@ import numpy as np
 import torch
 import transformers
 class UltravoxProcessor(transformers.ProcessorMixin):
     """
@@ -59,6 +61,29 @@ class UltravoxProcessor(transformers.ProcessorMixin):
         super().__init__(audio_processor=audio_processor, tokenizer=tokenizer)
     def __call__(
         self,
         text: Optional[str] = None,
@@ -178,3 +203,6 @@ class UltravoxProcessor(transformers.ProcessorMixin):
         tokenizer_input_names = self.tokenizer.model_input_names
         audio_processor_input_names = self.audio_processor.model_input_names
         return list(set(tokenizer_input_names + audio_processor_input_names))

 import torch
 import transformers
+from .ultravox_config import UltravoxConfig
 class UltravoxProcessor(transformers.ProcessorMixin):
     """
         super().__init__(audio_processor=audio_processor, tokenizer=tokenizer)
+    @classmethod
+    def from_pretrained(cls, pretrained_model_name_or_path, **kwargs):
+        config: UltravoxConfig = transformers.AutoConfig.from_pretrained(
+            pretrained_model_name_or_path, **kwargs
+        )
+        audio_processor = transformers.AutoProcessor.from_pretrained(
+            config.audio_model_id
+            or config.audio_config._name_or_path
+            or "facebook/wav2vec2-base-960h"
+        )
+        tokenizer = transformers.AutoTokenizer.from_pretrained(
+            pretrained_model_name_or_path, **kwargs
+        )
+        tokenizer.padding_side = "left"
+        tokenizer.pad_token = tokenizer.eos_token
+        return cls(
+            audio_processor=audio_processor,
+            tokenizer=tokenizer,
+            stack_factor=config.stack_factor,
+        )
     def __call__(
         self,
         text: Optional[str] = None,
         tokenizer_input_names = self.tokenizer.model_input_names
         audio_processor_input_names = self.audio_processor.model_input_names
         return list(set(tokenizer_input_names + audio_processor_input_names))
+transformers.AutoProcessor.register(UltravoxConfig, UltravoxProcessor)