Spaces:

Samarth991
/

LLAMA-QA-AudioFiles

Running

Samarth991 commited on Sep 28, 2023

Commit

34a0eeb

•

1 Parent(s): fe5b216

adding duration feature

Files changed (2) hide show

app.py CHANGED Viewed

@@ -52,7 +52,7 @@ def process_documents(documents,data_chunk=1500,chunk_overlap=100):
     texts = text_splitter.split_documents(documents)
     return texts
-def audio_processor(wav_file,API_key,wav_model='small',llm='HuggingFace',temperature=0.1,max_tokens=4096):
     device='cpu'
     logger.info("Audio File Name :",wav_file.name)
     whisper = whisper_app.WHISPERModel(model_name=wav_model,device=device)

     texts = text_splitter.split_documents(documents)
     return texts
+def audio_processor(wav_file,API_key,wav_model='small',llm='HuggingFace',temperature=0.1,max_tokens=4096,duration=5):
     device='cpu'
     logger.info("Audio File Name :",wav_file.name)
     whisper = whisper_app.WHISPERModel(model_name=wav_model,device=device)

whisper_app.py CHANGED Viewed

@@ -18,15 +18,17 @@ class WHISPERModel:
         result = self.model.transcribe(clip_audio)
         return result['language']
-    def read_audio(self,audio_path):
         audio = None
         try:
             audio = whisper.load_audio(audio_path)
         except IOError as err:
             raise err
         return audio
-    def speech_to_text(self, audio_path):
         text_data = dict()
         audio_duration = 0
         conv_language = ""
@@ -36,6 +38,8 @@ class WHISPERModel:
                 audio = self.read_audio(audio_path)
             else:
                 raise("Unable to reach for URL {}".format(audio_path))
         if audio :
             conv_language = self.get_info(audio)
             if conv_language !='en':

         result = self.model.transcribe(clip_audio)
         return result['language']
+    def read_audio(self,audio_path,duration=None):
         audio = None
         try:
             audio = whisper.load_audio(audio_path)
+            if duration :
+                audio = whisper.pad_or_trim(audio, length=SAMPLE_RATE * duration*60)
         except IOError as err:
             raise err
         return audio
+    def speech_to_text(self, audio_path,duration=None):
         text_data = dict()
         audio_duration = 0
         conv_language = ""
                 audio = self.read_audio(audio_path)
             else:
                 raise("Unable to reach for URL {}".format(audio_path))
+        else:
+            self.read_audio(audio_path)
         if audio :
             conv_language = self.get_info(audio)
             if conv_language !='en':