asr-inference

Running on Zero

App Files Files Community

Ankush Rana commited on Jun 7, 2024

Commit

c4dca95

1 Parent(s): 8f427be

make model offline

Browse files

Files changed (4) hide show

.gitignore +2 -0
pyannote/config.yaml +10 -0
pyannote/pytorch_model.bin +3 -0
whisper.py +3 -5

.gitignore CHANGED Viewed

@@ -1,2 +1,4 @@
 venv
 **/__pycache__

 venv
 **/__pycache__
+venv
+.env

pyannote/config.yaml ADDED Viewed

	@@ -0,0 +1,10 @@

+pipeline:
+  name: pyannote.audio.pipelines.VoiceActivityDetection
+  params:
+    segmentation: ./pyannote/pytorch_model.bin
+params:
+  min_duration_off: 0.09791355693027545
+  min_duration_on: 0.05537587440407595
+  offset: 0.4806866463041527
+  onset: 0.8104268538848918

pyannote/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b5b3216d60a2d32fc086b47ea8c67589aaeb26b7e07fcbe620d6d0b83e209ea
+size 17719103

whisper.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from pyannote.audio import Pipeline
 from pydub import AudioSegment
-import os
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
 import torchaudio
 import torch
@@ -12,7 +12,7 @@ torch_dtype = torch.float32
 MODEL_NAME = "openai/whisper-large-v3"
 model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
 processor = WhisperProcessor.from_pretrained(MODEL_NAME)
-pipeline_vad = Pipeline.from_pretrained("pyannote/voice-activity-detection", use_auth_token=os.environ.get("HF_TOKEN"))
 threshold = 15000  # adjust max duration threshold
 segments_dir = "."
@@ -67,7 +67,6 @@ def generate_1st_chunk(audio):
     #exclude prompt from output
     forced_decoder_tokens = convert_forced_to_tokens(forced_decoder_ids)
     output = processor.decode(pred_ids[0][len(forced_decoder_tokens) + 1:], skip_special_tokens=True)
-    output_tokens = processor.batch_decode(pred_ids, skip_special_tokens=False)
     return output[1:]
@@ -117,7 +116,6 @@ def generate_from_2nd_chunk(audio, prev_prompt):
     #exclude prompt from output
     forced_decoder_tokens = convert_forced_to_tokens(forced_decoder_ids)
     output = processor.decode(pred_ids[0][len(forced_decoder_tokens) + 1:], skip_special_tokens=True)
-    output_tokens = processor.batch_decode(pred_ids, skip_special_tokens=False)
     return output[1:]
 def processing_vad_v3(audio, output_vad, prev_prompt):
@@ -126,8 +124,8 @@ def processing_vad_v3(audio, output_vad, prev_prompt):
     for speech in output_vad.get_timeline().support():
         start, end = speech.start, speech.end
         segment_audio = audio[start * 1000:end * 1000]
-        segment_audio.export(os.path.join(segments_dir, f"temp_segment.wav"), format="wav")
         filename = os.path.join(segments_dir, f"temp_segment.wav")
         if first_chunk:
             output = generate_1st_chunk(filename)
             first_chunk = False

+import os
 from pyannote.audio import Pipeline
 from pydub import AudioSegment
 from transformers import WhisperForConditionalGeneration, WhisperProcessor
 import torchaudio
 import torch
 MODEL_NAME = "openai/whisper-large-v3"
 model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME, torch_dtype=torch_dtype).to(device)
 processor = WhisperProcessor.from_pretrained(MODEL_NAME)
+pipeline_vad = Pipeline.from_pretrained("./pyannote/config.yaml")
 threshold = 15000  # adjust max duration threshold
 segments_dir = "."
     #exclude prompt from output
     forced_decoder_tokens = convert_forced_to_tokens(forced_decoder_ids)
     output = processor.decode(pred_ids[0][len(forced_decoder_tokens) + 1:], skip_special_tokens=True)
     return output[1:]
     #exclude prompt from output
     forced_decoder_tokens = convert_forced_to_tokens(forced_decoder_ids)
     output = processor.decode(pred_ids[0][len(forced_decoder_tokens) + 1:], skip_special_tokens=True)
     return output[1:]
 def processing_vad_v3(audio, output_vad, prev_prompt):
     for speech in output_vad.get_timeline().support():
         start, end = speech.start, speech.end
         segment_audio = audio[start * 1000:end * 1000]
         filename = os.path.join(segments_dir, f"temp_segment.wav")
+        segment_audio.export(filename, format="wav")
         if first_chunk:
             output = generate_1st_chunk(filename)
             first_chunk = False